Arquitectura de hojas de cálculo con IA On-Prem: Del endpoint de LLM al análisis gobernado.

Ejecutar un LLM on-premise es solo el primer paso.

Si el objetivo es el análisis de hojas de cálculo con IA, el endpoint del modelo no es suficiente. Un usuario de negocio no quiere enviar JSON puro a un servidor de inferencia interno. Lo que busca es cargar un libro de trabajo, hacer una pregunta, obtener una respuesta fiable, generar un gráfico y saber de dónde provienen los números.

Esto requiere una arquitectura que rodee al modelo.

Esta guía explica los componentes principales de un sistema de hojas de cálculo con IA on-premise.

Arquitectura de referencia

Una arquitectura práctica de hojas de cálculo con IA on-premise tiene este aspecto:

Capas de la arquitectura de hojas de cálculo con IA on-premise, desde el flujo de trabajo del usuario hasta la gobernanza y la pista de auditoría

El orden puede variar, pero el principio es constante: el LLM debe razonar y explicar, mientras que los sistemas controlados gestionan el acceso a los datos, el cómputo, la seguridad y la auditabilidad.

Identidad y control de acceso

Empiece por la identidad.

Cada respuesta de la IA debe estar vinculada a un usuario, un espacio de trabajo, un archivo y una decisión de permiso.

Los despliegues empresariales suelen requerir:

SSO a través de SAML o OIDC
Control de acceso basado en roles (RBAC)
Mapeo de grupos desde el proveedor de identidad
Permisos a nivel de espacio de trabajo
Permisos a nivel de archivo
Listas de permitidos para conjuntos de datos
Controles de administración

Si el sistema se conecta a bases de datos o almacenamiento de objetos, no debe saltarse los permisos existentes. La IA no debe convertirse en un atajo para eludir la gobernanza.

Pantalla de carga de archivos de RowSpeak para la ingesta de hojas de cálculo

Ingesta de libros de trabajo

La ingesta de hojas de cálculo es más difícil de lo que parece.

Un libro de trabajo real puede contener:

Múltiples hojas
Hojas ocultas
Fórmulas
Celdas combinadas
Encabezados inconsistentes
Rangos con nombre
Comentarios
Formato con significado implícito
Hojas protegidas
Gráficos y tablas dinámicas
Enlaces externos
Macros

Un sistema de producción debe analizar suficiente estructura para evitar dar al modelo una visión distorsionada de los datos.

Por seguridad, los archivos con macros habilitadas deben manejarse con cuidado. Si el sistema ejecuta algo, debe hacerlo en un sandbox. En muchos despliegues, las macros deben ser escaneadas, bloqueadas o tratadas como metadatos en lugar de ser ejecutadas.

Comprensión de la hoja de cálculo

Tras la ingesta, el sistema debe construir una representación útil del libro de trabajo.

Esto puede incluir:

Resúmenes de hojas
Límites de tablas
Nombres de columnas y tipos inferidos
Filas de muestra
Mapas de dependencia de fórmulas
Métricas detectadas
Rangos de fechas
Valores faltantes
Anomalías
Relaciones entre hojas o archivos

Esta representación es lo que el modelo debe ver primero. Enviar un libro de trabajo completo en un prompt suele ser ineficiente y arriesgado.

El objetivo es dar al modelo suficiente contexto para planificar el siguiente paso, no hacer que el modelo memorice todo el archivo.

Capa de cómputo determinista

Para la IA aplicada a hojas de cálculo, este es uno de los componentes más importantes.

El modelo no debe calcular números críticos internamente. Debe llamar a herramientas.

La capa de cómputo puede incluir:

Fórmulas de hojas de cálculo
SQL
DuckDB
pandas
Polars
Pushdown al almacén de datos
Generación de gráficos
Verificaciones de validación

Por ejemplo, si un usuario pregunta por los principales clientes por ingresos, el modelo puede identificar los campos correctos y producir una consulta. La capa de cómputo ejecuta la consulta. El modelo luego explica el resultado.

Esta separación mejora la precisión, la velocidad y la auditabilidad.

Servicio de modelos privados

La capa del modelo puede servirse de varias maneras.

vLLM se utiliza comúnmente para inferencia autohospedada de alto rendimiento y proporciona un servidor compatible con OpenAI.

KServe es útil cuando la organización busca un servicio de modelos nativo de Kubernetes y servicios de inferencia estándar.

NVIDIA NIM ofrece microservicios de inferencia optimizados para infraestructura acelerada por NVIDIA.

Ollama es útil para pilotos y pruebas locales, aunque los despliegues en producción suelen requerir un escalado, control de acceso y observabilidad más robustos.

La capa del modelo debe tratarse como infraestructura interna:

Autenticada
Con control de versiones
Monitoreada
Aislada por controles de red
Configurada con políticas claras de retención de datos
Evaluada antes de las actualizaciones del modelo

Flujo de trabajo de IA privada para hojas de cálculo a través de análisis, cómputo, razonamiento del modelo y generación de respuestas

Orquestación de IA

La capa de orquestación decide cómo el sistema utiliza el modelo y las herramientas.

Se encarga de:

Plantillas de prompts
Selección del modelo
Selección de herramientas
Construcción del contexto
Preguntas de aclaración
Validación de consultas
Sandboxing de código
Lógica de reintentos
Formateo de respuestas

En esta capa es donde residen muchos controles de seguridad.

Por ejemplo, si el modelo genera SQL, el sistema debe validar que el SQL sea de solo lectura, limitado a las tablas permitidas y que no sea demasiado costoso. Si el modelo genera Python, el sistema debe ejecutarlo en un sandbox con el acceso a la red deshabilitado a menos que se permita explícitamente.

Auditabilidad

Los registros de auditoría no son opcionales en despliegues serios.

Un registro útil debe incluir:

Usuario
Marca de tiempo
Libro de trabajo o conjunto de datos accedido
Prompt
Nombre y versión del modelo
Consulta, fórmula o código generado
Resultados de las herramientas
Respuesta final
Decisiones de permisos
Errores y alternativas (fallbacks)

Esto no significa que cada valor sensible deba almacenarse para siempre. La retención debe ser configurable. Pero el sistema necesita suficiente trazabilidad para revisión, depuración y cumplimiento normativo.

Observabilidad

Los equipos técnicos necesitan monitorear tanto la infraestructura como la calidad de las respuestas.

Métricas de infraestructura:

Latencia
Utilización de GPU
Profundidad de la cola
Uso de tokens
Errores del modelo
Tiempo de ejecución de herramientas
Uso de almacenamiento

Métricas de calidad:

Corrección de las respuestas
Calidad de las citas
Validez de las fórmulas
Tasa de éxito de las consultas
Correcciones del usuario
Reportes de alucinaciones
Aclaraciones fallidas

Sin observabilidad, los equipos no pueden saber si el analista de IA está mejorando o produciendo silenciosamente un trabajo poco fiable.

Errores comunes

Tratar al modelo como el motor de la hoja de cálculo

Esto conduce a totales alucinados y respuestas frágiles. Use herramientas para los cálculos.

Recuperar primero y filtrar después

Los permisos deben aplicarse antes de que el contexto llegue al modelo.

Ignorar la complejidad del libro de trabajo

Las demostraciones con archivos CSV no prueban que el sistema pueda manejar archivos de Excel reales.

Registrar demasiados datos sensibles

La auditabilidad es importante, pero los registros también deben seguir las reglas de retención y privacidad.

Construir alrededor de un solo modelo

Los modelos cambian rápidamente. Diseñe el flujo de trabajo de modo que el modelo pueda ser sustituido.

Un plan de despliegue por fases

Un despliegue realista puede realizarse por etapas.

Prototipo con hojas de cálculo de muestra o anonimizadas.
Validar tareas de análisis comunes y casos de fallo.
Añadir cómputo determinista para todo el trabajo numérico.
Conectar identidad y permisos antes de usar archivos reales.
Desplegar un endpoint de modelo privado a través de vLLM, KServe, NIM u otro stack aprobado.
Añadir registros de auditoría y monitoreo.
Piloto con un equipo, generalmente finanzas, operaciones o reportes de ventas.
Evaluar los resultados frente a respuestas conocidas antes de expandir.

Esto evita el error común de convertir una demo de un modelo en un sistema de producción antes de que exista la capa de gobernanza.

Dónde encaja RowSpeak

RowSpeak puede actuar como la capa de flujo de trabajo sobre los endpoints de modelos privados y la ejecución de datos gobernada.

El servidor del modelo proporciona el razonamiento. RowSpeak proporciona la experiencia de hoja de cálculo: carga de libros, preguntas en lenguaje natural, gráficos, resúmenes, informes y flujos de análisis orientados al usuario, como el informe de ventas semanal.

Para despliegues on-premise, esa separación es valiosa. El departamento de TI puede controlar el modelo y la infraestructura. Los usuarios de negocio pueden seguir trabajando a través de una interfaz diseñada para el análisis de hojas de cálculo en lugar de llamadas a APIs puras, ya sea que el resultado final sea un dashboard de IA o un informe financiero.

Reflexión final

Un endpoint de LLM on-premise es infraestructura. Un analista de hojas de cálculo con IA on-premise es una experiencia de producto más gobernanza.

El modelo es importante, pero la arquitectura que lo rodea determina si el sistema es confiable. Para un ejemplo específico de modelo, consulte la guía relacionada sobre cómo autohospedar DeepSeek para RowSpeak.

Fuentes y lecturas adicionales

Servidor vLLM compatible con OpenAI: https://docs.vllm.ai/en/latest/serving/openai_compatible_server/
KServe: https://kserve.github.io/website/
NVIDIA NIM: https://www.nvidia.com/en-us/ai-data-science/products/nim-microservices/
Biblioteca Ollama: https://ollama.com/library
llama.cpp: https://github.com/ggml-org/llama.cpp

¡IA potencia los datos, decisiones garantizadas!

Sin necesidad de código o funciones, simplemente conversa y deja que RowSpeak procese datos y genere gráficos automáticamente. Experimenta gratis ahora y descubre cómo la IA está revolucionando tu flujo de trabajo en Excel →

Experimenta gratis ahora