---
title: "Entrenar agente IA con documentos RAG"
description: "Entrenar agente IA con documentos propios: pipeline RAG, embeddings, vector store y guardrails. Pasos concretos para empresa LATAM con 200 a 50,000 docs."
slug: "como-entrenar-un-agente-ia-con-documentos-de-la-empresa"
url: "https://catalizadora.ai/blog/como-entrenar-un-agente-ia-con-documentos-de-la-empresa"
cluster: "implementacion-ia/entrenar-agente-documentos"
author: "Pablo Estrada"
published_at: "2026-05-11T12:00:00+00:00"
updated_at: "2026-06-19T19:59:51.42746+00:00"
read_minutes: "5"
lang: "es"
---
# Entrenar agente IA con documentos RAG

> Entrenar agente IA con documentos propios: pipeline RAG, embeddings, vector store y guardrails. Pasos concretos para empresa LATAM con 200 a 50,000 docs.

Entrenar un agente IA con documentos de tu empresa significa montar un pipeline RAG (Retrieval Augmented Generation) donde los documentos se procesan en chunks, se convierten en embeddings, se guardan en vector store propio y se consultan en tiempo de inferencia. No es fine tuning. En un caso documentado migramos 3.6M filas a Supabase en 48 horas con verificación fila a fila sobre 13M filas legacy y 197 tablas, según el caso. Convergencia es diagnóstico real.

## ¿Por qué RAG y no fine tuning?

Porque RAG es flexible, auditable y barato de mantener. Fine tuning hace al modelo "memorizar" patrones, lo cual sirve para estilo o tono específico pero no para hechos verificables. Si tu política de devolución cambia el mes que viene, con RAG actualizás un documento y el agente lo lee. Con fine tuning reentrenás todo el modelo, lo cual cuesta tiempo y dinero.

| Criterio | RAG | Fine tuning |
|---|---|---|
| Costo inicial | Bajo (embeddings + storage) | Alto (compute para entrenar) |
| Actualización | Editar doc fuente | Reentrenar modelo |
| Auditabilidad | Cita fuente exacta | No cita |
| Adaptación a cambio | Inmediata | Días o semanas |
| Caso de uso ideal | Hechos, política, FAQ | Estilo, tono específico |
| Costo operación | Pass-through tokens | Igual + memoria reservada |

Para 95% de los casos de empresa, RAG resuelve. Híbrido (fine tuning para tono más RAG para hechos) tiene sentido en consultoras grandes o medios editoriales.

## Arquitectura del pipeline RAG paso a paso

1. Ingesta: tus documentos llegan al sistema. PDFs, Word, Excel, páginas web, transcripciones de juntas
2. Pre-proceso: parser por tipo extrae texto plano respetando estructura (títulos, tablas, listas)
3. OCR: escaneos pasan por Vision API antes del chunking
4. Chunking: el texto se divide en fragmentos de 500 a 1,500 tokens con solapamiento de 10 a 20%
5. Embeddings: cada chunk se convierte en vector con OpenAI ada o Cohere multilingual
6. Vector store: los vectores se guardan en Pinecone, Supabase pgvector o Weaviate
7. Indexación: metadatos por chunk (fuente, fecha, departamento, permisos)
8. Inferencia: el usuario pregunta, el sistema embed la consulta, busca top-k chunks similares, los pasa al LLM con la pregunta
9. Generación: el LLM redacta respuesta citando fuentes
10. Audit: cada consulta queda registrada con qué chunks se usaron

## El chunking es el 80% de la calidad

La precisión del agente depende casi enteramente del chunking. Errores comunes:

- Chunks demasiado largos: el modelo se pierde, latencia alta, costo más caro
- Chunks demasiado cortos: pierde contexto, fragmenta sentido
- Sin solapamiento: información en frontera entre chunks se rompe
- Sin metadatos: imposible filtrar por departamento, permiso o fecha
- Sin estructura: bullets y tablas tratados como texto plano pierden semántica

La regla práctica para empresa LATAM: chunks de 800 a 1,200 tokens con 100 a 200 de solapamiento, metadatos enriquecidos (fuente, fecha, autor, tipo de doc, permisos), tablas chunkeadas en código de markdown.

## El caso real: arquitectura Bronze Silver Gold para data

En un proyecto reciente para distribuidora con 13M filas legacy en SQL Server 2019 con 197 tablas inconsistentes, el reto fue normalizar 10 años de datos.

- Data Lake arquitectura Bronze, Silver, Gold con Supabase
- 3.6M filas migradas en 48 horas
- 1.17 TB en GCS como bronze parquet raw
- 197 tablas snapshot, 825 vistas Silver, 75 tablas Gold materializadas
- Verificación fila a fila: source igual a bronze igual a silver igual a gold
- 73 Gold tables finales normalizadas
- 57 RLS policies, 17 roles RBAC

El patrón se aplica a documentos igual. Bronze guarda el doc crudo. Silver tiene texto extraído y normalizado. Gold tiene chunks listos para vector store con embeddings y metadatos. Si mañana querés rastrear por qué el agente respondió X, hay trazabilidad fila por fila hasta el PDF original.

## ¿Qué documentos conviene cargar primero?

Orden recomendado por ROI:

1. FAQ y políticas (devolución, garantía, envío): impacto inmediato en atención al cliente
2. Catálogo de productos con descripciones técnicas: habilita cotización y soporte
3. Manuales operativos internos: capacitación y onboarding
4. Documentación legal y contratos modelo: agilidad para legal y comercial
5. Histórico de propuestas ganadas: aprendizaje de patrones exitosos
6. Notas de junta y minutas: memoria organizacional
7. Bases técnicas, especificaciones de obra: ingeniería y compras

No es buena idea cargar todo de una. Empezar con 50 a 200 docs críticos, medir calidad, iterar chunking y prompts, expandir.

## Permisos y compliance

El sistema debe respetar permisos del usuario. No todos pueden consultar todos los docs. Patrón estándar:

- Metadatos por chunk incluyen tags (departamento, confidencialidad, fecha)
- Cada consulta del agente filtra por permisos del usuario antes del retrieval
- Audit log inmutable registra qué chunks se usaron en cada respuesta
- Datos del cliente nunca salen de tu infraestructura
- El LLM se consume vía API con garantía contractual de no entrenamiento

Para industrias reguladas (salud, finanzas, legal) el setup incluye cifrado a nivel campo, retention policies y procedimiento de derecho al olvido.

## ¿Cuánto cuesta operar RAG empresarial?

| Volumen | Storage | Embeddings | Consultas mensuales | Costo total mensual aprox. |
|---|---|---|---|---|
| 500 docs, 50K chunks | 5 USD | 5 USD | 10,000 | 100 a 200 USD |
| 5,000 docs, 500K chunks | 50 USD | 50 USD | 100,000 | 500 a 1,500 USD |
| 50,000 docs, 5M chunks | 500 USD | 500 USD | 1,000,000 | 3,000 a 8,000 USD |

El costo escala lineal con uso, no con número de usuarios. Sin licencias por seat.

## Próximos pasos

Si tu empresa tiene entre 200 y 50,000 documentos críticos atrapados en carpetas, drives y emails, y querés que tu equipo y tus clientes accedan en lenguaje natural, el primer paso es una llamada de 30 minutos para revisar tu universo documental y casos de uso prioritarios.

Conocé [MAGIA Core](https://catalizadora.ai/magia/core) por 15,000 USD a 12 semanas con data lake y agente con guardrails, o [MAGIA Forge](https://catalizadora.ai/magia/forge) por 20,000 USD para custom enterprise.
## Preguntas frecuentes

### ¿Cómo entrenar un agente IA con los documentos de mi empresa?

Usá RAG (Retrieval Augmented Generation), no fine tuning. Procesá tus documentos en chunks, generá embeddings, guardalos en vector store y dejá que el LLM consulte en tiempo de inferencia. El agente cita fuente verificable.

### ¿RAG o fine tuning, cuál conviene para PYME?

RAG casi siempre. Fine tuning es caro, requiere reentrenar cuando cambia info y no permite citar fuente. RAG es flexible, barato de mantener y auditable. Para casos muy específicos un híbrido funciona.

### ¿Cuántos documentos puede manejar el agente?

Sin problema 200 a 50,000 docs. Vector stores modernos (Pinecone, Supabase pgvector, Weaviate) escalan a millones de chunks con consulta menor a 100 ms. Lo crítico es la calidad del chunking, no el volumen.

### ¿Funciona con PDFs escaneados, Word y Excel mezclados?

Sí. El pipeline incluye OCR para escaneos, parsers específicos por tipo y normalización a texto plano antes de chunking. Excel y CSV se procesan distinto (tablas) que documentos narrativos.

### ¿Qué pasa con información confidencial y compliance?

Los documentos viven en tu propia infraestructura (Supabase, S3, GCS con tu cuenta). El LLM consume vía API con garantía contractual de no entrenamiento. Audit log de cada consulta para trazabilidad legal.


---

Source: https://catalizadora.ai/blog/como-entrenar-un-agente-ia-con-documentos-de-la-empresa
Author: Pablo Estrada — AI Catalyst, LLC (catalizadora.ai)