---
title: "IA para extraer datos de cédulas LATAM: stack y casos"
description: "Cómo usar IA para extraer datos de cédulas de identidad en LATAM: INE, CURP, DNI, cédula colombiana, validación biométrica y costos reales."
slug: "ia-para-extraer-datos-de-cedulas-de-identidad-latam"
url: "https://catalizadora.ai/blog/ia-para-extraer-datos-de-cedulas-de-identidad-latam"
cluster: "implementacion-ia/extraer-datos-cedulas"
author: "Pablo Estrada"
published_at: "2026-05-11T12:00:00+00:00"
updated_at: "2026-06-19T19:59:51.42746+00:00"
read_minutes: "5"
lang: "es"
---
# IA para extraer datos de cédulas LATAM: stack y casos

> Cómo usar IA para extraer datos de cédulas de identidad en LATAM: INE, CURP, DNI, cédula colombiana, validación biométrica y costos reales.

Usar IA para extraer datos de cédulas de identidad en LATAM ya es estándar productivo con precisión de 95 a 99 por ciento y costo entre 30 y 100 USD mensuales para volúmenes de 1,000 cédulas. La trampa común: confundir extracción con verificación. Extraer datos es OCR, verificar identidad requiere validación contra emisor y liveness biométrico. Para onboarding serio en banca, telco o crédito necesitas las tres capas. KPIs en código, no hallucinations.

El mercado LATAM tiene siete documentos principales que cubren 95 por ciento del KYC: INE y CURP en México, cédula de ciudadanía y de extranjería en Colombia, DNI y CUIT en Argentina, RUT en Chile, DNI en Perú, DPI en Guatemala. Pasaporte es bonus y se lee con estándar MRZ internacional.

## Qué datos se extraen de cada documento

Cada cédula latinoamericana tiene campos distintos pero todos cubren los esenciales para KYC.

- **INE México**: nombre completo, CURP, clave de elector, fecha de nacimiento, domicilio, sección electoral, año de emisión
- **CURP México**: 18 caracteres alfanuméricos derivados (homoclave verificable)
- **Cédula Colombia**: nombre, número, fecha de expedición, lugar de expedición, fecha de nacimiento, sexo
- **DNI Argentina**: nombre, apellido, sexo, fecha de nacimiento, nacionalidad, número de DNI, fecha de emisión, fecha de vencimiento, ejemplar (A, B, C, F)
- **RUT Chile**: nombre, RUT (con dígito verificador), nacionalidad, profesión, fecha de nacimiento, fecha de emisión
- **DNI Perú**: nombre, apellido, fecha de nacimiento, domicilio, departamento, provincia, distrito, número de DNI
- **DPI Guatemala**: nombre, CUI, fecha de nacimiento, departamento, género, fecha de vencimiento

Para pasaporte el estándar MRZ (machine readable zone) en las dos líneas inferiores estructura todo: nombre, número, nacionalidad, fecha de nacimiento, sexo, fecha de vencimiento.

## Caso real: snapshot validado fila a fila

Una distribuidora multi-país con 239 países en su catálogo, 446 oficinas y 2.7 millones de clientes y contactos necesitó snapshot completo de su SQL Server con histórico de 98 millones de filas. El proyecto incluyó normalización de datos de identidad con triple validación (source, bronze, silver).

- **197 tablas snapshotteadas** en pipeline paralelo
- **2.7 GB de bronze parquet** generado en 48 horas overnight
- **2,528 archivos** subidos a Storage bucket organizado
- **Verificación con 8 chunking paralelos** sobre rangos de PK
- **Cero orphan FKs** en población final
- **204 oficinas reales operativas** identificadas de 445 registradas (limpieza de inactivas)

El mismo patrón aplica para verificación de cédulas: bronze guarda el escaneo original, silver normaliza por país y tipo, gold expone vistas indexadas para auditoría.

## Stack para 1,000 a 100,000 cédulas mensuales

| Capa | Tecnología | Por qué |
|---|---|---|
| Captura | Web SDK con liveness, app móvil, API | Multi-canal |
| Pre-proceso | OpenCV corrección de perspectiva | Mejora 15 por ciento |
| OCR | Claude Vision o Google Document AI | Mejor con plantillas latinas |
| Extracción estructurada | Claude con JSON schema por país | Output validable |
| Validación de formato | TypeScript con regex por país | Detecta dígito verificador inválido |
| Validación contra emisor | API RENAPER, INE, Registraduría | Cuando aplique |
| Liveness biométrico | iProov, FaceTec o custom MediaPipe | Antifraude |
| Almacén | Supabase Storage cifrado | Auditable |
| Logs | Append-only SHA-256 hash chain | Compliance |

## Validaciones obligatorias por país

México: CURP tiene dígito verificador algorítmico. Se calcula y se compara. INE tiene clave de elector con homoclave que se valida con API de INE (servicio público desde 2020). Argentina: DNI tiene formato fijo (8 dígitos), CUIT calcula dígito verificador con módulo 11. RENAPER ofrece API de validación con consentimiento del titular.

Colombia: cédula no tiene dígito verificador estándar, pero la Registraduría ofrece consulta de estado (vigente, fallecida, cancelada). Chile: RUT tiene dígito verificador módulo 11 ampliamente conocido y obligatorio validar. Perú: DNI no tiene dígito interno verificable, RENIEC ofrece consulta privada con costo.

## ¿Qué tan grave es no hacer liveness?

Es la diferencia entre un sistema serio y un colador. Sin liveness, cualquiera con foto de cédula ajena (encontrada en redes, basura, robo) pasa el KYC. La regulación lo sabe: la CNBV en México exige biometría con prueba de vida desde 2018, la SFC colombiana desde 2020, el BCRA argentino desde 2019. Si tu producto opera sin liveness, estás incumpliendo regulación financiera de facto.

Liveness se hace con captura de selfie con instrucciones aleatorias (mover cabeza, parpadear, sonreír). El modelo verifica que es un humano real, no una foto. Stack común: iProov o FaceTec (premium), o MediaPipe custom (más barato).

## Costos reales para distintos volúmenes

| Volumen mensual | Stack | Costo infraestructura | Costo captura manual |
|---|---|---|---|
| 100 cédulas | Claude Vision sin liveness | 10 USD | 50 USD (2.5h) |
| 1,000 cédulas | Claude Vision con liveness MediaPipe | 60 USD | 500 USD (25h) |
| 10,000 cédulas | Document AI con FaceTec liveness | 400 USD | 5,000 USD (250h) |
| 100,000 cédulas | Pipeline custom premium | 2,500 USD | Imposible manual |

## ¿Se puede hacer onboarding 100 por ciento automático?

Sí cuando todas las validaciones pasan: OCR con alta confianza, dígito verificador correcto, API del emisor confirma vigencia, liveness pasa. En esos casos (típicamente 80 a 90 por ciento de solicitudes) el onboarding cierra en menos de 60 segundos sin intervención. El 10 a 20 por ciento restante escala a revisión humana con todos los datos pre-cargados. Esa proporción es lo que distingue un sistema productivo de un demo.

## Próximos pasos

Para fintechs, telcos, plataformas de crédito o aseguradoras con KYC volumétrico, [MAGIA Forge](https://catalizadora.ai/magia/forge) entrega pipeline completo en 12 semanas a 20,000 USD: captura multi-canal, OCR multi-país, validación contra emisor, liveness biométrico, logs auditables y compliance financiero. Para empresas con KYC moderado (registro de clientes B2B, onboarding de proveedores), [MAGIA Core](https://catalizadora.ai/magia/core) a 15,000 USD cubre el alcance.

Agenda una sesión técnica de 30 minutos para revisar el stack adecuado a tu volumen y regulación. Llamada con quien construye el pipeline.
## Preguntas frecuentes

### ¿Qué cédulas y documentos puede leer la IA en LATAM?

INE y CURP en México, cédula de ciudadanía y cédula de extranjería en Colombia, DNI y CUIT en Argentina, RUT en Chile, DNI en Perú, DPI en Guatemala. Para pasaporte el estándar internacional MRZ permite lectura confiable con cualquier OCR maduro. Cubre 95 por ciento de los KYC en LATAM.

### ¿Qué precisión real se logra y por qué importa?

Entre 95 y 99 por ciento campo a campo en documentos auténticos con buena foto. La precisión cruda no basta: necesitas validar contra el emisor cuando sea posible (RENAPER en Argentina, INE en México con API de validación, Registraduría en Colombia). Validar contra emisor convierte precisión 95 por ciento en aceptación efectiva mayor a 99 por ciento.

### ¿Es legal usar IA para onboarding con cédula en LATAM?

Sí, regulado y aceptado en los principales países. La CNBV en México permite onboarding digital con biometría desde 2018. Colombia con la SFC desde 2020. Argentina con el BCRA y RENAPER. Chile con la CMF. Los requisitos: consentimiento expreso, almacenamiento cifrado, retención mínima, derecho de acceso del titular.

### ¿Cuánto cuesta procesar mil cédulas mensuales en producción?

Entre 30 y 100 USD al mes según mix de calidades. Stack con Claude Vision o Google Document AI ronda 60 USD. Comparado contra captura manual a 90 segundos por cédula, son 25 horas mensuales que cuestan al menos 400 USD.

### ¿Cómo se previene el fraude con cédulas falsificadas?

Tres capas. Una: validación visual contra plantilla oficial (formato, fuentes, posición de campos, hologramas). Dos: cruzado con bases oficiales cuando hay API (RENAPER, INE, Registraduría). Tres: liveness detection en la captura (selfie con movimiento). Sin biometría liveness, cualquier fraude con cédula impresa pasa.


---

Source: https://catalizadora.ai/blog/ia-para-extraer-datos-de-cedulas-de-identidad-latam
Author: Pablo Estrada — AI Catalyst, LLC (catalizadora.ai)
