
Los grandes modelos de lenguaje ignoran la identidad más profunda de México. La respuesta del Gobierno es crear el suyo propio
ChatGPT, Gemini, Claude, Llama, DeepSeek. Hoy hay decenas de modelos conversacionales al alcance de cualquiera. Algunos son abiertos, otros gratuitos. Entonces, ¿por qué México ha decidido crear el suyo propio? ¿Qué puede aportar un modelo nacional que no aporten los gigantes de Silicon Valley, Europa o Pekín? La respuesta tiene menos que ver con la tecnología y más con la cultura.
México ha anunciado el desarrollo de su propio modelo de lenguaje de inteligencia artificial con identidad cultural mexicana e inclusión de lenguas indígenas.
Cuando la IA no entiende todo. Los modelos más conocidos de la actualidad son potentes y versátiles, pero no fueron diseñados para comprender la diversidad lingüística y cultural de todos los países. Sus datos de entrenamiento priorizan el inglés y, si bien hablan muchos otros idiomas como el español, suelen pecar de baja sensibilidad a expresiones locales o lenguas originarias.
Un estudio reciente de BID Lab, LLYC y Microsoft muestra que solo el 54% de las respuestas en lenguas indígenas fueron correctas (el 46% restante presentó errores o mezclas de idiomas). En particular, en maya y quiché la comprensión y expresión apenas llegaron a 1,25/10, mientras que en náhuatl fue 3,42/10 y en guaraní 2,77/10
Qué dijo el Gobierno mexicano. El secretario de Economía, Marcelo Ebrard, anunció que México presentará en noviembre (12 y 13, Expo Santa Fe, CDMX) los avances de su lenguaje propio de IA durante el foro “México IA + Inversión Acelerada”. “Si no nos damos prisa en dominar ese alfabeto, enfrentaremos una desventaja muy significativa en este nuevo contexto que está emergiendo hoy”, dijo.
Quién lo hace y cuánto cuesta. La Secretaría de Economía, bajo la dirección de Marcelo Ebrard, encabeza la iniciativa junto al Consejo Coordinador Empresarial (CCE) y con el respaldo tecnológico de Nvidia, que aportará capacitación y hardware sin invertir capital en el proyecto. Según el CCE, la construcción de los centros de datos requerirá una inversión aproximada de 9.000 millones de dólares.
Cómo será el modelo. El modelo prevé entrenarse con datos culturales de México, el español mexicano y lenguas indígenas activas. México reconoce 68 agrupaciones lingüísticas y 364 variantes (INALI), lo que obliga a un trabajo fino de recopilación y curación de corpus.
Qué están haciendo otros países. En América Latina, una coalición de países lanzará Latam-GPT en septiembre de 2025, liderado por CENIA (Chile) con el apoyo de más de 30 instituciones. Nace para representar la diversidad cultural y lingüística regional y funciona como proyecto regional colaborativo. En Europa, España impulsa ALIA, una infraestructura pública de modelos en castellano y lenguas cooficiales.
Imágenes | Xataka con Gemini 2.5 Flash
–
La noticia
Los grandes modelos de lenguaje ignoran la identidad más profunda de México. La respuesta del Gobierno es crear el suyo propio
fue publicada originalmente en
Xataka
por
Javier Marquez
.