
CIUDAD DE MÉXICO.- Especialistas del Centro de Investigación en Computación (CIC), del Instituto Politécnico Nacional (IPN), desarrollaron un software que muestra la forma en que eran empleadas diversas palabras del español antiguo, a través de un acervo de más de tres mil documentos escritos en América Latina desde los orígenes del español en la región hasta el siglo XX.
¿En qué siglo y en qué países de Latinoamérica era más común escribir la palabra ‘muger’ al referirse a una persona del sexo femenino? ¿De qué forma se abreviaban las palabras? ¿Cuáles se utilizaban para expresarse en contextos como documentos administrativos o en cartas informales? Esas y muchas otras preguntas pueden responderse a través de este programa llamado Cordiam.
La parte informática del proyecto, que comenzó a desarrollarse desde hace poco más de cinco años, está a cargo de los investigadores Alexander Gelbukh y Grigori Sidorov, cuya tarea principal es organizar las bases de datos para proporcionar la búsqueda de las palabras que se quieran analizar.
De acuerdo con el doctor Gelbukh, la función principal del software es proporcionar las facilidades de búsqueda de esos textos.
El investigador señaló que el Corpus Diacrónico y Diatópico del Español de América (Cordiam), de la Academia Mexicana de la Lengua en colaboración con la Academia Nacional de Letras de Uruguay, se conforma por una base de datos de tres millones de palabras, extraídas de archivos de 19 países americanos hispanohablantes, más el sur y oeste de Estados Unidos, Jamaica, Haití y Guyana.
El doctor Gelbukh señaló que los países contribuyen con textos de sus archivos históricos y los lingüistas transcriben, marcan los textos y los preparan para ser agregados al sistema.
Entre las características de Cordiam, se encuentra la posibilidad de ver y guardar el documento completo en el que se encuentra una concordancia, guardar automáticamente en una base de datos las búsquedas realizadas, así como una plantilla de metadatos para acotar las búsquedas y proporcionar información cuantitativa del universo de palabras sobre el cual se ha realizado una búsqueda.
Los documentos recopilados para el proyecto se dividen en cuatro tipos textuales que son cronísticos, administrativos, jurídicos y particulares. Los tres primeros corresponden a documentos de circulación pública, y el último, a documentos de circulación privada.
El proyecto, debido a que solo estudian textos del continente americano, permite construir una gramática histórica del español en el continente y una dialectología histórica de la lengua española en América, según se detalla en la página web de Cordiam. Por su amplitud cronológica y geográfica y por contener numerosos documentos inéditos, permitirá también estudiar o repensar fenómenos sociales, históricos y culturales de Hispanoamérica manifestados a través de la lengua española.
con información del IPN y Conacyt
jcrh