Revista Digital Universitaria
ISSN: 1607 - 6079 Publicación mensual
 
1 de julio de 2011 Vol.12, No.7
  Inicio Ejemplares Directorio Quiénes somos Busca artículos Vínculos Contacto Mapa de sitio
 
Documento sin título
 
El Corpus Histórico del Español en México
Alfonso Medina Urrea y Carlos Francisco Méndez Cruz
CITA
PDF
   
Los documentos del CHEM
Arquitectura de cómputo
Las herramientas del CHEM
Estadísticas de asociación de palabras
El acervo del CHEM
Conclusiones y Bibliografía
Aumentar Letra Disminuir Letra Disminuir Letra   facebook
twitter
google
 

Introducción


Los corpus lingüísticos constituyen uno de los tipos más prominentes de recursos digitales de uso en las humanidades. En la tradición lingüística los corpus se conocen como muestras textuales de diversas naturalezas, escritos u orales, representativos de alguna lengua, área temática, género literario, registro sociolingüístico, lenguaje de especialidad, etcétera. Hoy en día, los corpus lingüísticos son irremediablemente electrónicos. En México, la compilación de corpus electrónicos se inició en los años setenta, antes de la era de Internet. El primer corpus electrónico en español, el Corpus del Español Mexicano Contemporáneo de El Colegio de México, se constituyó como la base estadística de la nomenclatura del Diccionario del Español en México. Luego, con el advenimiento de Internet se han hecho disponibles al mundo los corpus de la Real Academia Española (CORDE y CREA), el Corpus del Español de Mark Davies y El Corpus Histórico del Español en México (CHEM). Este último, desarrollado en el Grupo de Ingeniería Lingüística (GIL) del Instituto de Ingeniería de la Universidad Nacional Autónoma de México, es el foco del presente artículo.

Los corpus son un recurso fundamental en las investigaciones lingüísticas, en el desarrollo de herramientas de procesamiento de lenguaje natural y en la construcción de otros recursos lingüísticos como son los diccionarios, lexicones, etcétera. Por todo esto, en el GIL se han desarrollado herramientas computacionales de extracción automática de términos y definiciones (para la lexicografía y terminología computacionales), con el afán de apoyar de forma decisiva la labor de lexicógrafos y terminólogos. En este contexto, en el GIL se han abierto proyectos para elaborar corpus de diversas áreas, como la Ingeniería, los Contextos Definitorios (fragmentos textuales que incluyen en su interior un término y su definición) y las Sexualidades en México, lo que permitirá el estudio de documentos sobre las áreas de sexualidad y sexología y la futura creación automática de diccionarios electrónicos.

Definición

El CHEM es un corpus diacrónico, esto es, que comprende varios estados de la lengua (del siglo XVI al siglo XX) y que, durante los últimos seis años, nos ha permitido realizar investigación aplicada sobre la constitución de corpus lingüísticos electrónicos. Después de largo tiempo de investigación y desarrollo computacional, mediante el patrocinio de la DGAPA y el CONACyT, el CHEM está en línea en la dirección: http://www.corpus.unam.mx/chem/. La Figura 1 muestra la página inicial de su interfaz de consulta.

pagina

Figura 1. Página inicial de la interfaz de consulta del CHEM.

Este corpus incluye, por un lado, una colección de documentos producidos en la Nueva España y el México independiente, dispersos en distintos géneros textuales y, por otro, las herramientas para explorar y analizar dicha colección. De hecho, busca apoyar las tareas de investigación de filólogos, lingüistas, historiadores y todo aquel interesado en la cultura novohispana y del México de los últimos siglos. Por supuesto que el carácter diacrónico del CHEM lo hace un recurso especialmente útil en estudios de variación lingüística temporal, es decir, fenómenos que tienen que ver con los cambios que ha sufrido el español a través del tiempo.

 
  subir        
 
  Editorial
 

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons