Revista Digital Universitaria
ISSN: 1607 - 6079 Publicación mensual
 
1 de Mayo de 2012 Vol.13, No.5
  Inicio Ejemplares Directorio Quiénes somos Busca artículos Vínculos Contacto Mapa de sitio
 
Documento sin título
 
Procesamiento de lenguaje natural en la Universidad de la República
Dina Wonsever, Marisa Malcuori y Aiala Rosá
CITA
PDF
   
El módulo Enunciación
Interacción entre los módulos
Aumentar Letra Disminuir Letra Disminuir Letra   facebook
twitter
google
 

Introducción



Typographer por blancucha
El área de procesamiento de lenguaje natural es por su naturaleza un espacio interdisciplinario entre la Informática y la Lingüística. La vinculación corresponde a una confluencia en el objeto de estudio, el lenguaje humano, ya sea con el propósito de conocer a fondo su estructura y funcionamiento, como con el de construir aplicaciones informáticas con capacidad de realizar comprensión y extraer información de enunciados lingüísticos.

En la Universidad de la República este espacio interdisciplinario se ha concretado en el trabajo conjunto de dos grupos académicos: el Grupo de Procesamiento de Lenguaje Natural (GPLN) del Instituto de Computación de la Facultad de Ingeniería y el Departamento de Teoría del Lenguaje y Lingüística General (DTTLG), de la Facultad de Humanidades y Ciencias de la Educación. Más de diez años de trabajo conjunto se han concretado en varios proyectos de análisis de textos: modelo de discurso, reconocimiento de proposiciones, reconocimiento de eventos y expresiones temporales y otros.

El hecho de procesar textos en forma automática, cualquiera sea la finalidad con que se realiza tal tarea (extraer información, responder preguntas, realizar resúmenes y traducir), implica enfrentarse con ciertas propiedades del discurso que es necesario aprehender.

Nuestra línea de trabajo ha sido la de adoptar una estructura modular para dar cuenta de esas propiedades complejas, expresándolas mediante el análisis en distintos ejes o módulos independientes, capaces, sin embargo, de interactuar entre sí. Esta estructura, si bien no aporta en principio una visión holística del discurso, permite, sin embargo, trabajar independientemente en cada eje, al mismo tiempo que habilita la incorporación de otros nuevos, a medida que se vayan desarrollando.

Los ejes propuestos son los siguientes: Enunciación/Eventos-Factividad/ Temporalidad/Estructura retórica. A estos cuatro ejes se agregan dos más de carácter estructural: Sintaxis/Estructura textual (párrafo, sección, título, etcétera). En las secciones siguientes presentamos un panorama del trabajo realizado en algunos de estos módulos.

Los módulos Eventos-Factividad, Enunciación y Sintaxis

El módulo Eventos-Factividad

En el eje Eventos-Factividad, los elementos pertinentes que es necesario detectar y anotar, son los eventos a los que se hace referencia en los textos.

¿Qué entendemos por evento? Definimos un evento como cualquier tipo de situación o acontecimiento denotado por un predicado. Los eventos pueden ser acciones, acontecimientos llevados a cabo voluntariamente por un sujeto agente (los antropólogos forenses delimitaronel predio); procesos, acontecimientos desencadenados espontáneamente (los árboles están floreciendoprematuramente por las altas temperaturas) o acontecimientos causados por una fuerza externa al proceso (Se supo que los fuertes vientos derrumbaronvarios techos); estados, situaciones que se mantienen a lo largo de un período o son permanentes (El tránsito está detenidoa causa de los cortes de ruta).

Si bien los eventos están, en la mayoría de los casos, indicados por formas verbales, también existen nombres que designan eventos. Un nombre eventivo no designa entidades (físicas o abstractas),  sino acontecimientos o sucesos como es el caso de accidente, batalla, cena, eclipse, desfile, muerte, nacimiento, tempestad, entre muchos otros.

Mientras que la morfología verbal es un poderoso indicio para la detección de eventos designados por verbos, los sustantivos que son eventivos no difieren en su morfología de aquellos que no lo son y, por lo tanto, presentan mayor dificultad para un reconocimiento automático. Se suma a esta dificultad la ambigüedad que presentan muchos de estos nombres entre la interpretación eventiva y la de objeto: El concierto empieza a las ocho/La orquesta interpretó el concierto en si menor para violonchelo. Existen, sin embargo, una serie de indicios sintácticos que ayudan a reconocer este tipo de nombres: co-ocurrencia con verbos como tener lugar o presenciar; con verbos o expresiones que indican duración o fase aspectual como empezar, comenzar, concluir, terminar, durar.

Dijimos que un aspecto central en la comprensión computacional de un texto es la detección de los eventos referidos en él. Ahora bien, veamos el siguiente ejemplo en el cual hemos marcado con negrita los eventos y hemos subrayado uno de ellos que tiene naturaleza aspectual:

Esto dificulta aún más el diálogo con el gobierno uruguayo quien confirmó ayer a través de la cancillería que no se negociará mientras permanezca algún corte.

Debemos notar que mientras algunos eventos se presentan como ocurridos (confirmó, dificulta, corte) otros son dudosos (diálogo) y finalmente la eventual negociación (negociará) se presenta como futura y con polaridad negativa. Esto significa que no basta con encontrar términos que refieran a algún tipo de evento para inferir que dicho evento ocurrió o está ocurriendo. Es necesario, además, interpretar estos términos en sus contextos, donde pueden verse afectados por elementos de polaridad negativa, o por operadores modales, o por predicados que afectan su valor de veracidad, y combinaciones de todos ellos. La propiedad de los eventos de haber o no ocurrido o de estar ocurriendo no es entonces un dato evidente. A esta propiedad le damos el nombre de factividad (Wonsever et al. 2009).

Téngase en cuenta que, si bien la factividad está asociada con el tiempo, la modalidad y la polaridad, esta asociación no es  automática. Así, eventos con los mismos valores para estos tres aspectos pueden tener diferentes comportamientos con respecto a la factividad. Las implicaciones de los predicados a los que están subordinados los eventos influyen en el valor de factividad (se subraya el predicado que subordina el evento y se indica con negrita el evento):

Celebro que lleguen mañana [el hablante da por descontado que llegan] / Dudo que lleguen mañana [es posible que lleguen o no]; Logró cerrar la puerta [es un evento que tuvo lugar]  / Olvidó cerrar la puerta [es un evento que no tuvo lugar]; No dudó en solicitar el puesto de trabajo [sí ocurrió]/ No quiso solicitar el puesto de trabajo [no ocurrió]. También influye la información del contexto:  La reunión estaba planificada para las 9 y el avión llegó con retraso [la reunión no se realizó]/ La reunión estaba planificada para las 9 y todos llegaron en hora [sí se realizó].

¿De qué forma nos propusimos capturar la información con respecto al eje Eventos/Factividad?

Diseñamos un esquema de anotación, constituido por cuatro elementos. Para cada elemento definimos una serie de atributos con diferentes valores que expresan las propiedades relevantes que caracterizan a estos elementos. Los elementos son:

  • Evento: con esta etiqueta se anotan los eventos y se le adjudican valores a los atributos clase, categoría gramatical, polaridad, modalidad, factividad (entre otros).
  • indice: se anota todo elemento del texto, cualquiera sea su categoría gramatical, que se considere relevante a los efectos de constituir una señal que contribuya a determinar ciertos rasgos del evento o su existencia misma.
  • Vínculo aspectual: se anota la relación existente entre un evento de naturaleza aspectual (por ejemplo un auxiliar de fase) y el evento sobre el cual tiene alcance (empezó a llover).
  • Vínculo de subordinación: Se anota la relación existente entre un evento y otro u otros que están subordinados a él (intentaron robar un banco).

 
Se utilizaron estos esquemas para realizar la anotación manual de un corpus. A tales efectos se elaboró una guía de anotación detallada y ampliamente ejemplificada (Wonsever et al. 2008)  para orientar la tarea de anotación. Sobre este corpus anotado, se aplicaron técnicas de aprendizaje automático para generar un analizador del discurso.

Como primera experiencia de explotación del corpus anotado, desarrollamos un sistema basado en técnicas estadísticas para el reconocimiento automático de eventos (Wonsever et al. 2012). El sistema solamente determina los segmentos del texto correspondientes a eventos, tarea que, para el caso particular de los nombres, no es nada trivial. En el futuro, trabajaremos en la determinación automática de los valores de los atributos del evento y también en la generación de los vínculos. Los resultados son alentadores, habiéndose obtenido en el mejor caso un 80% de medida F.1 Este número mejora mucho (90%) si consideramos sólo los eventos verbales; la mejor medida F que obtuvimos para eventos nominales es del 56.6%. Se está anotando un mayor volumen de texto que se utilizará para hacer nuevos experimentos, así como para realizar un aprendizaje independiente de la factividad.

1 La medida F es una métrica muy usada en el procesamiento del lenguaje natural, que toma en cuenta tanto la capacidad de recuperación (recall) de casos a reconocer como la precisión en el reconocimiento.

 
  subir        
 
  Editorial
 


Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons