Sistemas de diálogo hablado y multimodal
Los sistemas de diálogo hablado (spoken dialogue systems) son sistemas informáticos que reciben como entrada frases del lenguaje natural expresadas de forma oral y generan como salida frases del lenguaje natural expresadas asimismo de forma oral. La finalidad de estos sistemas es emular el comportamiento inteligente de un ser humano que realiza una tarea concreta, utilizándose en la actualidad por diversas empresas para proporcionar información de forma automática, por ejemplo, horarios de salida de aviones, partes meteorológicos, estado de cuentas bancarias, etc.
La siguiente figura muestra el esquema general de un sistema de diálogo hablado. Los módulos en color amarillo se implementan mediante cinco tecnologías fundamentales en el diseño de los sistemas actuales: reconocimiento automático de habla, procesamiento del lenguaje natural, gestión del diálogo, generación de lenguaje natural y síntesis de habla. Los módulos en color azul representan componentes adicionales y el módulo en color verde representa la base de datos en la que el sistema obtiene la información que el usuario necesita conocer (horarios de salida de aviones, partes meteorológicos, etc.).
La finalidad del reconocedor de habla es procesar la voz del usuario y transformarla en una secuencia de palabras reconocidas en forma de texto.
Dicha secuencia constituye la entrada del módulo de análisis lingüístico, cuya finalidad es obtener la representación semántica (significado) de la frase reconocida.
La representación semántica obtenida constituye la entrada del módulo de gestión del diálogo, cuya finalidad consiste en determinar qué acción debe realizar el sistema en cada momento. Puede decirse que este es el módulo fundamental del sistema, pues su finalidad es lograr que la interacción con el usuario sea lo más cómoda e “inteligente” posible. Para lograr este objetivo, el módulo de gestión del diálogo suele realizar confirmaciones de los datos obtenidos del usuario, iniciar subdiálogos de corrección y generar expectativas respecto a las frases más probables del usuario en un momento dado.
Una vez el módulo de gestión del diálogo ha decidido la acción que debe realizar el sistema, el módulo de generación de respuestas construye la respuesta del sistema en formato de texto, la cual constituye la entrada del sintetizador de voz para generar la respuesta oral del sistema.
El módulo de memoria almacena las representaciones semánticas obtenidas a lo largo de la interacción así como las frases previamente generadas por el sistema, proporcionando esta información histórica a los módulos de análisis lingüístico, gestión del diálogo y generación de frases. De esta forma, el sistema puede resolver las referencias anafóricas existentes en las frases pronunciadas por los usuarios, puede conocer qué frases ha expresado el usuario previamente, y puede utilizar información contextual (mediante el uso de anáforas y elipsis) durante la generación de las frases.
Finalmente, el gestor de las bases de datos se encarga de generar las consultas necesarias a las bases de datos (por ejemplo, en SQL) y proporcionar la información obtenida de las mismas al módulo de gestión del diálogo.
Sistemas de diálogo multimodal
El objetivo fundamental de un sistema de diálogo multimodal (multimodal dialogue system) es superar las limitaciones de la interacción basada exclusivamente en el habla. En una interacción multimodal el usuario no está restringido a utilizar el habla como único canal de comunicación, sino que puede utilizar varios dispositivos de entrada, como por ejemplo un teclado, un ratón, un micrófono, una cámara, una pantalla sensible al tacto, una PDA, etc. Asimismo, el sistema multimodal puede utilizar diversos canales de salida para proporcionar información al usuario como por ejemplo, voz, texto, gráficos o imágenes, con objeto de estimular varios de sentidos del usuario de forma simultánea. Algunos sistemas de diálogo multimodal permiten incluso que los usuarios puedan elegir entre las diversas modalidades de entrada para llevar a cabo la interacción, permitiendo así una cierta adaptación a las condiciones ambientales de luz, ruido, etc. Esta ventaja permite además que personas con determinadas discapacidades (p. e. personas invidentes) puedan usar estos sistemas mediante alguna de las modalidades de interacción disponibles.
A continuación se mencionan algunos sistemas de diálogo multimodal:
MASK – Multimodal-Multimedia Automated Service Kiosk
Sistema desarrollado en el LIMSI Spoken Language Processing Group (Francia) para proporcionar horarios de tren, reservas, precios, etc. Los usuarios se pueden comunicar con el sistema mediante habla y una pantalla sensible al tacto, mientras que éste se puede comunicar con los usuarios mediante habla, gráficos, vídeo y sonido.
AdApt – Sistema desarrollado en el Centre for Speech Technology, Royal Institute of Technology (Suecia), para proporcionar información sobre apartamentos disponibles en la ciudad de Estocolmo. Los usuarios se pueden comunicar con el sistema oralmente y mediante un ratón, y el sistema se puede comunicar con ellos mediante un agente animado (ver figura) y un mapa acompañado de texto.
August – Sistema desarrollado también en el Centre for Speech Technology, Royal Institute of Technology (Suecia), para proporcionar información acerca del autor sueco August Strindberg (a quien debe su nombre) y sobre restaurantes y otros servicios de la ciudad de Estocolmo.
Sistemas de diálogo que hemos desarrollado
SAPLEN – Sistema Automático basado en Procesamiento de LEnguaje Natural. Sistema de diálogo que proporciona información sobre productos de restaurantes de comida rápida y permite registrar pedidos efectuados desde los domicilios con objeto de enviar posteriormente los productos solicitados. | |
VIAJERO. Sistema de diálogo que proporciona información sobre horarios de salida de autobuses de línea, precios, etc. (por ejemplo, los usuarios pueden realizar una consulta para conocer los horarios de autobuses directos disponibles para viajar desde Granada a Córdoba). | |
VIAJERO II. Versión extendida del sistema comentado anteriormente que permite interactuar en dos idiomas: Castellano e Inglés. | |
SINFOTEL – Sistema de INFOrmación de números de TELéfono. Sistema de diálogo que proporciona los números de teléfono de los profesores de nuestro Departamento. Los usuarios (generalmente alumnos) pueden indicar el nombre y apellidos del profesor cuyo teléfono desean conocer, o bien, sólo su nombre o sus apellidos, realizando el sistema las clarificaciones oportunas en caso de existir más de un profesor con el nombre (o apellidos) especificados. | |
UAH - Universidad al Habla . Sistema de diálogo que proporciona información sobre nuestro Departamento (profesores, asignaturas, horarios de tutorías, etc.) y sobre el proceso de Automatrícula en la Universidad de Granada. |
Proyectos de investigación en curso en nuestro grupo de investigación
Análisis y Aplicación de Tecnologías Basadas en XML para la Implementación de Sistemas de Diálogo (Dial-XML) |
Oferta de Proyectos Fin de Carrera (curso 05/06)
Listado de proyectos |
Ramón López-Cózar, Masahiro Araki."Spoken, Multilingual and Multimodal Dialogue Systems: Development and Assesment", John Wiley & Sons, 2005 |
Michael F. McTear. "Spoken Dialogue Technology: Toward the Conversational User Interface", Springer, 2004 |
IBM | |
ScanSoft | |
Lucent | |
Microsoft | |
Philips |