Procesamiento del Habla e Interacción Multimodal

Posgrado oficial en Tecnología de la Inform ación y la Comunicación

E.T.S. Ingenierías en Informática y Telecomunicación

Universidad de Granada, España

Máster "Desarrollo de Software" - Dpto. de Lenguajes y Sistemas Informáticos

Curso: "Procesamiento del Habla e Interacción Multimodal"

Curso académico 2007-2008

	Procesamiento del Habla
	Interacción Multimodal
	Objetivos del curso
	Contenidos teóricos
	Contenidos prácticos
	Profesorado
	Evaluación
	Bibliografía
	Información acerca del Máster en "Desarrollo de Software"

La interacción "tradicional" con un ordenador se basa en el uso de la pantalla, el teclado y el ratón, y requiere que el usuario tenga unos conocimientos básicos acerca del funcionamiento del ordenador. Además, este tipo de interacción conlleva una barrera difícil de superar para usuarios potenciales que padecen determinadas discapacidades (p. e. invidentes o personas con problemas de movilidad).

Para solventar estas limitaciones se están desarrollando y perfeccionando técnicas de Procesamiento del Habla e Interacción Multimodal con objeto de facilitar el uso del ordenador a todo tipo de usuarios. Mediante estas técnicas se posibilita el uso de diversos dispositivos (p. e. PCs, PDAs, Tablet PCs) y se reducen los conocimientos informáticos necesarios. Además, se incorporan mecanismos de interacción adicionales para usuarios con necesidades específicas. Por ejemplo, el usuario puede usar el ordenador empleando su voz, señalando a la pantalla con sus ojos, realizando gestos o expresiones faciales, etc. Todo ello favorece que el ordenador se pueda adaptar a las necesidades específicas de cada usuario.

La interacción multimodal permite asimismo el desarrollo de nuevas aplicaciones informáticas. En algunos casos el ordenador incluso deja de ser visible y se limita a estar activo en todo momento, en un segundo plano, para informar al usuario cuando sea necesario (p. e. cuando las luces de la casa se hayan quedado encendidas indebidamente). Asimismo, en caso de emergencia, el ordenador puede llegar a ponerse en contacto automáticamente con los servicios sanitarios.

Procesamiento del Habla

El habla constituye la forma más natural de comunicación entre las personas, de ahí el gran interés que tiene el desarrollo de sistemas informáticos capaces de procesar el habla y generarla de forma automática. El procesamiento del habla abarca un amplio abanico de métodos y técnicas que tienen una doble finalidad. Por una parte, lograr que los ordenadores puedan comprender los mensajes pronunciados por los usuarios, y por otra, lograr que los usuarios puedan entender los mensajes generados por los ordenadores de forma oral. Son diversas las aplicaciones del procesamiento del habla, destacando los sistemas automatizados de información telefónica (también llamados "Sistemas de diálogo oral" o "Call-Centers"), programas de traducción entre idiomas, programas de dictado, entornos domóticos e inteligentes, sistemas de manejo oral de diversos aparatos, control oral de programas de ordenador, etc.

En el grupo de investigación GEDES hemos desarrollado recientemente el "Call-Center" UAH - Universidad al Habla , que proporciona información sobre el Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Granada (p. e. horarios de tutorías de profesores, información de asignaturas, etc.) y sobre el proceso de Automatrícula en la Universidad de Granada.

La siguiente figura muestra la estructura modular conceptual de un sistema de diálogo oral.

Información complementaria sobre el Procesamiento del Habla en sistemas de diálogo oral: http://www.ugr.es/~rlopezc/sistemas_dialogo.htm

Interacción Multimodal

El objetivo de la interacción multimodal es superar las limitaciones propias del monitor, el teclado y el ratón a la hora de interactuar con un ordenador. En este tipo de interacción el usuario puede utilizar modalidades de entrada adicionales, como por ejemplo una cámara de visión artificial, una pantalla sensible al tacto, un micrófono, etc. Asimismo, la interacción multimodal permite utilizar diversas modalidades de salida para proporcionar mayor información al usuario, como por ejemplo, voz, texto, gráficos o imágenes, con objeto de estimular varios de sentidos del usuario de forma simultánea. Algunos sistemas multimodales permiten incluso que los usuarios puedan elegir entre las diversas modalidades de entrada para llevar a cabo la interacción, permitiendo así una cierta adaptación a las condiciones ambientales de luz, ruido, etc. Esta ventaja permite además que personas con determinadas discapacidades (p. e. personas invidentes o sordomudas) puedan usar estos sistemas mediante alguna de las modalidades de interacción disponibles para ellos.

La siguiente figura muestra un escenario de uso de técnicas de interacción multimodal con un ordenador.

Los denominados sistemas de diálogo multimodales (multimodal dialogue systems) constituyen un caso particular de aplicación de técnicas de interacción multimodal. En este caso, el usuario interactúa con un sistema informático que pretende emular en la mayor medida posible el comportamiento de otro ser humano, captando no sólo información de la voz del usuario, sino también de sus gestos, expresiones faciales, movimiento de labios, etc. Estos sistemas suelen interactuar con el usuario usando un agente animado, es decir, una animación generada por ordenador de un rostro humano que realiza gestos, expresiones faciales y mueve sus labios de forma sincronizada con la salida oral.

La siguiente figura muestra un ejemplo de sistema de diálogo multimodal.

Información complementaria sobre técnicas de Interacción Multimodal en sistemas de diálogo multimodales: http://www.ugr.es/~rlopezc/sistemas_dialogo.htm

Los denominados entornos inteligentes constituyen otro campo de aplicación de técnicas de interacción multimodal. En este caso, la interacción multimodal facilita el uso de objetos ubicados en el entorno (p. e. lámparas, TV, etc.) haciendo que ésta sea lo más cómoda posible para el usuario. Dado que la actividad del usuario es captada por diversos dispositivos (p. e. micrófonos y cámaras de visión artificial), el usuario puede encender una lámpara automáticamente pronunciando la frase "entorno, enciende la luz del techo". Asimismo, empleando técnicas de integración de información multimodal, el usuario puede encender la lámpara pronunciando la frase "entorno, enciende esa lámpara" a la vez que señala con su mano a la lámpara en cuestión.

Información adicional sobre técnicas de Interacción Multimodal en entornos inteligentes en: http://research.microsoft.com/ierp/

Objetivos del curso

	Mostrar a los alumnos técnicas de procesamiento automático del habla e interacción multimodal persona-ordenador.
	Formar a los alumnos en el desarrollo de software para crear sistemas informáticos que faciliten el acceso a la información de forma oral y multimodal.

Contenidos teóricos

	Procesamiento del habla y otros tipos de información generada por el usuario (gestos, movimiento de labios, miradas, etc.).
	Fusión de información multimodal.
	Gestión y corrección de errores en la interacción multimodal.
	Interacción multimodal en entornos inteligentes.
	Herramientas para el desarrollo de sistemas software basados en procesamiento del habla y multimodales.

Contenidos prácticos

	Desarrollo de un sistema basado en procesamiento del habla que facilite el acceso a información existente en la web usando un teléfono convencional. La interacción con el sistema se realizará oralmente.
	Desarrollo de un sistema multimodal que facilite el acceso a información existente en la web usando diversos dispositivos (p. e. PC, PDA o Tablet PC). La interacción con el sistema se realizará usando voz, teclado y ratón.

Profesorado

	Ramón López-Cózar Delgado
	Michael F. McTear
	Germán Montoro Manrique

Evaluación

	Realización de las prácticas.
	Participación en clases y otras actividades que garanticen la evaluación objetiva.

Bibliografía

	Abbott, K. R. 2002. “Voice Enabling Web Applications: VoiceXML and Beyond”, a! Press
	Huang, X., Acero, A., Hon, H. 2001. “Spoken Language Processing: A Guide to Theory, Algorithm and System Development”, Prentice Hall
	López-Cózar, R., Araki, M. 2005. "Spoken, Multilingual and Multimodal Dialogue Systems: Development and Assesment", John Wiley & Sons

	McTear, Michael F. 2004. "Spoken Dialogue Technology: Toward the Conversational User Interface", Springer
	Norris, S. 2004. "Analyzing Multimodal Interaction: A Methodological Framework", Routledge
	Renals, S. 2006. "Machine Learning for Multimodal Interaction", Springer
	Van Kuppevelt, J., Dybkjaer, L., Bernsen, N. O. (Eds.). 2006. ”Advances in Natural Multimodal Dialogue Systems”, Springer
	Wahlster, Wolfgang (Ed.). 2006. “SMARTKOM: Foundations of Multimodal Dialogue Systems”, Springer