Universidad de Granada
Departamento de Información y Comunicación
Técnicas de
Recuperación de Información
Práctica
3:
Evaluar el rendimiento del siguiente Sistema de Recuperación de Información,
que para una determinada consulta Q, devolvió la siguiente salida S:
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
X |
|
X |
X |
X |
|
|
X |
|
X |
|
|
|
X |
|
Los documentos identificados con una X son relevantes, mientras que los que no
tienen nada, consideramos que no lo son.
Siguiendo con la consulta anterior y suponiendo que el corpus de la base de datos tiene 20 documentos y que son 10 los documentos relevantes:
Práctica 3:
El alumno/a deberá familiarizarse con los Sistemas de Búsquedas de Respuestas Start y Evi. A continuación, deberá de prepara una batería de 10
preguntas que lanzará a cada sistema, evaluando las respuestas de cada uno de
ellos en una tabla tipo checklist. En un documento aparte e incluyendo también
la tabla checklist, el alumno/a comentará cuál de los dos sistemas es mejor y
porqué.
Práctica 2:
Con el objeto de introducir al alumno en las técnicas lingüísticas que mejoran
la indización automática, se le propondrá la realización del análisis de
resultados de dos procesos lingüísticos: el análisis morfosintáctico y la
extracción de sintagmas nominales. El primero de los procesos es un requisito
para la reducción de las flexiones gramaticales a sus términos canónicos,
mientras que el segundo es necesario para realizar por medios automáticos
asociaciones de términos que resuelvan los problemas de ambigüedad que producen
muchas veces las indizaciones de unitérminos.
1. La primera fase consistirá en localizar y estudiar las características técnicas del analizador morfosintáctico. El propuesto será el ENGCG de Lingsoft (Lingsoft. 1999. "ENGCG: Constraint Grammar Parser of English" [Página Web]. Consultada 23 Oct 2013. Disponible en http://www2.lingsoft.fi/cgi-bin/engcg). En la siguiente dirección: http://www2.lingsoft.fi/doc/engcg/intro/mtags.html#pos se puede encontrar suficiente información sobre el funcionamiento del analizador así como sobre el significado de las claves que utiliza para construir la salida.
2. Una vez que el alumno se ha familiarizado con el funcionamiento del ENGCG, procederá a localizar un resumen en la base de datos SCOPUS que someterá al analizador para estudiar su salida, tratando de identificar posibles errores, viendo la posibilidad de usar esta información de cara a un stemming. El objetivo final es que el alumno pueda identificar aquellos términos que han sido reducidos a su lexical y los que no. La práctica se completará realizando en clase y de forma conjunta, el análisis de un texto determinado, relacionado con la materia de la asignatura.