Buscadores no textuales by Rober C. Alvarez

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Sistemas de recuperación de documentos no textuales CURSO 2010

FACULTAD DE DOCUMENTACIÓN ASIGNATURA: SISTEMAS AVANZADOS DE RECUPERACIÓN DE LA INFORMACIÓN PROFESOR: JOSÉ RAÚL FERNÁNDEZ DEL CASTILLO DIÉZ ALUMNO: ROBERTO CARLOS ÁLVARE DELGADO AÑO: 2009/2010

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

ÍNDICE

I. INTRODUCCIÓN II. METODOLOGÍA III. ACTUALIDAD EN LA INDIZACIÓN Y RECUPERACIÓN DE DOCUMENTOS AUDIOVISUALES IV. LO MÁS RECIENTE V. CONCLUSIONES VI. BIBLIOGRAFÍA

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Sistemas de recuperación de documentos no textuales

INTRODUCCIÓN

El propósito del siguiente trabajo es el de tratar de determinar brevemente, a través de un acercamiento a la materia, el estado de la cuestión y las expectativas de proyección futura, en torno a la indización1 y recuperación automatizada de documentos no textuales, esencialmente los documentos visuales y sonoros. La situación actual de crecimiento exponencial en la cantidad de documentos visuales y sonoros viene marcada especialmente por dos sucesos. La aparición de una tecnología digital avanzada y accesible que ha “democratizado” y multiplicado de manera inimaginable el uso del documento visual y sonoro. Y la aparición de plataformas de intercambio, promovedoras del uso de estos documentos en la Web. Un medio que evoluciona y crece “incontrolablemente” potenciando las necesidades de ordenar e indizar sus contenidos para su posible recuperación y uso.

Con motivo de poner en relevancia datos que clarifiquen y den muestra de estos sucesos expuestos, se ofrecen los siguientes datos. Según un informe de la consultora internacional IDC y el fabricante de sistemas de almacenamiento EMC2, la cantidad de información digitalizada sólo en 2006 fue 3 millones de veces mayor que la de todos los libros escritos, la cantidad de información digital creada, capturada y replicada fue de 161 billones de gigabytes, aproximadamente el equivalente a toda la información generada en los 5000 años anteriores por el hombre, y todo esto sólo en un año.

En cuanto al vídeo, portales como YouTube aumentan 65.000 vídeos nuevos al día, otros tipos de vídeo en red, como las conexiones WebCam crecen un 21% y existen 1

Vale la pena mencionar aquí la distinción existente entre el proceso de indexación (generación de los

índices informáticos de un campo o de un fichero con sus estructuras apropiadas como diferentes tipos de árboles) y la indización automática (asignación automática de términos para la representación del contenido). 2

http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf (20/02/2010)

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

datos que hablan de un aumento del 200% del vídeo empresarial (tráfico IP) de manera anual. En 2007 el número de páginas Web aumentó un 48%, 50 millones de sitios Web nuevos en un solo año, es decir unos 155 millones de páginas Web en total donde los blogs son los que más crecieron en ese año siendo los tres máximos proveedores MySpace, Live Spaces y Blogger que registraron la mitad del total de nuevos registros del año 2007.

De todas estas cifras y de muchas otras, podemos percatarnos de la cantidad de información que hay en la red y las dimensiones que han alcanzado los contenidos exclusivamente no textuales. El vídeo, la fotografía, los archivos sonoros, tanto de música como conversaciones son los documentos que más crecimiento han registrado y más se proyectan en la actualidad. Youtube, Picassa, Flickr, redes sociales, como Facebook, Tuenti, Twiter, empresas de intercambio de música como Aplple con Itunes y muchos otros… Son lugares en red donde la cantidad de información no textual, han adquirido vital importancia. Sin olvidar los grandes bancos sonoros, de imágenes y vídeo de los medios de comunicación3 y empresas especializadas cuyos fondos se multiplican y crecen enormemente gracias, en buena parte, a las posibilidades del documento digital (facilidad para su multiplicación, reproducción, conservación y unos costes más asumibles).

A esta explosión de los contenidos digitales, hay que añadirles el abaratamiento de los costes de producción digital y la rápida adopción de estos sistemas de manera asequible por un público cada vez más elevado. Desde las más sofisticadas técnicas de creación digital, hasta las cada vez más amplia gama de servicios ofrecidos desde por ejemplo, un teléfono móvil, capaz de ser grabadora, cámara de fotos, de video, reproductor de música, video consola… por un coste casi irrisorio, el uso del documento no textual, es decir el visual y sonoro, se ha ido introduciendo en nuestra cultura de manera muy arraigada y permanente.

AUMENTE, Jerome; ARQUERO, Rosario (traducción y adaptación): “Bibliotecas, periodismo y Mass Media en la era digital de Internet; retos y transformaciones”. F. Ciencias de la Información, Universidad Complutense de Madrid, 1999. ISSN:0210-4210

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Sin embargo, actualmente las únicas técnicas avanzadas de recuperación de estos documentos pasan por la indización textual y manual de los contenidos de estos formatos. Es claro que una indización automática e inteligente de los contenidos de estos documentos es un objetivo hacia el que se dirigen muchas miradas en el ámbito de la investigación en la recuperación de este tipo de información, el poder alcanzar un sistema que permitiera indizar de forma automática y eficaz para una posterior recuperación exhaustiva y precisa de la información, todo el contenido visual y sonoro generado por los millones de usuarios en la red o los cientos de miles de profesionales dedicados al uso de este tipo de documentos, sería una autentica revolución.

En el siguiente trabajo se expondrán algunas de las técnicas actuales de indización de estos contenidos y posteriormente se analizará las posibilidades de alguna de las nuevas técnicas que pretenden asentar el futuro de los sistemas avanzados de recuperación de documentos visuales y sonoros.

METODOLOGÍA

Como se ha expuesto en la introducción de este trabajo el objetivo principal de éste es el de ofrecer una visión generalista de la situación actual en indización y recuperación de documentos no textuales, además de ofrecer algunas líneas sobre las proyecciones de futuro en esta materia.

Otro de los requisitos de este trabajo es el de ser especialmente actuales en los contenidos, (“trabajo de actualidad”) ese es el motivo por el que los métodos de búsqueda de información para su realización han sido principalmente los ofrecidos a través de la red.

Para el establecimiento de esta información se han realizado búsquedas en dos sentidos, generalistas, a través del acceso avanzado a los buscadores más populares y búsquedas precisas, lanzadas contra bases de datos y Webs especializadas en contenidos científicos (artículos, tesis, monografías). Estas búsquedas se han realizado tanto en castellano como en inglés y se ha tratado de respetar el mayor contenido bibliográfico posible, a pesar de no contar con el texto completo en línea (pero sí algún fragmento interesante).

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Por otro lado, también se ha manejado una bibliografía más estable, especialmente para el asentamiento de los conceptos básicos en los que se centra el contenido del trabajo. Por ultimo añadir la relevancia de algunos aspectos destacados en los medios de comunicación y el uso tanto de blogs, como de foros y webs, para rastrear información pertinente al trabajo. Hecho que especialmente enriquece el enfoque de actualidad que se le ha primado contener.

ACTUALIDAD EN LA INDIZACIÓN Y RECUPERACIÓN DE DOCUMENTOS AUDIOVISUALES

En primer lugar cabe destacar que a pesar de que existen diferencias destacables entre los documentos visuales (fotografía) y los sonoros en su construcción y tratamiento digital. En el caso del vídeo, donde se relacionan tanto la imagen como el sonido, el tratamiento de ambas partes debe ser procesado para su correcta recuperación. Existen técnicas para procesar la imagen fija que aun están en proceso de desarrollo y perfeccionamiento (basados en el histograma de la imagen) y técnicas de

reconocimiento de archivos sonoros (basadas en las ondas sonoras). La imagen y el sonido se pueden estudiar por separado para conseguir un método propicio para su recuperación, sin embargo, la unión de estas técnicas futuras determinarán la base para la recuperación de los documentos audiovisuales (imagen + audio) por lo que a pesar de ser documentos diferentes, sus estudios e investigaciones en este campo viajan paralelamente.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

(Ondas de audio con idéntico espectro)

Actualmente son diversas las técnicas que se utilizan para la indización o indexación de contenidos audiovisuales. Pero principalmente todas se basan en un mismo método, el de la indexación textual (humana).

« Tanto desde un punto de vista semántico como técnico (formatos de representación y métodos de procesamiento) la indización automática de imágenes es mucho más complicada que la de texto. Además, el vídeo —o imagen en movimiento— añade más elementos a esa complejidad. Todo esto hace que los resultados en el campo de la indización automática de vídeo, a pesar de los avances, estén aún lejos de los conseguidos con texto.4 »

Los métodos de indización automática de texto toman como unidad mínima para sus procesos, la palabra (generalmente), que es extraída del texto mediante unos procesos de selección y normalización que permitirán la indización y recuperación de la información que contienen. Sin embargo, con los documentos audiovisuales, nos encontramos ante un problema básico, la determinación de esa unidad mínima de significado, que nos permita realizar el proceso automatizado de ordenación y recuperación.

Por ejemplo, si intentamos indizar la oración, “Hoy en día, la indización automatizada de imágenes es muy complicada” el método automático comenzaría por “eliminar” las palabras bacías (podría variar dependiendo del método) “en, la, de, muy” 4

NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El profesional de la Información, v. 12, n. 6, noviembre-diciembre 2003.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

y otorgaría como entradas otras como “indización, automatizada, imágenes…” Al hacer una búsqueda por la palabra “indización” recuperaría dicha palabra (tras una secuencia de acciones. Este proceso puede ser más complicado, pero en definitiva arrojaría una solución similar, pudiendo variar la precisión o la exhaustividad dependiendo del método empleado).

Sin embargo ¿qué sucede con las imágenes? Hoy por hoy el método manual es el que prevalece, pueden ser mediante la asignación de descriptores a las imágenes e introducirlos en el índice. O mediante la redacción de una descripción textual libre, que posteriormente recibirá un tratamiento similar al descrito anteriormente.

Igualmente se hace necesario el uso del texto y de un proceso manual previo. Pero ¿qué ocurre con los métodos automatizados, de recuperación de imágenes? Estos métodos no pueden seguir el mismo enfoque, si no que se centran (entre otros) en el denominado paradigma de recuperación de imágenes basado en el contenido, que no procesan la consulta a través de palabras (se desligan del descriptor), sino que lo hacen mediante muestras o bocetos.

Recuperación basada en el contenido, ¿en qué consiste? Básicamente en la extracción de un conjunto de parámetros de la imagen que la puedan identificar de manera unívoca. En este caso, parámetro de bajo nivel, relacionados con el color, la forma y la estructura. Este cambio de enfoque, como ya hemos comentado, implica un cambio en la concepción determinada con respecto al proceso de recuperación. La consulta típica, dejará de ser un proceso textual, para pasar a convertirse en un proceso de comparación entre imágenes o bocetos, que servirán de base para contrastar colores, formas y texturas.

Para poder visualizar de forma más precisa este proceso, se muestra a continuación una herramienta, elaborada por IBM para el Museo del Hermitage en San Petersburgo, que se basa en este paradigma de recuperación de imágenes basado en el contenido, es el Qbic5 (Query by image content) versión CueVideo:

FLICKNER, M.; SAWHNEY, H.; NIBLACK, W.; ASHLEY Huang, Q.; Dom, B. y otros “Query by

image content: the Qbic system”. En: Ieee computer, 1995, septiembre, pp. 23-31.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

http://www.hermitagemuseum.org

Métodos de búsqueda: El museo permite la realización de búsquedas entre sus fondos de muy diversas maneras, principalmente a través del método tradicional, el textual mediante palabras claves, índices, descriptores, tesauro y diccionario de autoridades, pero añade entre sus búsquedas la opción del Qbic.

Al acceder a este buscador podemos apreciar detenidamente sus herramientas para la recuperación y comprobar sus resultados. Para poder realizar una búsqueda más óptima en todo momento es posible cumplimentarla con otros mecanismos más convencionales de búsqueda.

En todo momento se ofrece mucha información a cerca del uso y el método de empleo de la herramienta, así como incluso una demo de su funcionamiento. Y nos permite seleccionar entre una búsqueda basada simplemente en el color, u otra más precisa con color y formas.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Búsqueda basada en la composición de color como unidad mínima para la recuperación

Búsqueda basada en las formas y en la disposición de los elementos, además de en el color

Se realiza una búsqueda de ejemplo en el modo LAYOUT:

A través de sus herramientas, se crea una forma que intente recordar a un retrato con unos colores determinados, fondo amarillo, cuerpo rojo y cabeza naranja. Realizamos la búsqueda:

Estos son algunos de los resultados que arrojan la búsqueda, donde podemos observar, que existen tres retratos que se acercan mucho al objetivo de la búsqueda. Mientras que el resto de las opciones, manejan una tonalidad parecida y cierta similitud formal, aunque no la esperada.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Como hemos podido comprobar en el ejemplo, los resultados obtenidos durante la recuperación de la información visual pueden ser un poco ambiguos o discutibles, sin embargo, suponen un pequeño avance hacia la consecución de un método más complejo en el camino de la creación de un sistema automatizado de recuperación visual.

Otros conocidos sistemas que se basan en este método son Swim, de la Nacional University of Singapore, VideoQ6 y VisualSeek de Columbia University, todos ellos con soporte también para vídeo http://www.ctr.columbia.edu/VideoQ/ http://www.ctr.columbia.edu/VisualSEEk/7

En cuanto al vídeo, el proceso sigue una actividad similar al de la imagen estática, pero con una serie de matices relacionados con las peculiaridades propias de este formato. El vídeo no deja de ser una continuidad de imágenes estáticas que en una sucesión constante y determinada crean la ilusión del movimiento, al que le acompaña generalmente una banda de audio.

En lo que concierne a la imagen, es preciso que durante el proceso de identificación automatizada, se determine una unidad mínima, que en este caso no será una imagen simple, si no que se tratará de un segmento gobernado por un keyframe o fotograma clave base de ese segmento8.

El vídeo se divide en esos segmentos (proceso de segmentación), a través de la luminancia y el color del fotograma, es posible determinar cuando hay un cambio brusco de la escena, (análisis del histograma) y por lo tanto un cambio de segmento. Sin embargo este proceso puede encerrar diversos problemas desencadenados por los métodos de edición, creando segmentos que realmente se encuentran vacíos de significado (por ejemplo un zoom, movimientos de cámara, panorámicas o un flash).

CHANG, S.; CHEN, W.; MENG, H.; SUNDARAM, H.; ZHONG, D. “VideoQ: an automated content based video search system using visual cues”. En: ACM international conference on multimedia, 1997, pp. 313-324. 7

http://www.ee.columbia.edu/ln/dvmm/researchProjects/MultimediaIndexing/VisualSEEk/VisualSEEk.htm

Hay que tener en cuenta que existen otros modelos de segmentación que no toman el plano como base. (ver OTROS METODOS DE SEGMENTACIÓN notas anexas)

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Este problema se puede afinar determinando duraciones mínimas para cada segmento9 o analizando fragmentos de la imagen y sus movimientos.

Una vez determinados los segmentos se seleccionan uno ovarios keyframes que serán los representantes de ese segmento, hay muchos métodos para determinarlos, pero los más lógico suele ser el que mejor represente al total del segmento (cuyo histograma sea más cercano a la media). Serán estos los que se indizarán siguiendo un método similar al descrito con las imágenes estáticas y posteriormente servirán como base para la recuperación de información.

«La mayoría de los sistemas utilizan estos fotogramas clave no sólo como base para la indización sino también como forma de presentar los resultados de las búsquedas. Algunos también los usan agrupados en varios niveles para generar una navegación jerárquica del vídeo, como el caso de Swim o Físchlár entre otros. En este sentido, es también interesante la interfaz de visualización rápida de un vídeo basada en fotogramas clave de Mbase12, del Fuji Xerox Palo Alto Laboratory. »10

Mediante la combinación de determinados parámetros centrados en el color, la forma y la textura, se realizará la indización que permitirá las posteriores recuperaciones. El color se analiza atendiendo a su histograma elemento que tolera con bastante flexibilidad los cambios de cámara, rotación, escalado… mientras que las formas se presentan como un indicador más rígido. La forma se centra en dos parámetros la región y el contorno, un método frecuente para representarlos es hacerlo a partir de los ángulos que presentan, consiguiendo una mayor independencia de traslación, rotación y escalado; y su calculo no es demasiado complejo. También son posibles las relaciones espaciales entre estas formas y sus variaciones a lo largo de la reproducción del segmento. En cuanto a la textura algunos modelos se basan en la frecuencia de repetición, la orientación o el contraste.

LEE, H.; SMEANTON, A. F.; O'TOOLE, C.; MURPHY, N. y otros “The Físchlár digital video recording, analysis, and browsing system”. En: Riao: content-based multimedia information access, 2000. 10 NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El profesional de la información, v. 12, n. 6, noviembre-diciembre 2003.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Para finalizar hay que añadir que algunos sistemas incluyen también cierta información sobre el movimiento en el segmento, tanto de las regiones (objetos) como los posibles movimientos de cámara.

Como es francamente fácil de deducir, estos procedimientos de indización y recuperación de información en la práctica convencional no tienen hoy en día una usabilidad destacable dentro de los usuarios más generalizados, sin embargo, si se emplean para estas u otras técnicas más sofisticadas, para otros usos como por ejemplo el reconocimiento automático de matrículas de coches, reconocimiento facial (en este aspecto se ha invertido mucho en investigación), y otros sistemas para usos parecidos. Cuanto más normalizada esté la imagen más sencillo es de sacar partido a estas técnicas11.

Además de estas técnicas para el reconocimiento de imágenes existen otras que intentan emplear un mecanismo basado en una información suplementaria adjunta, que intenten abrir las posibilidades de la búsqueda de este tipo de documentos a medios más generalistas como Internet. Es imposible plantearse el ir etiquetando todo el contenido existente en la red, por lo que se está planteando el analizar toda la información que suele ir “adjunta” al la imagen y extraer de ahí la semántica necesaria para la indización y recuperación de los documentos.

¿De qué se está hablando? De utilizar como fuentes para la indización el texto que aparece en el nombre del vídeo o la fotografía, en el código HTML donde aparezca insertado, el directorio donde se almacene el documento, las carátulas de vídeo, etcétera (además de las etiquetas y descriptores propios del vídeo que han podido introducirse). Por ejemplo Google o Webseek utilizan, entre otras, versiones similares a las de esta técnica de analizar la información adjunta para recuperar estos formatos. En otras ocasiones se utiliza el texto para el que se creó esas imágenes, como en el caso de las noticias o películas,12 el propio audio del vídeo,13 y/o el texto impreso en imágenes.14 11

Un ejemplo sería el sistema de Wang (et al.) que a partir de una base de datos de 2000 especies de peces logra identificar su aparición en vídeos, tolerando incluso cambios de angulo etc. Wang, C. H.; Lin, H. C.; Shih, C. C.; Tyan, H. R.; Lin, C. F.; Mark Liao, H. Y. “Querying image database by video content”. En: Advances in multimedia information processing, PCM 2002. Third Ieee Pacific rim conference on multimedia, 2002. 12 KIM, Y. B.; SHIBATA, M. “Content-based video indexing and retrieval– a natural language approach”. En: Ieice transactions on information and systems, 1996, E79-D (6), pp. 695-705.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

En definitiva, vuelve hacerse palpable la necesidad de datos que no sean los meramente correspondientes a la propia imagen, para poder indizar de manera apropiada el contenido de los documentos no textuales. Siendo de nuevo determinantes todo tipo de datos textuales que acompañen al contenido, ya sean datos normalizados o preparados a priori o los propios de la gestión y creación del archivo.

LO MÁS RECIENTE

Estas técnicas expuestas son los caminos más recientes y actuales en los que se llevan años trabajando para la indización automática de imágenes, sin embargo, siguen apareciendo nuevas “ideas” basadas en las anteriores para lograr estos objetivos. Un ejemplo son los recientes estudios publicados en estos últimos años por el Investigador Antonio Torralba, y su grupo de investigación en el MIT Computer Science And Artificial Intelligence Laboratory, sobre el reconocimiento de imágenes.

Sus investigaciones se basan en la idea de que es necesaria la máxima simplificación de las imágenes para poder reducir enormemente tanto las necesidades técnicas (por el peso en bytes de las imágenes, sobre todo en vídeo) como el tratamiento y uso de éstas. Si tan sólo con unos pocos píxeles de información, el ser humano, es capaz de reconocer una imagen, es posible reducir las imágenes hasta ese mínimo, y así optimizar los sistemas de reconocimiento.

Según, Torralba, conociendo cuál es la menor cantidad de información óptima necesaria, que es posible obtener de una imagen, para determinar su contenido, es el camino idóneo para alcanzar un sistema de catalogación de imágenes on line, capaz de indizar automáticamente millones de imágenes en Internet.

“Estamos tratando de encontrar la representación más corta para las imágenes, de forma que si dos imágenes tienen una secuencia similar (de números), serán probablemente similares”15

http://www.almaden.ibm.com/projects/cuevideo.shtml http://www.informedia.cs.cmu.edu (una de las mayores videotecas digitales del mundo) 15 http://web.mit.edu/newsoffice/2008/csail-tt0521.html (explicación de sus objetivos) 14

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Consiguiendo esto, si una imagen ha sido etiquetada de forma manual, otras imágenes parecidas podrán “heredar” de forma correcta esa descripción.

“Con grandes cantidades de imágenes, incluso los algoritmos más simples son capaces de funcionar bastante bien a la hora de identificar imágenes”16

Si nos fijamos en las imágenes, las zonas rodeadas por un círculo, son prácticamente iguales, sin embargo, en una se muestra una botella, en otra una persona, un móvil y un zapato, con ello, se pretende llamar la atención sobre el hecho de quel contexto afecta enormemente al reconocimiento del objeto.

“Somos capaces de reconocer las imágenes incluso con una resolución muy pobre, porque conocemos mucho sobre las imágenes […] La cantidad de información que necesitamos para identificar muchísimas imágenes ronda entorno a los 32x32 píxels de resolución”17

Utilizando el sistema de codificación que proponen estos investigadores, el objetivo principal sería el crear una enorme base de datos, en la que se representasen millones de imágenes. Este grupo, ha sido capaz de representar 12,9 millones de imágenes extraídas de Internet con sólo 600 megabytes. Esta cantidad de memoria tan pequeña, hace posible su uso como referencias para comparar e identificar otras fotografías que vayan entrando automáticamente, de manera más efectiva y eficaz.

16 17

http://web.mit.edu/newsoffice/2008/csail-tt0521.html Ibídem

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Siguiendo con esta dinámica de trabajo, es destacable, la creación de una herramienta de etiquetado de imágenes bajo esta filosofía, que es posible de ser utilizada de manera colaborativa. Mediante esta herramienta, podemos marcar, identificar y en definitiva etiquetar, fotografías, pasando a alimentar la enorme base de datos que pretende convertirse en el catalogo potenciador de las catalogaciones automatizadas.

Esta herramienta se llama LabelMe18, a través, de esta herramienta on line, se puede participar el en proyecto de etiquetar y reconocer las formas y los contenidos de la imágenes, para alimentar así la fortaleza de la base de datos.

http://labelme.csail.mit.edu/

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Se trata de una base de datos usada para el entrenamiento y evaluación del sistema de reconocimiento visual automatizado. Con multitud de diferentes imágenes compuestas por escenas y objetos diferentes, que han servido para alimentar de datos a este sistema de reconocimiento.19

En definitiva mediante una serie de actuaciones de reconocimiento basadas en logaritmos y funciones matemáticas, que se han centrado en la identificación de contenidos, en resoluciones muy pequeñas, pero capaces de permitir la identificación eficaz, han sido capaces de construir una enorme base de datos de categorías de objetos y escenas, que han servido y servirán para identificar de manera automatizada los contenidos. Sin olvidar que han tenido y tendrán que ser motivadas y completadas con multitud de referencias y etiquetas de contenidos “manuales”, que servirán de herencia para las posteriores identificaciones de contenido similar.

http://people.csail.mit.edu/torralba/publications/labelmeApplications.pdf

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Posteriormente y tras establecer una serie de jerarquías contextuales de los modelos posicionales y de los objetos, se hará todavía más factible la identificación efectiva de imágenes de manera automatizada20

Así se pretende hacer posible una identificación eficaz de los objetos, resumiendo mucho el proceso, basándose en imágenes con un tamaño mínimo para ser reconocibles, se convierten en modelos más operativos. Se identifican y marcan los contenidos con etiquetas, este proceso se enriquece al máximo posible, incluso elaborando herramientas colaborativas. De esta enorme base de datos se crean protocolos de actuación frente a contenidos nuevos, basándose no sólo en el objeto, si no que también en los contextos y las jerarquías razonables. De esta manera, se pretende seguir alimentando estas bases de datos.

http://web.mit.edu/~myungjin/www/HContext.html

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Por el contrario, pueden aparecer objetos que no estén contextualizados en sus escenas, esto de momento puede suponer un problema y no puede ser detectado a priori, pero si puede “entrenar se al sistema para detectarlo”.

Todos este mecanismo ideado por este grupo de investigación, se proyecta de manera útil, tanto para imagen fija, como para la imagen en movimiento, es decir, el vídeo. E incluso existen las herramientas necesarias para colaborar con este tipo de documento. LabelMe, para vídeo.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

CONCLUSIONES

Las imágenes (digitales) se componen de un número determinado de píxeles, que contienen la información del color de su posición, la unión conjunta de todos estos píxeles crean la “ilusión de la imagen”, en el caso del audio, hablamos de una onda analógica que tras un muestreo se convierte en una onda digital que permite su posterior reproducción “casi” sin pérdida de información. El documento no textual digital, por lo tanto, está formado por un gran número de datos, que si bien, puede parecer muy elevado, “simplifican” el objeto analógico, permitiendo el poder trabajar con este tipo de documentos de manera operativa en el “mundo digital”.

Por lo tanto, actualmente nos encontramos con un volumen enorme de formatos no textuales circulando por la red, que inundan de datos la red, dando lugar a una gran cantidad de información a la que sólo se puede acceder de manera efectiva, a través, de los metadatos que forman parte de estos archivos, y que permiten identificar su contenido.

En el caso de los archivos visuales y sonoros, se ha trabajado y se sigue trabajando en la actualidad, por encontrar mecanismos efectivos de indización exitosa que permitan una posterior recuperación eficaz.

El método más extendido y efectivo que existe actualmente es el basado en el texto, es decir, el de dotar de etiquetas, descriptores, palabras clave, en definitiva el de describir el contenido de los documentos no textuales, para a través de esta información textual, realizar la indexación y posterior recuperación del documento. Sin embargo este sistema de recuperación, al depender de un proceso manual previo, ralentiza enormemente la ejecución para la obtención de resultados positivos dentro de un mar de documentos, como puede ser la red.

Otro de los métodos que destaca son los que han tratado de recuperar la máxima información “periférica” adjunta a los archivos y a su contexto, desde el nombre del archivo, hasta el texto que se haya a su alrededor, el contexto, estos datos permiten intuir el contenido para poder indexarlo de manera apropiada. Un ejemplo de esta

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

técnica puede ser el método de recuperación de imágenes de Google, cuyos resultados no siempre son los esperados, pero que cumple sus expectativas de manera optima.

Por otro lado, y como se ha explicado a lo largo del trabajo, otras técnicas de recuperación de imágenes han tratado de cambiar el concepto de búsqueda, y el concepto de indización de los contenidos. Se tratan de métodos como el descrito por Qbic, en el que la importancia reside en la descomposición formal y por colores de las imágenes, para una posterior búsqueda basada en un análisis por semejanza o parecidos, posible, gracias, a un cambio en el concepto de “método de recuperación”.

Por otro lado, llama también la atención el camino desarrollado por Antonio Torralba (y colaboradores) y sus estudios. La búsqueda de la simplificación de las imágenes hasta el umbral mínimo de reconocimiento, para un posterior análisis de los contenidos, con el objetivo de crear procesos definidos de identificación de los objetos retratados y sus contextos, a través de la comparación y su información heredada, supone un nuevo paso, hacia la recuperación automatizada de los documentos no textuales.

Sin embargo, a pesar de los esfuerzos que se han realizado y se siguen realizando en investigación, para la identificación y recuperación positiva y efectiva de documentos no textuales, es preciso ser conscientes, de que actualmente ninguno de los métodos alternativos, ha sido capaz de superar el basado en el texto para la indización y recuperación de la información. Actualmente las bases de datos de imágenes, vídeos y archivos sonoros, dependen casi por exclusividad de las técnicas documentales de indización de contenidos, mediante el uso de texto escrito. De donde con posterioridad se extraerán la información necesaria para la indexación y posterior recuperación de los documentos.

Si bien, es cierto, que métodos como los descritos por el grupo de investigación del MIT anteriormente mencionado parecen describir las líneas de lo que en un futuro podría ser el proceso definitivo para el reconocimiento automatizado del contenido de los documentos no textuales. Aun estamos lejos de conseguirlo de manera totalmente resuelta.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

En definitiva, existen grandes avances en el camino de la creación de un sistema de reconocimiento automatizado de documentos no textuales, no obstante, aun se encuentra en un estado muy inicial de ejecución y no presenta una alternativa al proceso descriptivo textual. Es evidente, que el camino se ha iniciado y que las necesidades empujan hacia la consecución de un método que de solución a la ingente cantidad de información no textual que inundan las redes y las computadoras de todo el mundo, así como otras finalidades a las que se les pueda aplicar este tipo de sistemas de recuperación, como pudiera ser la seguridad, que pueden aportar importantes cantidades de inversión en investigación.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

BIBLIOGRAFÍA

1. AUMENTE, Jerome; ARQUERO, Rosario (traducción y adaptación): “Bibliotecas, periodismo y Mass Media en la era digital de Internet; retos y transformaciones”. F. Ciencias de la Información, Universidad Complutense de Madrid, 1999. ISSN:0210-4210

2. BAILAC, M.; CATALÁ, M. “La fototeca”. En: Fuentes, M. E. (ed.). Manual de Documentación periodística. Madrid: Síntesis, 1995.

3. BRODSKY, M. «Las agencias gráficas como centros de documentación de imágenes». En: BELLVESER, E. (director). “La documetació als mitjans d’informació: l’experiència multimèdia.” Valencia: Generalitat Valenciana; Unió de Periodistes, 1994, p. 197-203.

4. CHANG, S.; CHEN, W.; MENG, H.; SUNDARAM, H.; ZHONG, D. “VideoQ: an automated content based video search system using visual cues”. En: ACM international conference on multimedia, 1997, pp. 313-324.

5. CODINA, LI.; FUENTES, M. E. “Documentación periodística y bases de datos: elementos para su fundamento como disciplina y propuesta de conjunto nuclear de bases de datos”. En: Fuentes, M. E. (dir.). Anuario de biblioteconomía, documentación e información. Barcelona: COBDC, 1999, p. 113-132.

6. CODINA, Ll. «Fundamentos para la organización de un banco de fotografías». El profesional de la información, v. 9, n. 4, abril 2000, p. 31-34.

7. DAUTZATS, M. “Le thesaurus de l’image: etude des langages documentaires pour l’audiovisuel.” Paris: Editions, 1994, 96 p.

8. FLICKNER, M.; SAWHNEY, H.; NIBLACK, W.; ASHLEY Huang, Q.; Dom, B. y otros “Query by image content: the Qbic system”. En: Ieee computer, 1995, septiembre, pp. 23-31.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

9. GRAHAM, M. E. The description and indexing of images, May 1999. http://www.unn.ac.uk/iidr/ARLIS/

10. KIM, Y. B.; SHIBATA, M. “Content-based video indexing and retrieval– a natural language approach”. En: Ieice transactions on information and systems, 1996, E79-D (6), pp. 695-705.

11. LEE, H.; SMEANTON, A. F.; O'TOOLE, C.; MURPHY, N. y otros “The Físchlár digital video recording, analysis, and browsing system”. En: Riao: content-based multimedia information access, 2000.

12. LÓPEZ YEPES, J. “Hacia una teoría de la documentación”. En: López Yepes, José (coordinador). Manual de información y documentación. Madrid: Pirámide, 1996, p. 63-95

13. LÓPEZ YEPES, A. “Manual de documentación audiovisual” Pamplona: Ediciones Universidad de Navarra, 1992, 263 p.

14. LÓPEZ YEPES, A. “Bases de datos documentales multimedia”. En: López Yepes, José (coord.). Manual de información y documentación. Madrid: Pirámide, 1996, p. 414-446.

15. MUÑOZ, J. E. “Bancos de imágenes: evaluación y análisis de los mecanismos de recuperación de imágenes”. El profesional de la información, v. 10, n. 3, marzo 2001, p. 4-18.

16. NAVARRETE, Toni y BLAT, Josep: “Indización automática de vídeo” El profesional de la Información, v. 12, n. 6, noviembre-diciembre 2003.

17. TORRALBA, Antonio: “Exploiting Hierarchical Context on a Large Database of Object Categories” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, CA, June 2010.

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

18. TORRALBA,

Antonio:

“Part

and

Appearance

Sharing:

Recursive

Compositional Models for Multi-View Multi-Object Detection” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, CA, June 2010.

19. VALLE GASTAMINZA, F. del. Manual de documentación fotográfica. Madrid: Síntesis, 1999, 255 p.

20. WebSeek. http://disney.ctr.columbia.edu/webseek

21. Informe

EMC

IDC.

http://www.emc.com/collateral/analyst-

reports/expanding-digital-idc-white-paper.pdf

22. Cuadernos de Documentación Multimedia. www.ucm.es/info/multidoc/revista

23. Guidelines for digital imaging. http://www.rlg.org/preserv/joint/chapman.html

24. Image and Multimedia Database Resources. http://sunsite.berkeley.edu/Imaging/Databases

OTROS RECURSOS ON LINE

25. http://dialnet.unirioja.es/servlet/libro?codigo=24643 Indización y resumen de documentos digitales y multimedia: técnicas y procedimientos

26. http://dialnet.unirioja.es/servlet/articulo?codigo=962587 Indización de imágenes en Internet: problemática, medios y técnicas para el tratamiento de la información visual. Image indexing on the Internet: problems, means and techniques to manage visual information

27. http://dialnet.unirioja.es/servlet/articulo?codigo=1232736

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Bancos de imágenes en Internet

28. http://dialnet.unirioja.es/servlet/articulo?codigo=113332 Métodos y técnicas para la indización y recuperación de los recursos de la World Wide Web

29. http://dialnet.unirioja.es/servlet/tesis?codigo=7270 Elaboración de un tesauro de información de actualidad y conversión en red semántica para su empleo en un sistema de recuperación periodístico.

30. http://dialnet.unirioja.es/servlet/articulo?codigo=568788 La supervivencia de los servicios de indización y resúmenes con la explosión de Internet

31. http://dialnet.unirioja.es/servlet/articulo?codigo=964494 La organización temática de la información: tendencias en la clasificación e indización de documentos

32. http://dialnet.unirioja.es/servlet/articulo?codigo=1018809 Indización y representación de documentos visuales y audiovisuales

33. http://dialnet.unirioja.es/servlet/articulo?codigo=34956 Bancos de imágenes y sonido y motores de indicación en la www

34. http://dialnet.unirioja.es/servlet/articulo?codigo=169984 Acceso a la información basado en su contenido: la clave de la gestión documental en la empresa

35. http://dialnet.unirioja.es/servlet/articulo?codigo=313588 Etapas del tratamiento documental de imagen en movimiento para televisión

36. http://dialnet.unirioja.es/servlet/articulo?codigo=326625 Topics maps y la indización de recursos electrónicos en la web

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

37. http://dialnet.unirioja.es/servlet/articulo?codigo=743212 La documentación audiovisual en las empresas televisivas

38. http://dialnet.unirioja.es/servlet/articulo?codigo=749168 Indización automática de vídeo

39. http://dialnet.unirioja.es/servlet/articulo?codigo=787659 Indización de un fondo de documentación especializado (I). Lista índice de descriptores: desarrollo de un lenguaje a medida

40. http://dialnet.unirioja.es/servlet/articulo?codigo=963367 Tesauros e Información Audiovisual: estudio de caso

41. http://dialnet.unirioja.es/servlet/articulo?codigo=1024739 Proyecto Tesauro de cine español

42. http://dialnet.unirioja.es/servlet/articulo?codigo=1299356 Karpanta, un motor de búsqueda experimental

43. http://dialnet.unirioja.es/servlet/articulo?codigo=1417179 Web semántica: un nuevo enfoque para la organización y la recuperación de información en el Web

44. http://dialnet.unirioja.es/servlet/articulo?codigo=2893641 La indización en la recuperación de la información

45. http://dialnet.unirioja.es/servlet/articulo?codigo=649057 Tendencias en los sistemas de indización automática. Estudio evolutivo

46. http://dialnet.unirioja.es/servlet/articulo?codigo=3042229 Sistema automatizado de indización y de recuperación de documentos visuales de Radio-Quebec

47. http://dialnet.unirioja.es/servlet/articulo?codigo=2035900

SISTEMAS DE RECUPERACIÓN DE DOCUMENTOS NO TEXTUALES

Metodología para la indización de documentos no textuales: algunas precisiones a propósito de los documentos gráficos y audiovisuales

48. http://web.mit.edu/torralba/www/ Página de contenidos de Antonio Torralba, desde donde se pueden acceder a todos los papers y publicaciones de manera on line, donde hace referencia a sus estudios y se pueden seguir sus investigaciones.

49. http://labelme.csail.mit.edu/VideoLabelMe/ Herramienta para la anotación de contenidos.

OTROS METODOS DE SEGMENTACIÓN

50. Davenport, G.; Aguirre, S.; Pincever, N. “Cinematic primitives for multimedia”. En: Ieee computer graphics & applications, 1991, julio.

51. Aguierre Smith, T. G. If you could see what I mean. MIT MS thesis. Cambridge, Massachusetts, EUA, 1992.

52. Hjelsvold, R.; Midtstraum, R. “Modelling and querying data”. En: 20th International Conference on very large data bases, 1994.

53. Adali, S.; Candan, K. S.; Chen, S.; Erol, K.; Subrahmanian, V. S. “Advanced video information system: data structures and query processing”. En: ACM-Springer multimedia systems journal, 1996.

54. Subramanian, V. S. Principles of multimedia database systems. San Francisco: Morgan Kaufman Publishers, 1997. Isbn 1558604669.

55. Tran, D. A.; Hua, K. A.; Vu, K. “Semantic reasoning based video database systems”. En: 11th International conference on databases and expert systems applications, 2000.