Page 1

Búsqueda y Recuperación de Información en la Web

Lluís Codina y Rafael Pedraza-Jiménez Departamento de Comunicación Universitat Pompeu Fabra

1


Contenido

Primera parte: La Recuperación de Información en la Web………………………………………….

3

1. Lenguajes de interrogación………………………………………………………………………………

3

2. Motores de búsqueda……………………………………………………………………………………..

19

Segunda parte: La Búsqueda de Información en la Web………………………………………………. 34 1. Principales buscadores generalistas…………………………………………………………………

34

2. Buscadores especializados……………………………………………………………………………….

41

2.1. Buscadores académicos…………………………………………………………………….

43

2.2. Bancos de imágenes y sonido en la Web……………………………………………

54

2.3. Buscadores de video………………………………………………………………………….

75

2.4. Buscadores de blogs………………………………………………………………………….

83

2.5. Buscadores del texto de libros impresos……………………………………………

88

2.6. Buscadores de software…………………………………………………………………….

93

2.7. Buscadores de noticias………………………………………………………………………

103

2.8. Buscadores de precios……………………………………………………………………….

111

2.9. Buscadores de diccionarios y enciclopedias………………………………………. 119 2.10. Buscadores de mapas…………………………………………………………………….

133

2.11. Buscadores de cursos y empleo……………………………………………………… 146 Tercera parte: La Web Semántica…………………………………………………………………………………

164

2


Primera parte: La Recuperación de información en la Web 1. Lenguajes de interrogación “Lenguaje de interrogación” (query language) es un término técnico heredado de las primeras bases de datos, cuando podía ser realmente difícil explicar a un ordenador qué es lo queríamos. Entonces se requería el dominio de unos lenguajes con unos componentes y unas reglas de sintaxis más o menos complicadas. Actualmente es una trivialidad entrar uno o más términos en un buscador, lanzar una consulta y obtener con facilidad al menos algunos resultados relevantes. Que sean los mejores documentos o no, es decir, que sean exactamente los más relevantes, no podemos saberlo, pero al menos obtenemos documentos relevantes. No obstante, si queremos profundizar en las opciones de los buscadores, sigue existiendo algo parecido a un lenguaje con una sintaxis y unos componentes (comandos) que debemos saber utilizar de forma adecuada. En el pasado, era necesario que el usuario explicitara de forma muy detallada qué quería encontrar usando lógica booleana (de la que nos ocuparemos enseguida), en qué campos quería encontrarlo, cómo quería que fuera la salida (es decir la respuesta), porqué campos quería que se ordenase la salida, etc. Un sistema de búsqueda era tan bueno como su lenguaje de interrogación. Aunque los documentos estuvieran bien indizados, si el usuario no podía expresar con máxima precisión qué es lo que quería, el sistema proporcionaba una gran cantidad de ruido. Todo esto ha quedado minimizado actualmente debido al uso de sistemas de relevancia; sistemas que eran prácticamente inexistentes antes del 2000. Por todo ello, no es que los lenguajes de interrogación hayan dejado de existir o de tener importancia, es que su papel nos pasa simplemente desapercibido. Como es fácil deducir por lo que hemos expuesto el papel del lenguaje de interrogación es nada menos que transformar una necesidad de información que, por definición, es algo intangible, en una fórmula bien formada que un robot (un motor de búsqueda o una base de datos) pueda interpretar. La figura siguiente intenta ilustrar esta idea.

3


Figura 1: Función de los lenguajes de interrogación Como podemos ver en la figura 1, la idea es la siguiente: el primer paso siempre consiste en que un usuario tiene una necesidad de información; es decir aquellos que algunos teóricos anglosajones (Belkin, 1982 ) denominan un “ASK” (por Anomalous State of Knowledge. Se supone que un estado mental en el que carecemos de información, lo percibimos como anómalo y queremos solucionarlo). En el caso del ejemplo esta necesidad se manifiesta como: “Necesito información sobre televisión digital en España y Francia”. A partir de aquí, se considera que el lenguaje natural de los usuarios no siempre es utilizable directamente como lenguaje de interrogación, que debe cumplir algunas reglas. Por tanto, el segundo paso consiste en que el usuario, directamente si tiene un buen conocimiento del lenguaje de interrogación o por medio de un intermediario (un documentalista o un asistente del propio sistema de búsqueda), transforme esa necesidad en una fórmula bien formada (fbf) del lenguaje de interrogación. En este caso, en una fórmula booleana que combina tres términos de búsqueda y dos operadores booleanos (AND, OR). Esta fbf es la que puede entender el motor de búsqueda. En este caso suponemos que el usuario quiere documentos que tengan la frase “televisión digital” siempre que además ( AND ) tengan o bien la palabra España, o bien la palabra Francia o ambas (OR).

1.1. Lógica booleana El álgebra o lógica booleana tiene su origen en el matemático irlandés del siglo XIX Georges Boole y está considerada una de las mayores aportaciones a la matemática de todos los tiempos. 4


El objetivo original de Boole fue el intento de desarrollar un sistema de cálculo que se pudiera aplicar a las proposiciones tal como disponemos de un sistema de cálculo que se puede aplicar a las operaciones aritméticas; éstas en concreto disponen de una serie de operadores (suma, resta, etc.) que permiten operar con números. Boole propuso por su parte los operadores AND, OR y NOT para operar con proposiciones. Por ejemplo, para tomar una proposición (caso de NOT) y obtener su negación o para aplicarlos a dos proposiciones (caso de AND y NOT) y obtener una tabla de verdad donde, a partir de la verdad o falsedad de las proposiciones simples se pudiera deducir la verdad o falsedad de la proposición compuesta. Como ya hemos avanzado, en sistemas de información tales como buscadores o bases de datos se utiliza para representar necesidades de información, bajo esta fórmula general: T1 Operador T2 = {dv}

T1 y T2 son términos de búsqueda (palabras clave) y Operador es un operador booleano (AND, OR, NOT). Por su parte, {dv} representa el conjunto de los documentos verdaderos, esto es el conjunto de los documentos que son verdaderos (cumplen la condición) en relación a la ecuación booleana. En términos más llanos: el conjunto de los documentos recuperados (recordemos que un conjunto puede estar vacío). Con el fin de situar a las búsquedas booleanas en el contexto más amplio de los lenguajes de interrogación, vamos a revisar ahora los distintos tipos de búsqueda utilizadas en motores y bases de datos. Como las booleanas es uno de esos tipos, volveremos a ellas un poco más adelante.

1.2. Tipos de búsquedas La mayor parte de buscadores y de bases de datos documentales incluyen los tipos de búsqueda que vamos a examinar a continuación. Esta es la buena noticia. La mala es que cada sistema puede hacerlo de un modo (ligeramente) diferente. Las diferencias son mínimas pero suficientes para obligarnos a consultar la ayuda del buscador o de la base de datos si no estamos muy familiarizados con el mismo. La cuestión es que nosotros vamos a considerar los siguientes tipos de búsquedas: 1. Simple 2. Frase 5


3. Booleana simple 4. Booleana compleja Además, existen las siguientes variaciones, que se pueden combinar con los anteriores: a. Genérica b. Acotada Vamos a examinar tanto los tipos como las variaciones en las tablas siguientes: Tabla X: Tipos de búsqueda más usuales Tipo

Ejemplos

Explicación

Simple

cine

Busca la cadena de caracteres.

Frase

“John Ford” Fuerza al sistema para que la cadenas de caracteres buscada sea exactamente como aparece entre paréntesis. En este caso, primero la palabra John , después un espacio en blanco y después la palabra Ford. Evita las falsas coordinaciones. Por ejemplo, la página de alguien llamado John Smith que vende coches de la marca Ford .

Booleana simple

cine AND Principales operadores: AND , OR , NOT . novela AND : exige que ambas palabras estén presentes en el O bien: documento. En algunos motores de búsqueda, como Google, un espacio en blanco equivale siempre a un AND . cine OR Por ejemplo: cine novela es igual en Google que: cine AND novela novela OR : al menos una de las palabras debe estar cine NOT presente; pueden estar presentes las dos. NOT : la primera palabra debe estar presente, siempre que no aparezca la novela) segunda palabra. En este caso, todos los documentos que tengan la palabra cine , siempre que no tengan la palabra novela .

Booleana compleja

(cine OR tv) Combina tres o más palabras clave con dos o más AND (novela operadores booleanos. Los paréntesis se pueden utilizar OR teatro) para delimitar de forma exacta el orden y el alcance de cada operador. En este caso: primero se crea al conjunto 1 con todos los documentos que tienen la palabra cine , la palabra 6


tv o ambas. Después se crea el conjunto 2 con todos los documentos que tienen la palabra novela , la palabra teatro o ambas. Por último, se combinan los conjuntos 1 y 2 con el operador AND y se produce como respuesta el conjunto 3 que contiene el resultado final.

Además de las búsquedas anteriores, algunos motores (Google y Yahoo! especialmente) ofrecen una gran variedad de posibilidades: Tabla 2: Variaciones sobre las búsquedas más usuales Variación Ejemplo

Explicación

Genérica cine

Busca la cadena de caracteres en cualquier lugar del documento, en documentos de cualquier fecha, en todos los formatos de documento, etc.

Acotada allintitle:cine filetype:pdf

Busca la cadena de caracteres en el campo título ( allintitle:cine ) y solamente en documentos con formato pdf ( fileype:pdf ). La sintaxis del ejemplo es la de Google. Otros buscadores pueden utilizar otras expresiones. Acotaciones principales: Por campos (p.e. título ) Por fechas (p.e. Últimos 6 meses ) Por tipo de documento (p.e. pdf ) Por idioma (p.e. español ) Por dominio (p.e: .com )

Las dos tablas anteriores resumen las características más habituales en buscadores y en bases de datos. Naturalmente pueden combinarse tipos de búsquedas con variaciones de búsquedas (como ya hemos visto en los ejemplos). El problema es que el procesamiento no es fiable: algunas combinaciones particulares no funcionan bien, y los buscadores son reacios a hacer explícitos esos problemas. En teoría podríamos formular una búsqueda booleana y combinarla con un tipo de documentos y un idioma determinado. En este caso, el resultado parece funcionar bien en Google (ver la ilustración).

7


Esta misma consulta podemos resolverla en Google haciendo uso de la búsqueda avanzada:

1.3. Interrogaciones booleanas: ventajas e inconvenientes La principal ventaja de las búsquedas booleanas es su capacidad para expresar con casi total exactitud las características concretas de la necesidad de información del usuario. La tabla siguiente compara una búsqueda con varios términos expresada sin uso de 8


operadores booleanos explícitos (el buscador los combinará todos con un AND) y una búsqueda expresada con operadores. En el primer caso se pierde totalmente la semántica de la pregunta del usuario, mientras que en el segundo se traduce con toda exactitud. La necesidad de información es la siguiente: “cine y literatura para niños y adolescentes”. Para que se entienda mejor, la vamos a representar en forma de ficha: Tabla 3: Anatomía de una necesidad de información

Enunciado corto (implícito)

cine y literatura para niños y adolescentes

Enunciado largo (explícito)

cine tanto como literatura, ahora bien, siempre que tenga relación o bien con niños o bien con adolescentes o bien con ambos

Posible contexto

El usuario puede ser un educador o el programador de un canal de televisión, o un padre de familia, etc. interesado en encontrar películas y novelas recomendables para niños y adolescentes.

Forma plausible expresión

Si el usuario expresa su deseo, por ejemplo, a alguien que le está de ayudando, expresará una frase como ésta: “me gustaría encontrar recomendaciones de cine y literatura que puedan ver o leer niños y adolescentes”

Tabla 4: Interrogación no booleana vs. Booleana

Tipo de ejemplo interrogación

Significado lógico

No booleana cine literatura Documentos que contengan todas y cada una de (sin operadores niños las palabras. No capta la necesidad real del explícitos) adolescentes usuario. Se pierden de feacto, por ejemplo, documentos que traten solamente de cine y de 9


adolescentes. También los que traten solamente de cine y de niños, etc; puesto que pedimos exactamente que todas, es decir, las cuatro palabras estén presentes. Booleana (con (cine OR operadores literatura) AND explícitos) (niños OR adolescentes)

Capta exactamente la necesidad de información del usuario. Por ejemplo, un documento sobre niños y literatura será recuperado, aunque no hable ni de adolescentes ni de cine, etc., y esto es exactamente lo que necesita el usuario.

Como se puede ver, solamente la forma booleana capta de forma adecuada la semántica de esta necesidad de información, esto es, solamente la fórmula booleana es capaz de evitar tanto el ruido (información no deseada) como el silencio (información no recuperada). El principal inconveniente es que el álgebra booleana es, de facto, anti intuitiva e intimidatoria para el usuario final. Por ejemplo, si revisamos la representación de la necesidad de información anterior:

cine y literatura para niños y adolescentes

la mayor parte de los usuarios que se hubieran visto obligados a traducirla a una expresión booleana lo hubieran hecho así:

cine AND literatura AND niños AND adolescentes

Por el simple procedimiento de traducir todos los y gramaticales en AND lógicos (includa la expresión para ), y que es obviamente incorrecta por las razones señaladas antes, pero que vamos recordar de nuevo: no estamos interesados solo en documentos que traten todos estos aspectos en el mismo documento ; sino, literalmente en documentos que traten o bien de niños y cine, o bien de niños y literatura, o bien de adolescentes y cine, o bien de adolescentes y literatura, y ya sea por separado o conjuntamente. 10


Adicionalmente, debemos señalar que Google, por ejemplo, nunca se ha mostrado muy riguroso con el procesamiento de búsquedas booleanas. Al parecer, los motores que aplican de forma más adecuada la lógica booleana son Yahoo! y AlltheWeb.

1.4. Búsquedas avanzadas Como es sabido, los MDB presentan sus opciones de búsqueda en dos planos o formas de acceso: la búsqueda simple, utilizada por la inmensa mayoría de los usuarios y la búsqueda avanzada, cuya utilización es muy minoritaria. Sin embargo, la búsqueda avanzada ofrece prestaciones cuyo conocimiento detallado merece la pena. A cambio de pagar el peaje que representa una cierta curva de aprendizaje podemos obtener recursos mucho mejores de la Web. Además, lo cierto es que el dominio (y el hábito) de la búsqueda avanzada marcan, una vez más, la diferencia entre el profesional y el aficionado.

1.4.1. Simple vs Avanzada Las prisas de la vida cotidiana y el sentido de la urgencia (real o imaginario) que casi todos experimentamos en nuestro trabajo diario hacen que la búsqueda simple sea, con mucha diferencia la más utilizada en los diferentes motores. Es tanta la diferencia de la búsqueda simple sobre la avanzada que en algunos casos (Yahoo!, Ask) es un tanto difícil acceder a ella, síntoma claro de que la mayor parte de los usuarios la evitan, pues como es sabido las interfaces de consulta de los motores de búsqueda están diseñadas a partir de el estudio de los hábitos de sus usuarios como no podría ser de otro modo. Ahora bien, el hecho de que la búsqueda avanzada sea mucho menos utilizada no nos dice nada en realidad sobre su utilidad, simplemente nos habla de la preferencia de los usuarios por la simplicidad. Para ejecutar una búsqueda simple únicamente hemos de entrar la palabra clave y hacer un clic en el botón de búsqueda. Con la inmensa cantidad de información publicada en la Web es muy probable que obtengamos alguna información, no necesariamente la mejor información, pero algo obtenemos y posiblemente de cierta relevancia. En contraste, para la búsqueda avanzada no solamente hemos de hacer un clic adicional, cosa que no sería en principio ningún problema especial sino que debemos tomar decisiones, cosa que va contra el principio fundamental de la usabilidad enunciado como “no me hagas pensar”. No es extraña la preferencia de los usuarios por la búsqueda simple. Ahora bien, utilizar la búsqueda avanzada aporta ventajas y, aunque resulte de una gran obviedad recordarlo refuerza el hábito de utilizarla. A su vez, usar la búsqueda avanzada, en más de una ocasión puede marcar la diferencia entre una búsqueda fallida y una búsqueda con éxito. Mientras que esto puede parecer trivial en un 11


contexto de ocio o de simple curiosidad (buscamos información sobre nuestra actriz preferida o sentimos curiosidad por las imágenes de la última carrera de Fórmula 1) en un contexto profesional, la diferencia entre éxito y fracaso de una operación de búsqueda es difícil de exagerar.

1.4.2. Componentes principales de la búsqueda avanzada Aunque cada motor presenta un sistema propio, existen ciertas regularidades entre ellos que permiten un análisis común. En este sentido, los componentes más habituales se pueden agrupar en tres secciones, pero en honor a Google, la ampliaremos a cuatro secciones (la última solamente podemos obtenerla en Google de momento). Cabe advertir que no todos los motores las tienen todas. Se trata de las siguientes: 1. Búsqueda booleana (asistida) 2. Búsqueda por campos Título Contenido de la página URL, etc. 3. Filtros Idioma Formato (pdf, word, etc.) Fecha Dominio 4. Minería de datos Páginas similares

1.5. Búsqueda booleana Como ya se ha mencionado, es una búsqueda que permite la combinación de varios términos con los operadores lógicos AND, OR y NOT. Actualmente, en la mayor parte de los casos solamente es posible usar búsquedas booleanas en modo asistido, es decir, entrando los términos en un formulario donde cada fila corresponde al uso de un operador. El objetivo general de las búsquedas booleana es, por un lado, establecer con la mayor precisión el sentido de la necesidad de información del usuario y, por otro, lanzar en una sola operación una búsqueda que de otro modo requeriría varias operaciones.

12


1.6. Búsqueda por campos El mayor beneficio de la búsqueda por campos consiste en el incremento de precisión que es capaz de aportar, notablemente con el uso de un campo como título. Por ejemplo, una búsqueda simple por el término “microformatos” arroja más de 500 mil resultados. Restringir la búsqueda a documentos que tengan la palabra “microformatos” en el título arroja “solo” mil doscientos. Otra posibilidad habitual es buscar por el contenido de la página. Puede parecer sorprendente la posibilidad de restringir una búsqueda al contenido de la página (¿acaso no buscamos siempre en el contenido de la página?). La razón es que cuando hacemos una búsqueda simple, muchos motores buscan no solamente en la página sino también en los enlaces de entrada que recibe la página, es decir, en el texto que aparece en la etiqueta <a> de los enlaces de entrada. Por ejemplo, si la página A es enlazada por la página B mediante un enlace con el texto “clicable” que indica “mascotas para niños”, muchos motores (entre ellos Google) consideran que la página A “contiene” de forma virtual las palabras mascotas y niños y la página A aparecerá en los resultados aunque en el cuerpo de la misma no aparezca ninguna de esas palabras.

1.7. Filtros La tercera opción no es menos potente que la búsqueda por campos. En efecto, una de las posibilidades más útiles (y reveladoras) es filtrar resultados por el dominio. Esto significa lo siguiente: el motor buscará documentos únicamente en el dominio indicado. Lo mejor de todo es que suele admitirse cualquier nivel de dominio, por ejemplo, podemos restringir una búsqueda a dominios .es (o .edu, .com, .es, .gov, etc.) o podemos restingir una búsqueda al dominio upf.edu; o al dominio iula.upf.edu, etc. Por ejemplo, una búsqueda por el término ontologias AND tesauros proporcionó más de 11 mil resultados. Sin embargo, si filtramos a páginas o documentos del dominio .edu nos quedamos exactamente con 47 documentos. Otros filtros habituales son el idioma y rangos de fechas (las últimas 24 horas, 6 meses, un año, etc.). El problema con este último filtro es que no corresponde exactamente a la fecha del documento, sino, dependiendo del buscador, o bien a la fecha en la cual el documento ha sido incorporado por primera vez al índice del buscador o a la fecha del archivo. Como los motores no entienden el contenido de un documento, si yo subo en mayo del 2010 por primera vez a mi servidor un documento publicado originalmente en 1999, para un motor será un documento de mayo del 2010. O si lo he reescrito de nuevo en septiembre del 2010 y he cambiado una sola letra de su nombre de archivo, etc.

1.8. Minería de datos La minería de datos consiste en examinar grandes cantidades de información mediante algoritmos determinados con el fin de encontrar regularidades que no son aparentes a 13


simple vista. Desde el punto de vista de las búsquedas, una de las operaciones más productivas posiblemente sea la de encontrar páginas similares entre sí. La minería de datos permite muchas otras opciones, pero los motores de búsqueda parecen especialmente celosos y parcos en este apartado. La única posibilidad que suelen ofrecer es la ya anunciada de buscar páginas similares a una dada. En el caso concreto de Google, la opción de buscar páginas similares consiste en lanzar una búsqueda con las palabras más frecuentes de la página de partida.

1.9. Principales sistemas A continuación, examinaremos (y practicaremos) la búsqueda avanzada en los tres motores que, de acuerdo con las estadísticas de uso son los más utilizados tanto en España como a nivel internacional (obviamos AOL, uno de los motores más usados en América, por su escasa o nula utilización en España en particular y en Europa en general). Los tres motores, presentados por orden de importancia (cuota de mercado) son los siguientes: Google www.google.es Yahoo! www.yahoo.es Bing www.bing.com Para el análisis que presentaremos a continuación, y en todos los casos, usaremos la versión del motor para España. Obviamente, en algún momento determinado, la versión internacional puede presentar cambios respecto a la versión local.

1.9.1. Google Google es un motor tan conocido que sería ridículo querer presentarlo aquí. Revisaremos directamente las opciones originales de su búsqueda avanzada. Las dos opciones más características de la búsqueda avanzada de Google están relacionadas con la posibilidad de filtrar contenidos en función de los derechos de uso (p.e., documentos que se puedan utilizar libremente) y la opción de búsqueda de páginas similares. La imagen siguiente destaca las principales opciones de su búsqueda avanzada.

14


1.9.2. Yahoo! El buscador Yahoo! fue mucho antes el directorio más importante de la Web. Poco a poco, fue dando lugar a un auténtico portal con decenas de servicios. Finalmente, la presión de Google que sirvió para eliminar (virtualmente) los directorios hizo que Yahoo! desarrollara su propio buscador. En poco tiempo ha sido capaz de obtener la segunda posición en el mundo de los buscadores, superando a Bing. La siguiente imagen destaca de forma gráfica los elementos más característicos de la búsqueda avanzada de Yahoo!. Su sistema de búsqueda avanzada no presenta ninguna característica específica mientras que carece de la opción de buscar páginas relacionadas.

15


1.9.3. Bing Bing es el enésimo intento de Microsoft de desarrollar un buscador creíble. Es sorprendente que una de las principales empresas de informática del mundo haya fracasado de forma sistemática y continuada en el objetivo de desarrollar un buscador capaz de competir con mediano éxito con Google; no decimos capaz de superarlo, decimos simplemente capaz de medirse con él. De hecho no solamente no se acerca al número 1, sino que ni siquiera el número 2 le está reservado, un puesto que la mayor parte de los analistas creen que corresponde claramente a Yahoo!. La siguiente imagen destaca las opciones de su búsqueda avanzada.

16


Como hemos podido ver el liderazgo de Google se manifiesta también en las opciones de búsqueda avanzada. No solamente es el único que presenta los principales componentes, o sea, si se nos permite el juego de palabras: no es solamente el único que carece de carencias, sino que añade opciones exclusivas, como la opción de minería de datos (buscar páginas relacionadas) y de búsquedas por tipo de licencia de derechos de autor. Dejando anécdotas o prestaciones concretas de cada motor, una vez más cabe señalar la eficacia indudable y la enorme ventaja de utilizar búsquedas avanzadas cuando el problema de información lo requiera. El único inconveniente suele consistir en la simple fuerza de la inercia (la tendencia a usar la búsqueda simple). En este sentido, nuestra recomendación es clara: para un profesional, adquirir el hábito de utiliza la búsqueda avanzada en lugar de tirar la toalla cada vez que una búsqueda simple no arroje resultados, puede marcar una diferencia esencial a nuestro favor como profesionales.

1.10. Conclusiones Para terminar con los lenguajes de interrogación, mencionar que en el contexto de las bases de datos referenciales así como en bases de datos de imágenes y video, el uso de búsquedas booleanas es imprescindible, dado que las referencias y las imágenes tienen poco texto comparado con el documento completo. Además, las bases de datos referenciales no suelen utilizar ningún tipo de ordenación por relevancia. En las bases de datos de texto completo, el uso de búsquedas booleanas puede ser útil en función de la complejidad de la consulta y la calidad relativa del sistema de relevancia de la base de datos. En cambio, en motores de búsqueda, su utilidad ha quedado en entredicho debido a dos factores: en primer lugar gracias a los sistemas de cálculo de relevancia de los motores que han minimizado la necesidad de expresar de forma tan estricta las 17


necesidades de información. En segundo lugar porque la enorme abundancia de información de cualquier tipo hace cada vez menos importante la exhaustividad y más importante la precisión. Es decir, al usuario típico de un motor que busca información por motivos de ocio o por simple curiosidad no le importa perder documentos relevantes mientras que los 10 o 20 primeros, que son los que estará dispuesto a ver como respuesta a su búsqueda, sean relevantes y solucionen (mejor o peor) su problema de información. La alternativa, en el contexto de una sobre saturación informativa, es decir, dedicar tiempo a aprender las bases de la lógica booleana y dedicar tiempo a planear cada búsqueda no es muy atractiva. Este es el motivo por el cual parece haber perdido peso no solamente el uso de las búsquedas booleanas explícitas (recordemos que toda búsqueda de dos o más términos lleva un AND booleano implícito), sino la misma necesidad de aprender la sintaxis de un lenguaje de interrogación o incluso la necesidad de acudir al sistema avanzado de búsqueda. Los profesionales, en cambio, deben conocer bien estos aspectos, porque en alguna ocasión podrán resolver un problema de negocio o un problema crítico que ponga en cuestión su prestigio profesional gracias a un buen conocimiento de las características completas de los lenguajes de interrogación. Además, como ya hemos señalado saber utilizar de forma adecuada un lenguaje de interrogación, en particular, el conocimiento de las búsquedas booleanas, es imprescindible en contextos donde no existe el documento completo (base de datos referenciales), donde el documento no es textual (bases de datos multimedia) o donde no pueden aplicarse ordenaciones de relevancia basadas en enlaces (bases de datos de texto completo).

18


2. Motores de búsqueda 2.1. Buscadores generalistas Los motores de búsqueda son los más importantes sistemas de información documental de nuestro tiempo. Forman parte no solo del paisaje de Internet de una manera que parece definitiva, sino que incluso es una de las tecnologías que se han acabado imponiendo en las empresas para organizar la documentación interna. Nadie imagina hoy la posibilidad de explotar la inmensa riqueza de la Web sin el auxilio de los motores de búsqueda cuyas funciones no han dejado ni de aumentar ni de experimentar cambios desde su temprana aparición en los años 90. De hecho, son los sistemas de recuperación de información que más cambios han acumulado en los últimos cinco años. A partir de ahora, los analizaremos en tanto sistemas de información.

2.2. Sistemas de información documental Una forma de concebir las funciones de un motor de búsqueda consiste en concebirlo como una clase de sistema de información documental, que se puede representar con el diagrama que mostramos a continuación:

19


Ilustración 1: Diagrama de un Sistema de Información documental

Podemos ver que un sistema documental (tal como un motor de búsqueda) acepta dos clases de entradas: Documentos y Necesidades de Información. Los documentos en nuestro caso son páginas web principalmente y las necesidades de información son las preguntas de los internautas. La salida del sistema es una lista de sitios web que, presumiblemente, contienen información capaz de satisfacer las necesidades de información del usuario, de aquí que la salida se rotule con el (optimista) texto de Personas informadas. Naturalmente, si la primera consulta no da buenos resultados, lo lógico es que el usuario (el internauta) haga algún intento más. Esto queda representado por la elipse rotulada con la palabra Control. Es decir, se supone que el usuario examina la relevancia de los resultados y si no le satisfacen, reitera la pregunta (usando otros términos).

2.3. Estructura de un motor de búsqueda En los últimos años, se ha ido consolidando una estructura similar en la mayor parte de los motores de búsqueda. Actualmente, la estructura típica de un motor de búsqueda (MDB a partir de ahora) consiste en un conjunto de programas que trabajan en cooperación. Estos programas se pueden distribuir en dos grupos principales:  Sistema de exploración o Rastreador (en inglés: spyder o crawler)  Sistema de recuperación de información (en inglés: information retrieval system) 20


Cada uno de estos sistemas se compone de otros subsistemas que analizaremos a continuaci贸n:

21


Ilustración 2: Estructura y funciones de un Motor de Búsqueda

2.3.1. Rastreador del motor de búsqueda El rastreador, o sistema de exploración tiene la misión de descubrir y descargar páginas web y otros documentos de Internet. Para ello, parte de una lista de URLs o direcciones de páginas web (1). A partir de ella accede a documentos (2) publicados en la web. Descarga esos documentos, en su mayoría páginas web, pero también documentos ofimáticos, presentaciones, archivos de imágenes, etc. en el almacén o repositorio de documentos del MDB (3). A partir de las páginas descargadas, el rastreador obtiene nuevas URL (4) que añade a su lista de URL pendientes de analizar (5).

2.3.2. Sistema de recuperación de información El sistema de recuperación de información tiene a su vez dos componentes:  Sistema de indización  Sistema de consulta El primero de ellos se ocupa del análisis de los documentos descargados de la web y de la creación de los índices que permiten luego las consultas al motor; mientras que el segundo constituye la interfaz visible del MDB, precisamente la parte con la que interactúan los usuarios.

Sistema de indización Si el MDB puede responder preguntas en el asombrosamente breve tiempo al que nos ha acostumbrado tanto Google como Yahoo! (típicamente, fracciones de segundo), es porque los motores no exploran la web para los usuarios en tiempo real, es decir, en el momento de la consulta. Un sistema que pretendiera explorar de forma secuencial los documentos de la web para ofrecer respuestas en tiempo real no tendría el más mínimo sentido. Podrían transcurrir horas, días o semanas entre la pregunta y la respuesta. Si un estudiante hiciera su pregunta al inicio del curso, cuando obtuviese la respuesta ya habría pasado la época de entrega de trabajos. En lugar de lo anterior, lo que hacen los motores es consultar sus índices internos.

Índices directos Los MDB utilizan al menos dos clases de índices, denominados respectivamente índices directos e índices invertidos. Las consultas las resuelven los índices invertidos, mientras 22


que los índices directos, que son los que vamos a ver ahora, se utilizan como elementos de gestión y control internos. En un índice directo tenemos la lista de documentos (o de registros) en un orden cronológico (el documento más antiguo primero, por ejemplo) o numérico (del documento número 1 hasta el último). La siguiente figura ilustra esta clase de índices:

Núm. Documento

Contenido

00001

Título: Manual Autor: Blanca Gil

00002

Título: Diseño y construcción Autor: Marc Campbell

...

...

34567

Título: Autor: Fina Pizarro

de

Aprender

lenguajes

de

sitios

con

documentales

Dreamweaver

a

8

razonar

Representación de un índice directo

Como podemos ver, con este índice, para saber si hay un documento con las palabras “aprender” y “razonar”, tendríamos que recorrer decenas de miles de entradas del índice (concretamente 34.567). Lo peor es que, si el índice completo tuviera, por ejemplo, cien mil entradas, habría que recorrer las cien mil entradas del índice para saber si hay más de un documento que cumpla la condición anterior. Como es fácil suponer, esta clase de índices no mejora mucho en relación al supuesto rastreo en tiempo real de la Web con el que especulábamos antes. Por tanto, un MDB necesita complementar este índice con un índice invertido, que es el que se utiliza realmente para responder a las consultas (mientras que el índice directo se utiliza para aspectos de gestión y administración internos).

Índices invertidos La estructura de un índice invertido es exactamente la inversa de la anterior (de aquí el nombre), a saber: consiste en una lista ordenada de todas y cada una de las palabras que aparecen en los distintos documentos asociadas a los documentos concretos en los que aparecen. La estructura típica de un índice invertido, por tanto es la siguiente: 23


Término único

Frecuencia

Ubicación

Aprender

110

(34567, 01, 01) ...

...

...

...

Blanca

233

(00001, 02, 01) ...

...

...

...

Campbell

6

(00002, 02, 02) ...

...

...

...

Razonar

214

(34567, 01, 03) ...

...

...

...

Representación de un fichero invertido La explicación: En Término único aparecen las distintas palabras de los documentos, pero solamente aparece una fila por cada palabra (aunque en el conjunto de los documentos aparezca muchas veces). En la columna Frecuencia tenemos el número total de veces que aparece cada término. Por último, en Ubicación tenemos una clave en forma de vector donde aparece el número de documento, la zona o campo donde aparece la palabra y el orden de la palabra. Habrá un vector por cada ocurrencia. Veamos esto último con más detalle. Tomemos el término “Aprender”. Tenemos que la columna de Frecuencia señala: “110”. Esto significa que “Aprender” aparece 110 veces en el conjunto de los documentos, y que habrá por tanto 110 vectores distintos en la columna Ubicación. Nosotros solamente hemos representado uno de ellos para simplificar. Tomemos ahora este mismo vector [ (34567, 01, 01) ] y veámoslo con detalle. El primer número, 34567, es el que identifica el documento, el segundo, 01, identifica el campo o zona del documento donde aparece la palabra, en este caso, Título. 24


Otros índices auxiliares ayudan al MDB a recorrer la lista de términos únicos con un pequeño número de operaciones de comparación. Lo mejor de todo es que esta clase de índices hace que el tiempo de respuesta sea virtualmente independiente del número de términos que aparecen en la lista. El problema principal con estos índices es la cantidad de recursos de hardware que requieren, particularmente, si se debe dar servicio a miles de usuarios simultáneamente. Para que el MDB pueda construir su índice necesita a su vez un procedimiento que le permita analizar las páginas web y extraer los términos de las mismas que formarán parte del índice, y para ello a su vez necesita poder determinar qué es y qué no es un término. El algoritmo más fácil determinaría que son términos todas las cadenas de caracteres situadas entre espacios en blanco. Sin embargo este algoritmo produciría muchos errores. Por ejemplo, no seleccionaría las palabras iniciales de cada frase ni sabría tratar las que estuvieran rodeadas de signos ortográficos; por otro lado, tampoco conviene identificar como términos las palabras sin significado propio, como los pronombres y los artículos, etc.

2.3.3. Interfaz de consulta Las funciones que desempeña la interfaz actual de un MDB son las siguientes: En primer lugar, el formulario de consulta sirve para enviar la pregunta a otra parte del sistema que compara los términos de la pregunta con el índice invertido y filtra de este modo las páginas web que contienen los términos de la pregunta. En segundo lugar, el MDB debe presentar los resultados de la forma más clara y eficiente posible a través de la Página de resultados del motor de búsqueda (search engine results page). Por último, pero posiblemente lo más importante de todo, los resultados deben mostrarse en algún orden significativo, y de entrada podemos descartar el orden alfabético o el cronológico, dada su escasa utilidad en un contexto tan heterogéneo y con la inmensa cantidad de documentos que hay en Internet. Aquí interviene el denominado algoritmo de cálculo de relevancia, al que dedicaremos el resto de este apartado.

2.4. Cálculo de relevancia Como es sabido, la página de resultados de los motores de búsqueda lista los documentos encontrado por orden de relevancia (y no, por ejemplo, por orden cronológico o alfabético). Hasta los años 90 los buscadores aplicaron técnicas clásicas 25


de Recuperación de Información para calcular la relevancia de cada página o documento, pero se vio que en el contexto de la Web estas técnicas eran inadecuadas por la gran cantidad de ruido (falsos positivos) que generaban. Google fue el primer motor que supo entender esta diferencia y que aplicó una técnica distinta para ordenar los documentos en su página de resultados: el análisis de enlaces. Esta técnica tiene nombre propio: PageRank. Google ha influenciado de manera duradera la forma en la cual los motores ordenan sus páginas de resultados, de modo que los demás motores (Yahoo!, Live, Ask) utilizan principios necesariamente distintos (PageRank está patentado) pero inspirados en la misma idea: el mencionado análisis de enlaces.

Contexto De acuerdo con la teoría clásica de la Recuperación de Información (RI) lo último que debería hacer un sistema documental (los motores de búsqueda son sistemas documentales, entre otras cosas) es entregar listas de resultados ordenadas de forma aleatoria. Cualquier usuario puede constatar que ante un grupo de documentos sobre un tema determinado, algunos le parecerán más relevantes que otros. Si a este usuario se le presenta un conjunto pequeño de documentos, digamos no más de 50, posiblemente le sea indiferente el orden de los mismos: cronológico, alfabético por título, alfabético por autores, aleatorio, etc., dado que el tiempo para explorar 50 documentos es relativamente pequeño.

Volumen de información Ahora bien, imaginemos que la respuesta a una petición de información, consiste en un conjunto de mil, diez mil o un millón de documentos. ¿Tiene el más mínimo sentido presentarlos en orden cronológico?; ¿y en orden alfabético?, ¿y en orden aleatorio? ¿Podemos esperar que el usuario disponga de la más mínima posibilidad de explorar el cien por cien de los documentos de un conjunto de miles o de cientos de miles de documentos recuperados? Los motores de búsqueda dejarían de tener usuarios (y perderían sus contratos publicitarios) si los resultados no fueran entregados de acuerdo a algún principio de relevancia. La ordenación por relevancia (suponiendo que sea mínimamente eficaz) hace que sea indiferente, a casi todos los efectos, que el número de documentos encontrados se cuente por decenas, por centenares, por miles o incluso por millones porque en todos los casos, al estar ordenados por relevancia, se supone que al usuario le bastará con revisar los primeros documentos; dicho de otro modo, en ningún caso deberá explorar el cien por cien de los documentos, cosa que sí tendría que hacer si los documentos 26


más relevantes pudieran ocupar las últimas posiciones. Otra cosa es que el cálculo de ordenación de relevancia aplicado sea eficiente (o no). Lo que estamos considerando aquí es la filosofía misma de la operación, a saber, cuando se entregan grandes conjunto de documentos, o bien la ordenación por defecto es por relevancia o al menos se presenta como una de las opciones.

Relevancia Pero, ¿qué es la relevancia? Se han dedicado ríos de tinta a discutir esta cuestión que incluye aspectos lógicos, matemáticos, psicológicos, etc. En sus términos más simples, y siempre en el contexto de los sistemas de información documentales se considera que la relevancia es la propiedad que tiene un documento de satisfacer una necesidad de información. Uno de los puntos más interesantes de la cuestión es que esta propiedad es, en realidad, una co-producción entre las propiedades del documento y las características del usuario (su nivel de formación, sus expectativas, conocimientos previos, tiempo disponible, etc.). Además, la relevancia no es solamente una cuestión de todo o nada, sino que oscila entre un mínimo (cero por cien relevante) y un máximo (cien por cien relevante). En la vida cotidiana todos tenemos la experiencia de haber visto que, sobre un mismo tema y dado un grupo de documentos, pongamos una guía de viajes a Roma, para algunos de nosotros tendrán una relevancia cercana a cero (por ejemplo, por estar escritos en japonés o porque está muy desfasada) y otros serán tal vez casi cien por cien relevantes (nos gusta el estilo, el nivel de especialización, la actualización, la selección de temas, las ilustraciones, etc.). No se detienen aquí los aspectos conflictivos de la relevancia. El orden en el cual los documentos son mostrados al usuario afecta a la relevancia de los mismos. En efecto, imaginemos que tenemos tres documentos: A, B, C. Supongamos que el documento A tiene un 25 por ciento de relevancia (o 0,25); el documento B un 0,50 y el documento C un 0,75. Imaginemos que enseñamos los documentos por ese mismo orden al usuario: encontrará que los tres son muy relevantes porque cada vez obtuvo informaciones nuevas de ellos. Ahora imaginemos que, en cambio, los mostramos al usuario por este orden: C, B, A. Ahora, cuando llegue al documento B pensará que no es demasiado relevante (porque ya ha leído el C) y cuando llegue al A, le parecerá que es un documentos inútil.

Heterogeneidad La Web aportó, literalmente el espacio de búsqueda más heterogéno de la historia de la humanidad: compuesto por documentos de todos los temas imaginables, sobre aspectos y puntos de vista totalmente diversos, y publicados por parte de actores 27


completamente diversos, con intereses distintos, idiomas y culturas diferentes, etc., e insistimos, todo ellos en un espacio de acceso unificado.

Recuperación con adversario Por último, debemos señalar uno de los aspectos más característicos de la Web actual y para el cual la RI clásica no estaba en absoluto preparada. Se trata de lo que se denomina recuperación de información “con adversario” (Baeza-Yates, 2007). En la Web, los autores de páginas y los administradores de sitios están interesados en conseguir que sus sitios queden bien posicionados en las páginas de resultados de los motores (es decir, hacer que sus sitios/páginas aparezcan entre los primeros resultados que devuelve el buscador una vez formulada una consulta). Una parte de esos autores y administradores carecen de escrúpulos a la hora de perseguir sus objetivos de posicionamiento. Con millones de sitios, aunque los administradores no éticos fueran una minoría, podríamos estar hablando de miles y miles de sitios y decenas de miles de páginas sin interés real copando los primeros puestos en las páginas de resultados de los motores de búsqueda si éstos siguieran usando técnicas tan ingenuas como la que aplicaron durante los años 90. Por lo tanto, por primera vez, los sistema de información (motores de búsqueda en este caso) tuvieron que vérselas con una clase de documentos expresamente “trucados” para aparecer en posiciones de relevancia. Por tanto, a las anteriores razones a favor de un cálculo de relevancia eficiente, se une esta peculiar característica de la web. Dicho de otro modo: sea cual sea el algoritmo de posicionamiento que utilice un motor de búsqueda debe ser inmune (o al menos, relativamente inmune) a los intentos de manipulación de los propios autores de las páginas web y los administradores de documentos.

Análisis de enlaces Históricamente, la primera respuesta verdaderamente eficiente a todos los desafíos señalados los aportó Google a finales de los noventa con un nuevo concepto: el análisis de enlaces (aunque entonces nadie lo llamaba todavía así). En concreto, la nueva idea que aportó Google (mejor dicho, los fundadores de Google: Sergei Brin y Larry Page) es la siguiente: en lugar de calcular la relevancia exclusivamente por las características intrínsecas de la página, añadamos también características externas, en este caso, consideremos las características de los enlaces de entrada que recibe una página. Con estos dos conjuntos de datos: propiedades del documento (p.e., número de veces que aparece la palabra clave en la página) más propiedades de los enlaces de entrada (p.e., cuantos enlaces de entrada tiene la página), Google comenzó a proporcionar una 28


página de resultados mucho más eficiente. Tan eficiente, de hecho, que en cuestión de poco tiempo se hizo con el dominio casi absoluto del mercado de las búsquedas, arrasando no solamente a sus competidores, sino de paso a casi cualquier otra forma alternativa de buscar información en la Web (por ejemplo, los directorios).

Como decimos, la aplicación del análisis de enlaces se ha revelado tan eficiente que Google no volvió a tener auténtica competencia hasta que sus competidores adoptaron su cálculo de relevancia para que también tuviera en cuenta el análisis de enlaces. ¿En qué consiste el análisis de enlaces? A groso modo, se trata de algo muy simple: una página es más importante si recibe más enlaces de entrada. A partir de aquí, las dos principales dificultades son del siguiente tipo: (1) ¿valen lo mismo todos los enlaces de entrada?; (2) dado que la Web está compuesta por miles de millones de documentos y que además es dinámica, ¿cómo implementamos un sistema de análisis que no entre en un bucle sin fin (y que, por tanto, sea incapaz de arrojar resultados en un tiempo razonable)? Históricamente, han existido dos intentos de respuesta a las preguntas anteriores que, además, se produjeron casi al mismo tiempo: HITS (1997) y PageRank (1998). HITS es un algoritmo desarrollado por el matemático de la Universidad de Cornell Joan Kleinberg. Existe una gran unanimidad en admirar el acierto conceptual de su propuesta, pero en reconocer a la vez las dificultades prácticas para su implantación, dado que requiere un gran tiempo de cómputo. A grandes rasgos, HITS se basa en considerar dos grandes clases de sitios: hubs (ejes) y authorities. Un hub o eje es una página de la que salen numerosos enlaces hacia otras páginas (probablemente) relacionadas temáticamente. Una authority o autoridad es una página que recibe muchos enlaces de entrada. Las mejores página serán aquellas que sean o bien hubs o bien authorities y según lo que esté buscando el usuario (o bien respuestas directas o bien referencias) preferirá hubs o authorities, diferencia que la página de resultados del motor de búsqueda puede resaltar. Actualmente, aunque se admite su gran influencia conceptual no se sabe de ningún motor de búsqueda que lo adopte, al menos tal como fue formulado originalmente. La segunda respuesta, aparecida casi a la vez, fue la aportada por los fundadores de Google Sergei Brin y Larry Page y se denomina, como ya sabemos, PageRank. En un artículo seminal aparecido en 1998 presentaron la idea del algoritmo que, ante el desinterés comercial de los motores existentes en la época y a los cuales intentaron 29


vender sin éxito, acabarían implantando por su propia cuenta en el año 2000 en su motor, Google. Posteriormente, hacia el 2004, Yahoo! anunció su propia variedad de análisis de enlaces, el llamado WebRank. Ahora bien, Yahoo! nunca explicó de forma ni siquiera aproximada o conceptual en qué se basaba su algoritmo. Por lo tanto, si hacemos un balance rápido tenemos esta situación: todos los motores de búsqueda importantes actuales (Google, Yahoo!, Bing, Ask, etc.) aplican el análisis de enlaces. De los tres algoritmos más o menos conocidos, HITS no se ha llegado a implementar por sus dificultades técnicas (problemas de tiempo de cómputo) y el algortimo de Yahoo! (WebRank) es virtualmente clandestino. PageRank es el único algoritmo bien documentado. Es por esta razón, en primer lugar, que vamos a ocuparnos a partir de ahora únicamente de PageRank. En segundo lugar, en realidad los algoritmos de todos los motores de búsqueda importantes están directamente influenciados por PageRank. De hecho lo que intentan los demás motores, por ingeniería inversa, y se supone que de una forma ética (es decir sin caer en el plagio o el espionaje industrial) es clonar PageRank. Por último, cabe destacar que la razón por la cual PageRank ha acabado imponiéndose sobre HITS no es solamente porque ofrecía un modelo conceptual tan válido como HITS o más (aunque diferente), sino porque ofrecía un algoritmo viable. La moraleja es que no bastan las buenas ideas, sino que debe ser posible llevarlas a la práctica.

PageRank El PageRank (PR a partir de ahora) es, a la vez, un método de análisis de enlaces (un algortimo) y el resultado del mismo, a saber, una medida estadística, en concreto una medida de visibilidad o de popularidad de una página calculada a partir de (1) el número de enlaces de entrada de un sitio web y (2) la calidad de los enlaces, esto es, si los sitios de los que proceden los enlaces son a su vez son muy enlazados. Por lo tanto, se trata de un rasgo recursivo: un sitio web enlazado por un sitio web muy popular tendrá un mayor PR que un sitio web enlazado por uno poco popular. A la vez, los sitios de los que salen mucho enlaces reparten su PR de manera proporcional entre cada uno de sus enlaces de salida. Por tanto, un sitio con un alto PR transmite menos PR a las páginas que enlaza que otro sitio con menor PR relativo pero que tiene menos enlaces de salida. Como se ve, calcular el PR de todas y cada una de las página de la Web (o al menos de todas y cada una de las páginas en el índice de Google) requiere cálculos recursivos. El problema de los cálculos recursivos lo indica su nombre: no tienen una parada. El mérito de Brin y Page fue desarrollar una fórmula que hacía que el cálculo fuera 30


eficiente con un número limitado y muy manejable de iteraciones (ocho en total, según explican en su artículo de 1998). La cuestión es que, al final de tales cálculos, el PR de una página consiste en un número que será más alto cuantos más enlaces reciba de páginas que, a su vez, tengan un alto PR. En su página para webmasters, Google indica lo siguiente: PageRank interpreta un enlace desde la página A a la página B como un voto para la página B por parte de la página A. PageRank determina entonces la importancia de una página por el número de votos que recibe. También considera la importancia de cada página que emite el voto, por lo que los votos de algunas páginas se consideran de mayor valor, dando así a la página enlazada mayor valor. Las páginas más importantes tienen un mayor PageRank y aparecen en la parte superior de los resultados de búsqueda.

Ahora bien, existen al parecer dos índices de PR: uno de uso interno, que Google no da a conocer y al que denominaremos PR Auténtico (PRA), y otro que se presenta a través de una barra de herramientas del propio Google (Google Toolbar). Este PR al que denominaremos PR Externo (PRE) consiste en una escala de 0 a 10, de manera que un sitio con una puntuación de 0 indica que se trata de un sitio que no recibe ningún enlace, mientras que en el otro extremo, un sitio con una puntuación de 10 recibe miles o decenas de miles de enlaces y centenares de ellos proceden de sitios que a su vez poseen índices de PR muy altos.

Figura 2: El PageRank (en su modalidad externa) de una página se puede ver con la Toolbar de Google instalada en el navegador. Si pasamos el cursor sobre la barra indicará el valor numérico (p.e. 7/10).

A efectos prácticos parece que Google considera que una página comienza a ser importante solamente a partir de un PRE de 4. Para empresas pequeñas o medias, tener un sitio con un PRE de 5 o de 6 es un buen objetivo. Muchas páginas de sitios relativamente importantes como páginas de universidades, museos, o grandes corporaciones pueden llegar a tener un PRE de entre 6 y 8. Por último, muy pocas webs en todo el mundo pueden tener un PRE de 9 y aún menos (la propia Google entre ellas) un PRE de 10.

31


El PageRank y otros algoritmos de posicionamiento no hacen más que confirmar una idea conceptualmente muy simple: una página quedará bien posicionada en función de la calidad (y volumen) de su contenido. Lo único que ocurre es que los motores no pueden establecer una medida directa, de modo que lo hacen de forma indirecta: si una página es muy enlazada, es probable que tenga contenidos de calidad. La moraleja por parte de los responsables de páginas web es la siguiente: si hemos realizado el esfuerzo continuado que requiere aportar contenidos de calidad a nuestro sitio, debemos verificar si tenemos un número de enlaces de entrada que permita visualizar este esfuerzo. De no ser así, deberemos tomar las medidas adicionales con el objetivo de conseguir enlaces de entrada a través, típicamente, de buenas campañas de posicionamiento.

2.5. Página de resultados Por último, la respuesta del motor con la lista de documentos organizados en un ranking debe presentarse de alguna forma. De este aspecto se ocupa precisamente la página de resultados (PdR a partir de ahora). Las funciones de la PdR, más allá de poder hacer clic en ellos y, por alguna razón, suelen pasar desapercibidas a los usuarios finales. Pero, para los profesionales, deberían ser muy visibles. En este sentido, se puede decir que, a simple vista, la PdR ofrece una lista de páginas o enlaces a documentos y ya está. Sin embargo, una mirada atenta a la PdR de, por ejemplo, Google, nos muestra las siguientes informaciones y opciones:  Número total de páginas que contienen la palabra clave.  Una sección separada para los resultados de pago (resultados patrocinados).  Una sección separada (la más importante) para los resultados no pagados (resultados orgánicos). De cada uno de estos resultados, tenemos la siguiente información:  Título de la página (o del documento)  El tipo del documento (cuando no es HTML)  Unas líneas de descripción del contenido del documento  URL de la página  Tamaño de la página web (no de los archivos enlazados) Y las siguientes opciones: 32


 Obtener una versión traducida de la página con traducción automática (o sea, en general muy deficiente)  Ver la página en la caché de Google  Buscar páginas con contenidos similares  Navegación secuencial entre los resultados o yendo a una página de resultados concreta (hasta la página 90 más o menos)  Restringir la siguiente búsqueda a los resultados obtenidos Si lo miramos bien, la página de resultados de los actuales motores de búsqueda ofrece una meritoria combinación de sencillez de uso con gran cantidad de información. Son los profesionales de la documentación quienes deben ser conscientes de esto y ponerlo a su favor.

33


Segunda parte: La búsqueda de información en la Web Principales buscadores La generalización del uso de los buscadores como herramientas para navegar a través de la web ha hecho que proliferen cientos de iniciativas que compiten entre sí para atraer a los usuarios. No obstante, sólo una decena pueden considerarse populares, siendo además sólo cuatro de ellos los que concentran la mayoría de las búsquedas. Estos son: 1. Google ( http://www.google.es/ ) 2. Yahoo! ( http://es.yahoo.com/ ) 3. Bing ( http://www.bing.com/ ) 4. Ask.com ( http://es.ask.com/ ) Los restantes merecen ser mencionados por su popularidad relativa: 5. Altavista ( http://es.altavista.com/ ) 6. Alltheweb ( http://www.alltheweb.com/ ) 7. Hotbot ( http://www.hotbot.com ) 8. Alexa ( http://www.alexa.com/ ) 9. Yippy ( http://www.yippy.com/ ) A continuación nos centraremos principalmente en la comparación de los cuatros principales motores de búsqueda del mercado, no obstante, también se mencionarán algunos aspectos especialmente relevantes que incorporan otros buscadores.

1. Google Google fue creado por Larry Page y Sergey Brin en 1998, a raíz de una idea nacida tres años antes cuando eran estudiantes de doctorado en la Universidad de Stanford. A día de hoy Google está considerado el mayor y más eficiente motor de búsqueda del mercado. Sin duda alguna las claves su éxito son:  Su facilidad de uso 34


 La eficacia y eficiencia de su tecnología para indexar la web  Su software de relevancia Hasta la aparición de Google los motores de búsqueda recuperaban la información de la web sólo en función de la frecuencia de aparición de las palabras introducidas por el usuario como consulta en cada documento. Es decir, si un usuario introducía la consulta “arte contemporáneo”, el motor de búsqueda ofrecía como resultados más relevantes aquellos documentos o sitios web en los que se repetían más veces ambas palabras. Google introdujo una nueva tecnología para calcular la relevancia de un sitio o un documento web. Es la tecnología denominada PageRank, y que ya hemos estudiado. Además Google amplió y mejoró el análisis del contenido de las páginas, y es que en lugar de limitarse a explorar la frecuencia de los términos que constituyen el texto de una página, analiza todo el contenido de ésta, como por ejemplo: el tipo de las fuentes (negrita, cursiva, normal), el lugar de aparición de los textos (títulos o cabeceras, párrafo, etc.) o la ubicación de las palabras (si aparecen como nombre de una imagen, cercanas a un enlace, etc.). También analiza el contenido de las páginas web desde las que se recibe un enlace, para garantizar que los resultados son los más relevantes respecto a la consulta del usuario. Hoy por hoy, todas estas innovaciones introducidas por Google han sido adoptadas por la mayoría de buscadores, no obstante, la constante mejora de su tecnología de búsqueda, y la continua ampliación de sus servicios a los usuarios, han hecho que Google siga siendo el mejor buscador generalista existente en la web. En cuanto a sus características, desde la página principal de Google puede encontrarse información en un gran número de idiomas, leer titulares de noticias, realizar búsquedas en más de 880 millones de imágenes y utilizar el mayor archivo del mundo de mensajes de Usenet , compuesto por más de 845 millones de entradas que se remontan a 1981. También ofrece formas de acceder a toda esta información sin pasar forzosamente por la página principal de Google, mediante el uso de la barra Google, que permite realizar búsquedas en Google desde el navegador y en cualquier ubicación de la web. Así mismo, Google permite realizar búsqueda a través de dispositivos portátiles. Google ha desarrollado la primera tecnología de búsqueda inalámbrica que convierte al momento el código HTML a formatos optimizados para WAP, i-mode, J-SKY y EZWeb. En cuanto a su modelo de negocio, Google es hoy una de las empresas publicitarias más importantes del mundo. Genera ingresos ofreciendo a sus anunciantes la oportunidad de publicar anuncios en línea. De este modo, cuando un usuario realiza 35


una consulta, si existe algún producto relacionado con la misma, se mostrará un enlace-anuncio a los mismos. No obstante, con el fin de que el usuario conozca cuando un resultado está patrocinado, Google distingue los anuncios de los resultados de la búsqueda mostrándolos bajo el título "Enlaces patrocinados" bien como primeros resultados, sombreados para diferenciarlos de los resultados normales (orgánicos), bien en la parte derecha de la página de resultados. Google en cifras: o Número de páginas web indexadas: más de 8.000 millones o Imágenes indexadas: más de 880 millones o Mensajes usenet: más de 845 millones o Idiomas en los que puede utilizarse Google: más de 100 o Idiomas en los que Google ofrece sus resultados: 35 o Dominios internacionales: más de 100 o Empleados: más de 2500 Herramientas de búsqueda: o Búsqueda normal ( http://www.google.es/ ) o Búsqueda avanzada ( http://www.google.es/advanced_search?hl=es ) o Motor de búsqueda académico ( http://scholar.google.es/ ) o Motor de búsqueda de libros ( http://books.google.es ) o Búsqueda de imágenes ( http://images.google.es ) o Búsqueda de videos ( http://video.google.es ) o Búsqueda de mapas ( http://maps.google.es ) o Búsqueda de noticias ( http://news.google.es ) o Motor de búsqueda de blogs ( http://blogsearch.google.es ) o Búsqueda de código de programación ( http://code.google.com/intl/es/ ) o Directorio ( http://www.google.es/dirhp ) o Servicio de alertas de noticias ( http://www.google.com/alerts?hl=es ) 36


Otras utilidades: o Calculadora o Traductores automáticos o Calendario o Agregador de contenidos sindicados (RSS y Atom) o Búsqueda de archivos en pdf o Páginas similares o Búsqueda de enlaces entrantes a una página o Búsqueda en un dominio específico o Operadores booleanos

2. Yahoo! Yahoo! está presente en cinco países europeos (Alemania, Francia, Italia, Reino Unido y España), en tres latinoamericanos (Argentina, México y Brasil) además de en Australia, Canadá, China, Corea, Hong-Kong, Japón, Singapur, Taiwan y recientemente en la India. Las dos personas que desarrollaron Yahoo!, David Filo y el Dr. Jerry Yang, estudiantes de doctorado de Ingeniería Eléctrica en la Universidad de Stanford, comenzaron la guía Yahoo! en abril de 1994, como un modo de hacer un seguimiento de sus intereses personales en Internet. Muy pronto se dieron cuenta de que sus listas de "andar por casa" estaban creciendo demasiado y resultaban difíciles de manejar. Poco a poco comenzaron a dedicar más y más tiempo a Yahoo!. Durante 1994 convirtieron Yahoo! en una base de datos personalizada diseñada para cubrir las necesidades de miles de usuarios que comenzaron a utilizar el servicio a través de la muy limitada comunidad de Internet. Desarrollaron un software personalizado para localizar, identificar y editar de forma eficaz el material almacenado en la web. Los principales servicios de búsqueda que Yahoo! ofrece en este momento a sus usuarios son:  Búsqueda normal  Búsqueda avanzada 37


 Búsqueda de imágenes  Búsqueda de videos  Búsqueda de noticias  Compras (búsqueda de productos)  Directorio Además, en su página de inicio, proporciona a sus usuarios un gran número de utilidades, como por ejemplo: acceso a noticias de actualidad, tiendas en línea, juegos en línea, acceso directo a diferentes plataformas Web 2.0 (como flickr), correo electrónico, etc. Estas utilidades y herramientas son las que dotan a este buscador de un valor añadido frente a muchos de sus competidores. Al igual que Google, Yahoo! ofrece a sus usuarios la posibilidad de instalar en los navegadores su barra de herramientas que permite realizar búsquedas desde la misma con independencia de la ubicación web en la que nos encontremos. Así mismo, los enlaces patrocinados son indicados mediante el sombreado del fondo de los mismos, siguiendo la estética elegida por Google. Por último, señalar una interesante funcionalidad añadida a este buscador: su sistema automático de recomendación de consultas. Este sistema permite que, por ejemplo, al teclear la consulta "flauta", se nos habrá un campo desplegable con consultas que podrían ser de interés para nosotros, como por ejemplo "flauta travesera" o "flauta dulce". Este sistema además lo han incorporado en la página de resultados, permitiéndonos redefinir nuestra consulta haciendo un solo clic. Esta herramienta está activa permanentemente, y funciona como un campo autocompletable, aunque podemos acceder a todo su potencial si seleccionamos la pestaña que aparece en la parte inferior izquierda del formulario de consulta (veremos que nos propone un amplio conjunto de términos relacionados con nuestra consulta).

3. Bing Es la apuesta de Microsoft para competir por la hegemonía de las búsquedas en Internet, y que nace tras la retirada de Live. Su estética, aunque sencilla, incorpora una imagen de fondo que va cambiando cada día, y supone una novedad con respecto al carácter minimalista impuesto por Google. Sus opciones de consulta son muy simples, parecidas a las ofrecidas por Yahoo! Presenta en su pantalla de búsqueda prácticamente las mismas opciones que éste: búsqueda en la web, búsqueda de imágenes, de videos, productos (compras) y noticias. Aunque tiene grandes carencias en su opción de búsqueda avanzada, a la que podemos acceder sólo una vez hemos realizado una consulta y estamos visualizando 38


los resultados. En cambio, como herencia de Live, continúa teniendo un interfaz muy atractivo y útil para la búsqueda de imágenes y video, que incluso supera a la de Google. La presentación de los resultados de búsqueda supone también una novedad, pues presenta, en la parte izquierda de la página de resultados, categorías que agrupan los resultados obtenidos. El problema es que esta opción sólo funciona con regularidad en el caso del buscador internacional. En el buscador español difícilmente se activa esta herramienta, siendo muy pocas las consultas que podamos filtrar utilizando este software de agrupamiento. Los resultados orgánicos y patrocinados son muy parecidos a los de Google y Yahoo!

4. Ask.com Presenta una interfaz de búsqueda muy similar a la de Google, si bien incorpora en su margen derecho un menú que permite seleccionar distintas opciones:  Búsqueda avanzada.  Búsqueda en la web.  Búsqueda en blogs y canales.  Cambio de divisas.  Búsqueda de software.  Búsqueda de imágenes. Identifica los enlaces patrocinados mediante sombreado, y en el caso de los enlaces orgánicos, presenta una opción de previsualización de las páginas web tan sólo colocando el cursor sobre un icono (de unos prismáticos) que aparece junto al enlace, facilitando así la decisión de seleccionar o no el mismo sin necesidad de abandonar la página de resultados. Para los usuarios registrados ofrece además la posibilidad de guardar y organizar en carpetas nuestros resultados favoritos (opción MiAsk).

5. Perspectivas futuras de los motores de búsqueda A la vista de lo comentado, podemos apreciar una clara tendencia al desarrollo de motores de búsqueda que se caracterizan por su facilidad de uso, tendencia marcada por el éxito de Google, cuya tecnología está siendo mimetizada por todos sus principales competidores. No obstante, estos motores adolecen de serios inconvenientes. Probablemente el más importante de ellos sea la dificultad que conlleva encontrar resultados relevantes. El objetivo de cualquier usuario de un motor de búsqueda es acceder a la información que satisface su necesidad de información en 39


el menor tiempo posible, objetivo que pocas veces satisfacen los motores de búsqueda actuales, ya que en sus recuperaciones proporcionan tanta información que terminan saturando a los usuarios, y haciendo que estos tengan que emplear bastante tiempo hasta localizar los resultados deseados. Ello se debe en gran medida a que los interfaces de consulta de estos sistemas se basan en el empleo de palabras clave, y éstas no siempre son eficaces para la recuperación de información. Esto se debe por un lado a la ambigüedad que subyace en muchos términos del lenguaje. Las consultas que tienen términos ambiguos pueden recuperar documentos no relevantes para el usuario. Por otro lado, los usuarios formulan normalmente consultas muy cortas, siendo estas consultas cortas las que más posibilidades tienen de ser ambiguas. De hecho, es habitual que los usuarios de los motores de búsquedas tengan que formular diferentes consultas antes de poder hallar una respuesta satisfactoria. Con el objeto de solucionar estos problemas algunos motores de búsqueda (como Yahoo!) están estudiando en este momento la posibilidad de implementar métodos para sugerir consultas alternativas a los usuarios. Su objetivo es ayudar a los usuarios a especificar consultas alternativas durante el proceso de búsqueda, tarea que se realiza mediante el análisis de los resultados consultados previamente por otros usuarios que utilizaron los mismos términos de búsqueda. Por otro parte, también son muy interesantes las iniciativas que tratan de paliar el problema de la ambigüedad terminológica, mediante el desarrollo de buscadores que permiten organizar y presentar los resultados de una consulta de forma taxonómica, permitiendo al usuario filtrar inmediatamente los documentos recuperados, consultando sólo aquellos que se han agrupado bajo la categoría/s que satisface la necesidad de información del usuario, e ignorando las restantes. Un claro exponente en esta materia es el motor de agrupamiento Yippy (http://search.yippy.com/). Yippy no es en sí mismo un motor de búsqueda, sino un metabuscador u organizador de los resultados obtenidos por otros motores de búsqueda web. Este tipo de herramientas agrupan u organizan automáticamente los resultados de una consulta en categorías que son seleccionadas a partir de las palabras y frases contenidas en los mismos documentos recuperados. Además refinan los resultados de la búsqueda y los agrupan en categorías casi instantáneamente.

40


Buscadores especializados Los buscadores generalistas constituyen hoy la mejor opción ante búsquedas sencillas y fácilmente formulables. No obstante, estas herramientas ofrecen resultados poco satisfactorios cuando tratamos de encontrar información muy especializada. Un buscador especializado (BE) es aquel que limita su ámbito de búsqueda a un dominio concreto, con el objetivo de proporcionar a sus usuarios acceso a los contenidos de calidad que sobre su área de especialización hay en la web. Ventajas:

 Su capacidad para buscar en páginas que no están indexadas por los buscadores generalistas: los motores de búsqueda especializados son capaces de indexar los contenidos de su especialización incluso cuando estos están ubicados en la denominada web invisible.  Mayor funcionalidad y potencial de búsqueda: por ejemplo mediante el uso de interfaces adaptados al dominio específico que cubren. Inconvenientes:

 Una gran desventaja de estos sistemas es la necesidad de acudir a un buscador u otro en función de la temática que sea de nuestro interés, lo cual disuade normalmente a los usuarios de utilizar este tipo de herramientas. Algunas de las áreas de especialización más conocidas de los buscadores son: o Documentos académicos / técnicos o Noticias o Blogs o Imágenes o Videos o Mapas o Libros o Informes o Empleo o etc. 41


A continuaciĂłn estudiaremos algunas de las tipologĂ­as de los buscadores especializados mĂĄs importantes.

42


1. Buscadores académicos Los contenidos de la Web, no sin algo de razón, siempre han despertado recelos en algunos sectores académicos y profesionales. Las preguntas y reflexiones que estos sectores se solían (suelen) hacer son del siguiente tenor: ¿Quién controla la información que se publica en la Web? ¿Es fiable la información que encontramos a través de los motores de búsqueda? ¿Se aplican a la Web los controles editoriales propios de las publicaciones impresas que tanto han significado para el progreso de la ciencia? Ciertamente, no faltan casos de fraudes o de manipulaciones más o menos conocidos en el mundo de la Web, como las falsas páginas de La Casa Blanca, la manipulación de los resultados de Google que hacen los spammers o practicantes poco escrupulosos del posicionamiento web (el caso más conocido es el llamado "Gooble bombing" que, al parecer ha sido erradicado en parte por Google) y otros. A lo anterior hay que sumar la dificultad para obtener resultados académicos o científicos cuando se utilizan términos vinculados con el mundo del comercio o de la cultura popular. Por ejemplo, para alguien interesado en la fisiología del sueño le resultará muy difícil encontrar información sobre la fase del sueño denominada Rapid Eye Movement y que se conoce internacionalmente como REM, ya que si entra esa expresión en Google solamente encontrará resultados vinculados con el grupo musical REM. Lo misma dificultad se puede experimentar si tenemos una necesidad de información cuya palabra clave coincide con temas discutidos en fórums abiertos. Si lo que buscamos es información solvente sobre el tema X, y se da la circunstancia de que, sobre ese mismo tema, funciona algún foro, los resultados del buscador siempre nos llevarán a los mensajes de ese foro. Sin embargo, por muchas dudas que pueda crearnos, la Web ha llegado para quedarse y para tener un impacto positivo y real en la difusión del conocimiento académico y científico. Durante unos años, más o menos desde los noventa hasta nuestros días, una de las soluciones consistió en desarrollar y promover directorios, portales y servicios de evaluación, como INTUTE ( www.intute.ac.uk ). El problema es que los directorios y servicios similares apenas pueden abarcar una parte ínfima de los contenidos reales de la Web. La Web, incluyendo los contenidos de tipo científico, crece a tal ritmo que es imposible que servicios basados totalmente en el esfuerzo intelectual puedan abarcar más que una fracción de ellos. Así que, aquí tenemos una contradicción que presenta diversas caras y que necesitaba ser resuelta. 43


Los principales sistemas Históricamente, la importante editorial Elsevier fue la primera en detectar que existía una nueva necesidad de información y que, por tanto, se necesitaba una nueva clase de sistemas de información. En concreto, un sistema que fuera capaz de indizar páginas web de manera automática, es decir, como lo hacen los motores convencionales como Google, pero que fuera capaz de filtrar la información de manera que pudiera ser admitida y fiable para los estrictos criterios del mundo académico. Ese producto se llamó Scirus ( www.scirus.com ) y, al parecer su éxito despertó suficientes recelos en Google para que esta empresa intentara una operación parecida, y así tuvimos Google Scholar (scholar.google.com) . Por imitación, desde inicios del 2007 contábamos con un nuevo contendiente en este apasionante campo: Live Search Academic (academic.live.com). Pero, más o menos un año después, Microsoft dió cerrojazo definitivo a Live Academic. La característica principal de los tres sistemas era que solamente indizaban sitios web vinculados con el mundo académico. Qué se entiende por "mundo académico" cambia en cada caso. La perspectiva que combina, a la vez, rigor y máxima amplitud corresponde sin duda a Scirus. La perspectiva que se ciñe con el máximo rigor, a costa de la amplitud, correspondía a Live Search Academic ya que solamente incluía artículos de revistas académicas (pero como hemos dicho pasó "a mejor vida") y, en alguna posición intermedia se encuentra Google Scholar. Con el fin de hacer una comparativa, se puede establecer la siguiente tipología de documentos académicos:  Tipo 1: Páginas web publicadas en sitios de instituciones académicas o científicas (p.e., sitios del tipo .edu)  Tipo 2: Artículos de publicaciones científicas (p.e. publicaciones de tipo open acces, pero también publicaciones de pago)  Tipo 3: Trabajos académicos: tesis doctorales y tesis de licenciatura  Tipo 4: Documentos en repositorios científicos, típicamente informes técnicos, resultados de investigación, preprints, etc.  Tipo 5: Patentes  Tipo 6: Libros (monografías) Obviamente, los cinco tipos de documentos anteriores se solapan entre ellos. Por ejemplo, algunos repositorios incluyen tesis doctorales (aunque no todos); por no 44


mencionar que algunos repositorios han sido creados y están mantenidos por universidades y se accede a ellos a través de su sitio web, etc. Pero, aunque se trate de una distribución de tipos de documentos imperfecta porque las categorías no son autoexcluyentes y combinan ejes distintos nos será útil aquí para situar en contexto a los motores de búsqueda académicos, reteniendo solamente a efectos de estudio los datos relativos a Live Academic que, como hemos indicado cesó sus actividades. Por tanto, a partir de la clasificación anterior, podemos establecer una tabla como la siguiente para presentar una comparativa de los tres sistemas anteriores en relación la clase de documentos que incluyen (o sea, en relación a sus "inputs"):

Sistema

Tipo 1 Tipo 2 Tipo 3 Tipo 4 Tipo 5 Tipo 6

Scirus

*

*

*

*

*

.

Live Search Academic .

*

.

.

.

.

Google Scholar

*

*

*

.

*

*

Como se puede observar, de los seis tipos posibles, Scirus y Google Scholar tienen 5 de ellos (aunque no del todo coincidentes): Scirus no tiene libros y, por su parte, Google no tiene patentes. Live tenía solamente uno, mientras que el Tipo 2 (revistas científicas) es, como parece lógico si se mira bien, el único común a los tres motores.

Scirus

45


Ilustración 1: La austera pero potente y eficaz pantalla principal de Scirus

El motor de búsqueda Scirus es, como ya se ha apuntado antes, una creación de la importante editorial de revistas científicas holandesa Elsevier ( www.elsevier.com ) que es parte, a su vez, del gigante editorial anglo-holandés Reed-Elsevier ( www.reedelsevier.com ), editor de libros y revistas y productor de bases de datos como LexisNexis. La cuestión es que Elsevier parece haber comprendido muy bien el importantísimo papel que la Web está jugando en la distribución de información académica y dispone de otras dos grandes bases de datos (en este caso y a diferencia de los motores que analizaremos aquí, dirigidas a su utilización en el contexto de bibliotecas universitarias): Science Direct ( www.sciencedirect.com ) y Scopus (www.scopus). Scirus fue fundado en el año 2001 y, poco a poco ha ido ampliando su campo de acción incorporando sucesivamente nuevas fuentes hasta convertirse en un auténtico gigante y en el más completo buscador académico. En un reciente análisis independiente (Jacsó, 2006) se constató que contenía más de 300 millones de documentos (empezó con 50 millones en 2001, de manera que ha multiplicado su contenido por seis desde entonces).

Inputs Los inputs de Scirus, es decir, el origen de los documentos que incluye en sus índices son los siguientes (nos guiamos por la propia categorizació de Scirus):  Artículos de revistas: principalmente, publicaciones académicas de la propia editorial Elsevier (unos 2000 títulos) más un amplio grupo de publicaciones de tipo open access (es decir, de acceso gratuito). Son los documentos que Scirus 46


agrupa bajo la denominación Journal Sources en su página de resultados y la opción del mismo nombre que se puede marcar o desmarcar en su formulario de búsqueda.  Repositorios institucionales o académicos: este apartado incluye repositorios como el de la NASA sobre astronomía o el de la biblioteca de la Cornell University sobre ciencias (física, informática, biología y matemáticas), hasta un total (en teoría) de 18 repositorios, entre los que debemos destacar, además de los mencionados, el de tesis doctorales de la red internacional NDLTD y el de patentes de Lexis-Nexis que incluye patentes de Estados Unidos, Japón y Europa. Decimos "en teoría" porque las pruebas demuestran que en realidad utiliza más repositorios, por ejemplo, hemos podido comprobar que utiliza también E-LIS que es un repositorio sobre Bibliteconomía-Documentación y que no aparece en la lista "oficial" de fuentes de Scirus. Esta clase de documentos está señalada por Scirus bajo la denominación Preferred Web Sources .  Páginas y documentos publicados en sitios web: en este caso se trata excusivamente de servidores de universidades, de instituciones académicas o de departamentos o institutos de I+D de algunas empresas . Desde el punto del dominio, se trata mayoritariamente de sitios del tipo .edu, ac.uk, .gov, etc. Este grupo se identifica en Scirus como Other Web Sources.

Google Scholar

Ilustración 2: La austera interfaz de Google Scholar Lo cierto es que son muchas cosas las que Google ha aportado a la Web. La cuestión es que, en su búsqueda incesante de nuevas actividades (siempre pensado en reforzar su modelo de negocio, no lo olvidemos), desde hace dos años Google se decidió a entrar 47


en el mercado de los motores académicos y lanzó Google Scholar (Google Académico) con algunas ideas (relativamente) nuevas. La más importante, sin duda, la de llevar a la Web el análisis de citaciones (por eso decimos que era una idea relativamente nueva).

Inputs De acuerdo con la documentación oficial (y como es fácil comprobar con un simple test) los inputs de Google Scholar consisten en lo siguiente:  Artículos de revistas: en este caso se trata de artículos de las editoriales académicas que han aceptado formar parte del programa de Google Scholar. En una línea secretista que comienza a ser demasiado característica de Google, no existe una documentación pública (al menos este analista no la ha encontrado) que detalle qué editoriales son en concreto. Mediante pruebas sucesivas es fácil ver que hay una amplia representación de ellas, pero naturalmente, esto no substituye la buena práctica que consistiría en ir publicando periódicamente qué editoriales están en el programa de Google Scholar.  Libros: al igual que en el caso anterior, se trata de editoriales que han aceptado formar parte de los contenidos de Google Scholar, en este caso, editoriales de libros. Tampoco disponemos de forma pública de una lista de tales editoriales. En todo caso, lo anterior es solamente una de las variedades de esta entrada. La segunda consiste en acuerdos con bibliotecas para obras cuyo derecho de autor haya caducado por haber transcurrido más de los X años que cada legislación (la europea, la norteamericana, etc.) establece después de la muerte del autor para que la obra pueda pasar a dominio público. En general, cabe señalar que, en el caso que alguno de los resultados de Scholar sea un libro, el sistema nos remitirá a Google Books para su examen. No obstante, entendemos que debemos incluimos aquí esta categoría documental porque está integrada en las búsquedas de Scholar.  Sitios Web : Al igual que Scirus, incluye documentos y páginas de sitios web vinculados con el mundo académico. La documentación oficial de Scholar no explica cómo seleccionan estos sitios. Es posible deducir, no obstante, que debe utilizar un sistema similar al de Scirus, a saber, indizar sitio del tipo .edu, etc., sin perjuicio que tengan una lista de URL (sitios) de partida para analizar y a partir de los cuales encuentren otros, etc. En esta categoría, Google Scholar incluye también repositorios de e-prints como los mencionados a propósito de Scirus.

48


Science Research Por último, hablaremos de una iniciativa muy interesante: Science Research. Aunque para comprender el funcionamiento de este buscador hemos de saber previamente qué son las tecnologías de búsqueda federada. La búsqueda federada consiste en enviar la misma pregunta a diversos motores. Un clásico de estas soluciones es Metacrawler ( http://www.metacrawler.com/ ). A este tipo de motores se les denomina metabuscadores o multibuscadores. Las bibliotecas universitarias también han instalado aplicaciones que permiten consultar de forma conjunta el catálogo de la biblioteca, junto con las distintas bases de datos y portales de revistas que tienen suscritas. Uno de los productos más extendido en España es Metalib. Ahora bien, aplicar la búsqueda federada a una colección heterogénea de depósitos digitales, archivos, etc., obtener las respuestas y agruparlas en una página de resultados bien organizada requiere mucha más ingeniería que en el caso de los motores, y aún más si se contempla el uso de búsqueda avanzada, que se expresa de una forma distinta en cada colección. Science Research ( http://www.scienceresearch.com/ ) se crea en un entorno de estas características, enviando sus consultas a casi 400 colecciones, de las que luego compila sus respuestas en una única página de resultados. Teniendo en cuenta la dimensión, la calidad pero también la heterogeneidad de las colecciones lo cierto es que, con todos sus fallos, que ya comentaremos, es una proeza tecnológica.

Ilustración I: Página principal de Science Research.

La cuestión es que, algunas de estas colecciones, son a su vez colecciones de colecciones, y otras son motores de búsqueda. Por este motivo, la cantidad total de 49


información a la que podemos acceder a través de Science Research es virtualmente ilimitada, pero también muy redundante. Podemos ver esto con mayor claridad si examinamos unos cuantos ejemplos concretos. La lista de las casi 400 fuentes incluye colecciones de asociaciones científicas y profesionales, como por ejemplo:  American Society for Biochemistry and Molecular Biology  Association for Computing Machinery  Institute of Electronic & Electronics Engineers  NASA Technical Reports Server

Pero también, repertorios que incluyen a su vez documentos procedentes de asociaciones como las anteriores, entre otros componentes, como por ejemplo:  BioMed Central  Directory of Open Access Journals  Intute  OAIster

Editoriales y revistas científicas:  HighWire Press  IngentaConnect  National Academies Press  Nature Publishing Group

Finalmente, aunque esto no agota la tipología, bases de datos de patentes y motores de búsqueda:  Google Scholar  European Patents 50


 US Patent and Trademark Office Database

Una lista de fuentes o colecciones como la anterior viene con dos noticias bajo el brazo, una buena y una mala. La buena es que parece que nada se va a escapar del alcance de Science Research. La mala es que la probabilidad de casi cualquier documento aparezca en dos o más de las colecciones es muy elevada. Si el sistema es muy eficaz para detectar y eliminar duplicados esto no sería un problema, pero lo cierto es que los duplicados plagan los resultados. Asimismo, otro problema de la búsqueda federada es que las opciones de búsqueda deben limitarse a aquello que es el mínimo común de todas las colecciones. Es decir, puede que una cualquiera de las colecciones tenga opciones de búsqueda muy sofisticadas, pero cuando hay que enviar la misma pregunta a centenares de fuentes, la sintaxis de la misma no puede ser muy complicada. En concreto, las opciones consisten en buscar por (1) texto completo, (2) por el título o (3) el autor, (4) por rangos de fechas y (5) por la posibilidad de limitar la búsqueda a un tipo de colección.

Ilustración II: Interfaz de búsqueda avanzada de Science Research.

Su página de resultados es interesante, principalmente por el componente que denomina TOPICS que consiste en una categorización/distribución de resultados por cinco criterios distintos: (1) temas, (2) autores, (3) publicación, (4) editores y (5) fechas. En su conjunto, además del anterior, la página de resultados contiene los siguientes componentes: (1) una serie de posibles acciones a realizar con la lista de referencias, 51


siendo la más destacable, tal vez, la que permite crear listas de resultados seleccionados y exportarlos a RefWorks; (2) datos estadísticos de los resultados; (3) información de estatus; (4) la categorización y distribución de resultados por diversas categorías que hemos destacado antes; (5) opciones de navegación, ordenación y filtrado, posiblemente uno de los grupos de funciones más útiles; (6) ocupando la parte principal tenemos la lista de resultados en sí misma.

Ilustración III: Página de resultados de Science Research. Si bien, desde un punto de vista pragmático y funcional, la página de resultados muestra al menos dos problemas, siempre si la comparamos con otros sistemas, principalmente con Google Scholar y con Scirus. El primero es que, como ya hemos señalado antes, está repleta de resultados duplicados. El segundo, es que la descripción de los items no es homogénea. En conclusión, Science Research es un ejemplo reciente de la consolidación de las búsquedas federadas, y tal vez el inicio de una nueva generación de servicios de información científica basados en esta tecnología. Esto significa que en estos momentos hay, por un lado, dos clases de sistemas que compiten por ofrecer soluciones parecidas (a públicos que en parte se solapan), a saber: (1) los buscadores como Google Scholar o Scirus, basados en la indización, y (2) los buscadores independientes como Science Research. Pero además, por otro lado, hay una tercera 52


clase: los sistemas instalados por las bibliotecas universitarias para consultar de manera federada las colecciones suscritas. Para el usuario, particularmente si pensamos en un público universitario con acceso a la terca clase de sistemas son, de hecho, tres soluciones que se solapan en parte entre ellas. Por el momento, parece que la solución de Science Research, al menos en su forma actual, aún no está del todo madura, de manera muchos usuarios podrían ser prefiriendo o bien el uso de Scirus, por ejemplo, o bien el metabuscador que le ofrezca su biblioteca (o ambos, por supuesto). Naturalmente, está por ver cómo evolucionará esta nueva forma de búsqueda federada. Puede que en el futuro se consolide y sea una tercera solución que encuentre su propio nicho frente a Scirus y Google, p.e. entre investigadores y estudiosos no universitarios). En todo caso, solo cabe felicitarse del hecho de haya nuevas iniciativas tecnológicas y empresariales en este terreno y por tanto, desearle la mejor suerte a Science Research. La buena competencia ya ha demostrado otras veces que mejora los productos y hace crecer al mercado.

Conclusiones Hay evidencias de que la difusión y, si se nos permite, la promoción del conocimiento, actividad característica de la Documentación, está entrando en una nueva era. Hasta hace poco, la Web había demostrado de sobras su formidable capacidad para actuar como un agente de primer orden en la difusión de la comunicación y de la cultura. Faltaba el elemento de la ciencia y de la información académica. Todo parece indicar que iniciativas tan importantes (y espectaculares) como las examinadas aquí auguran una nueva etapa en la forma en la cual se gestionará y se difundirán los conocimientos científicos. De momento, las evidencias son muy prometedoras. Nos corresponde de nuevo a los documentalistas-bibliotecarios seguir jugando, pero ahora de acuerdo al nuevo esquema de la Web, el imprescindible papel promotor del conocimiento que nos ha sido siempre tan característico.

53


2. Bancos de imágenes y sonido en la Web Las imágenes en particular y los documentos audiovisuales en general constituyen una de las nuevas fronteras de la Documentación. No es que, hasta ahora, la Documentación como disciplina o como campo de actividad no se haya ocupado de la información audiovisual, la verdad es que lo ha hecho y con intensidad; se trata de que nunca lo había hecho con la dimensión y la importancia que está adquiriendo actualmente en el mundo digital. Además, todo parece indicar que esa importancia no ha hecho más que empezar y que, en el futuro, veremos un aumento de actividad sin precedentes en este terreno, porque muchos actores potenciales del sector, a saber: editoriales, emisoras de radio y televisión, museos, archivos, grandes y medianas corporaciones, estaban necesitando la oportunidad de difusión de sus fondos audiovisuales que solamente podía proporcionar Internet. A continuación intentaremos dar una visión de las características y de las posibilidades actuales y futuras de la Documentación Audiovisual en el mundo digital estudiando algunos bancos de imágenes y sonido de la WWW.

2.1.

Conceptos

Recordemos que, en Documentación, un documento secundario es un documento que describe a otro documento, llamado documento primario o documento original. Por ejemplo, un repertorio bibliográfico es un documento secundario y los libros reseñados en ese repertorio son los documentos primarios. Por la misma razón, el registro de un libro de una base de datos bibliográfica es un documento secundario, y el objeto o entidad descrito en ese registro (el libro) es el documento primario.

2.2.

Terminología

Por el momento, discutiremos una breve terminología (separada en las Tablas n. 1 y 2 para facilidad de consulta) que nos permitirá después presentar una propuesta de tipología de bases de datos donde esperamos demostrar no solamente la amplitud y complejidad del sector de la documentación audiovisual (DA, a partir de ahora), sino algunas de sus posibles líneas de futuro.

54


Tabla n. 1: Terminología-I: bases de datos Tèrmino Descripción

Ejemplos/ Aclaraciones

Conjunto de registros (documentos secundarios) y, eventualmente, de Base de otros objetos (documentos primarios) datos asociados a los registros; por ejemplo: registros más documentos en texto completo, recursos digitales de la WWW o imágenes.

Mientras que una base de datos bibliográfica solamente tiene documentos secundarios (registros), una base de datos de texto completo tiene también documentos primarios (el texto completo del documento).

Representación de una entidad y unidad de trabajo de una base de Registro datos. También se puede definir como un conjunto de datos agrupados en una unidad y que puede ser manipulado como un todo.

El conjunto de datos (título, autor, etc.) que describe y representa a una entidad (p.e., una fotografía) es un registro.

El objeto, persona o concepto descrito En una base de datos de prensa, las y representado en un registro entidades son las noticias Entidad publicadas por los medios. En la base de datos del ISBN las entidades son libros. En un banco de imágenes las entidades son fotografías u otros documentos icónicos.

Ahora, corresponde llamar la atención sobre la diferencia clave, por lo menos desde los intereses de la Documentación general, y de la DA en particular, entre una base de datos y un motor de indización; y que sin embargo suelen confundirse. Por si fuera poco, también necesitamos diferenciar entre el concepto de "base de datos" y de "banco de datos" Con este objetivo, la tabla 2 ofrece elementos conceptuales para diferenciar entre diversos subsectores de las bases y los bancos de datos.

55


Tabla 2: Terminología-II: bases v. Bancos Tipo de base de datos Subtipo (primer nivel)

Subtipo (segundo nivel)

Textual Ejemplo: Eric ( http://www.eduref.org/Eric/ ) Referencial Solamente contienen documentos secundarios. Por tanto, no contienen la entidad en sí misma, sino una descripción y representación de la entidad

Fuente Contienen documentos primarios y secundarios.

Bibliográfica Registros con descripciones referenciales

Directorio Contiene registros con información de entidades o personas

Audiovisual Contiene descripciones de documentos audiovisuales (imagen, sonido...), pero no el documento audiovisual en sí mismo, p.e: NBC Footage ( www.nbcnewsarchives.com )

Personas jurídicas Directorio de organismos o empresas, p.e, Hoover's Online ( www.hoovers.com )

Texto pobre Contiene el texto completo de los artículos, pero no contiene gráficos, tablas ni ilustraciones (Find Articles Textual Además de la findarticles.com) descripción del documento Facsímil Además de la referencia, (documento contiene el (o proporciona acceso secundario), a ) documento completo original, contienen el con ilustraciones, gráficos, etc., documento primario. además del texto (p.e., Delphion, En ocasiones www.delphion.com ) contienen también un facsímil Texto enriquecido Contiene (o digitalizado del proporciona acceso) el texto documento. completo en formato digital original, tipo HTML o PDF con gráficos, ilustraciones, tablas, etc., si es el caso (p.e, Intute, www.intute.ac.uk ) Audiovisual Además de la descripción del documento Ver desarrollo de subtipos en audiovisual, contiene tabla n. 4, sección 3. el documento audiovisual en sí mismo (imagen, 56


sonido o ambas cosas)

Las diferentes tecnologías y estrategias comerciales que hay tras el concepto de base de datos y de motor de indización dan lugar a un conjunto de términos que hemos intentado reflejar en la tabla siguiente (n. 3). Tabla n. 3. Terminología-III: bancos v. Motores Término

Banco de imágenes y repositorios de documentos audiovisuales (Sinónimo: Bases de datos de imágenes)

Descripción

Ejemplos

Un banco de imágenes es una clase de base de datos que contiene, no solamente documentos secundarios (registros con descripciones de imágenes), sino también el documento primario: las imágenes en sí mismas o los documentos audiovisuales en sí mismos

Bancos:

Ciertamente, "Base de datos" se puede utilizar como sinónimo de "Banco de datos". Sin embargo, por alguna razón, cuando se habla de bases de datos que contienen el documento primario (imágenes en este caso) se suele utilizar la expresión "banco de imágenes" en lugar de "base de imágenes". Dicho de otro modo, si yo digo que un sistema determinado es un "banco de imágenes" se presupone que en dicho sistema encontraré las imágenes y no solamente una descripción de las mismas.

GettyImages www.gettyimages.com AGE Fotostock www.agefotostock.com Cartoon Bank www.cartoonbank.com Corbis www.corbis.com

Repositorios: Flickr www.flickr.com

Por otro lado, un banco de imágenes es el núcleo de un sistema de distribución más amplio que contempla la gestión y venta de los derechos de explotación de los documentos icónicos. Un sistema de información y de consulta de bancos de imágenes que es Multibuscador o capaz de enviar la misma petición de Footage.net Multibanco de banco información a diversos bancos de www.footage.net de imágenes imágenes a la vez y mostrarla de una forma más o menos organizada al 57


usuario.

La diferencia esencial entre bancos o bases de datos por un lado, y motores de búsqueda por otro, radica en que, (1) en un banco de datos tenemos siempre alguna clase, más o menos compleja, de En un motor de indización, en cambio, no existe esa metainformación, ya que no genera documentos secundarios; por lo tanto no hay un proceso de análisis documental, descripción documental, indización documental, etc. Una vez realizada la consulta, la página de resultados no nos ofrece acceso a las imágenes en sí mismas, sino a una lista de enlaces. Estos enlaces pueden estar rotos o la página puede haber modificado su contenido, etc. En todo caso, al no existir un tratamiento documental previo, se genera la gran cantidad de ruido y de pérdidas de información tan habituales de esta clase de tecnologías. Las imágenes suelen carecer de suficiente calidad profesional y, por último, hay una inseguridad total (por falta de definición) sobre los derechos de propiedad de la imagen, lo que imposibilita su uso en proyectos profesionales (o sea, que vayan más allá de un simple visionado o uso privado). Por la misma razón, no disponemos de un nivel de representación de la información que nos permita tomar decisiones sin necesidad de leer el documento original. Si solamente estamos interesados en consultar documentos de determinadas características (autor, género narrativo, nivel de especialización, fuente, etc.), no tenemos más remedio que ir al documento original, con lo que supone de pérdida de tiempo por ensayo y error. En cambio, en una base de datos, el índice que facilita el acceso a la información se construye no únicamente con los términos procedentes del documento primario, sino también con los términos procedentes del registro o documento secundario, que es, como hemos dicho, una metainformación con alto valor añadido. Por esa razón, no solamente podemos realizar consultas mucho más precisas, sino que la respuesta no consiste en el documento original, sino en su representación. Esto, que podría parecer un inconveniente, proporciona una enorme ventaja: permite efectuar tomas de decisiones sin necesidad de perder tiempo leyendo documentos que no responden en realidad a nuestras necesidades. Existe otra diferencia fundamental. Los motores de indización no seleccionan la información ni son propietarios de las colecciones que indizan. Esto significa que no existe ningún filtro ni selección de calidad de la información que procesan. Por la misma razón, tampoco son interlocutores válidos en cuanto al uso de los objetos multimedia a los que dan acceso. Si accedemos a diversas imágenes o sonidos a través 58


de un motor de búsqueda y estamos interesados en su uso, deberemos ponernos en contacto con cada uno de los administradores de las sedes web donde aparecen las imágenes para saber si podemos utilizarlas y en qué condiciones. Para peor, es posible que el administrador de la sede web jamás haya previsto ese tipo de peticiones, con lo cual nos encontraremos con un interlocutor atónito ante nuestras demandas. Por último, los motores de búsqueda no pueden indizar las mejores colecciones de imágenes, que son precisamente las que están indizadas en los bancos de imágenes y cuyo contenido está vedado por razones técnicas y legales a los motores de búsqueda. Ahora bien, últimamente, ha aparecido una tercera categoría que queda a medio camino de los motores y de las bases de datos, y que suele denominarse Repositorio o Depósito digital. No son exactamente bases de datos porque carecen de algunos elementos típicos de estas, como los registros con tratamiento documental profesional. Pero tampoco son motores, poque tienen control sobre la colección, aunque parcial, porque dependen de la actividad de los usuarios, y en los mejores casos, pero no siempre, los derechos de propiedad están bien establecidos. Los mejores ejemplos son YouTube (para vídeo) y Flickr (para imagen). Veamos una síntesis en los puntos siguientes.

2.3.

Síntesis

Los bancos de imagen y sonido en Internet presentan estas características:  Contienen (o proporcionan acceso directo a) colecciones bien definidas de documentos originales, no solamente a su descripción. Por lo tanto, contienen documentos secundarios (referencias) y más documentos primarios (o sea, el documento en sí mismo).  Los documentos son icónicos, fotografías principalmente (pero no únicamente), y/o sonidos: transcripciones de programas de radio y televisión o efectos sonoros.  La empresa productora de la base de datos es propietaria o es depositaria de las colecciones de imágenes y sonido o actúa por convenio formal con los propietarios de las imágenes y sonidos.  Los motores de indización de imágenes y sonido, por su parte, presentan estas características:  Indizan documentos de la WWW que contienen ficheros de imagen o sonido  No producen documentos secundarios 59


 No mantienen ninguna relación con los propietarios de las imágenes y sonidos. Para finalizar este apartado, recordemos que últimamente, gracias al impulso de la Web 2.0, ha aparecido una categoría intermedia, los repositorios o depósito digitales, que se podría caracterizar así:  Tienen control parcial sobre la colección  Los derechos de propiedad, en algunos casos, están bien determinados, pero  No producen documentos secundarios complejos

2.4.

Bancos audiovisuales

Una vez realizadas las precisiones anteriores, podemos intentar ahora un ensayo de tipología que muestre la riqueza actual pero, sobre todo, la potencialidad futura de los diversos subsectores de la DA en su dimensión digital. A conveniencia, hemos añadido en la misma tabla algunos ejemplos de motores de indización de imagen y sonido, así como bases de datos que contienen descripciones de imágenes (pero no la imagen en sí misma). Tabla n. 4: Bancos audiovisuales Sutbtipo

Descripción

Ejemplos Bancos:

Corbis www.corbisimages.com

1. Imagen

Bancos y repositorios de fotografías, de ilustraciones, de reproducciones artísticas, etc.

AGE Fotostock www.agefotostock.com ImageBase www.famsf.org Repositorios:

Flickr.com www.flickr.com

2. Sonido

Motores de indización o bancos de efectos sonoros, de trascripciones de programas de

Bancos: Electric Library TV & Radio Transcripts (actualmente solo se puede acceder por suscripción) www.elibrary.com Motores: FindSouns www.findsounds.com 60


radio, conferencias, etc.

Sonomic www.sonomic.com Bancos:

3. Música

Bancos de canciones e interpretaciones musicales

Getty Images Music www.gettyimages.com > Music

All Music allmusic.com Bancos: Library of Congress memory.loc.gov/ammem/ccmphtml/colahome.html Getty Images > Películas (o Footage) www.gettyimages.com

4. Vídeo

Bancos repositorios o motores de búsqueda de programas de televisión, anuncios, video arte, etc.

BBC Motion Gallery www.bbcmotiongallery.com Motores: Blinkx www.blinkx.com Google Video video.google.es Repositorios: YouTube www.youtube.com Moving Image Archive www.archive.org

5. Cine

Bancos de metraje --footage- , cortometrajes, films, films digitales, etc

6. Banco de Multimedia multimedia de

Libray of Congress memory.loc.gov/ammem/awlhtml/awlhome.html Moving Image Archive www.archive.org

Por el momento, es una clase inédita en Internet 61


interactivos

7. Múltiple

Banco de diversas categorías de objetos audiovisuales y multimedia: imagen, sonido, video, multimedia interactivos, etc.

Por el momento, es una clase inédita en Internet

La clasificación anterior requiere algunos comentarios. Comencemos por los 7 subtipos. Es evidente que podría obtenerse una lista de 8, 9 o 10 subtipos, por ejemplo, el tipo imagen se puede dividir en imagen fotográfica, reproducción artística, infografía, etc.; o bien de 5 o 6 si fusionamos sonido y música en un solo tipo, cine y vídeo en otro, etc., así que hemos de dejar constancia de que esta tipología es totalmente discrecional. Hemos optado por ella porque en este contexto nos parece la opción más útil. En algunas categorías, hemos indicado que son clases inéditas. Nuestra hipótesis es que solamente es cuestión de tiempo que se produzca la aparición de esas categorías de bases de datos tan pronto como se superen los problemas tecnológicos y madure el tratamiento de los derechos de autor en la WWW. Además, salvo el 1 ( imagen ), todos los demás tipos de bases de datos audiovisuales están, en parte, por desarrollar. Esto es importante, porque dada la importancia creciente (imparable, en realidad) del sector audiovisual esto nos indica que se trata de un sector lleno de oportunidades para personas u organismos emprendedores que ya estén en ese sector (o que ya quieran entrar en él). Por ejemplo, los museos y filmotecas, así como los archivos audiovisuales de emisoras de radio y televisión tienen aquí una oportunidad inédita para obtener ingresos, rentabilizar sus bienes de información y obtener un liderazgo en la WWW en nichos de mercado determinados que nadie les podrá disputar. Lo mismo sucede con algunas empresas del sector editorial, que pueden llegar a disponer de grandes fondos de mapas, fotografías e ilustraciones de los que poseen sus derechos. Estos fondos suelen constituir, a la vez, colecciones únicas. Por ejemplo, nadie podrá competir con editorial XYZ o el periódico XYZ de la ciudad de ABC, a la hora de poner en distribución fondos imágenes y documentos audiovisuales de Metrópolis.

62


Por si la diversidad anterior fuera poca, debemos señalar que nuestra tipología no agota todas las variedades de bases de datos y sistemas de información del sector audiovisual (ver en la bibliografía un directorio y mapa mental sobre búsqueda audiovisual de este autor que incluye otras variedades e incluso una carectarización alternativa de lo constituye actualmente el sector de la DA). En este apartado hay que señalar, además, otra cuestión. Se podría elaborar una tipología en función del área temática o de las características institucionales del organismo productor del banco de imágenes. Aunque no es nuestro propósito ahondar en esta tipología, nos gustaría señalar que cada vez serán más importantes los bancos de documentos audiovisuales producidos por museos y archivos e instituciones culturales similares. Lo que nos interesa resaltar ahora es que, en un típico banco de imágenes, cada una de las imágenes que formen parte de la colección habrá sido seleccionada y filtrada previamente de acuerdo con algún criterio de oportunidad o de calidad, y cada una de las imágenes digitalizadas quedará asociada a un registro que contiene una descripción de los aspectos formales y semánticos de la imagen. Cada uno de los términos o palabras de ese registro será un punto de acceso a la imagen.

2.5.

Procesos típicos

Si tomamos un banco de imágenes como ejemplo, las imágenes entrarán a formar parte del sistema a partir de alguna clase de proceso de selección o adquisición. Entrar en el sistema significará entonces que las fotografías e imágenes serán adquiridas de acuerdo con alguna política de selección y adquisición. Posteriormente, serán registradas, descritas y digitalizadas siguiendo el proceso habitual de la cadena documental. En cuanto a la descripción, los mejores centros de producción de bancos de imágenes utilizan modelos de registro que contienen hasta cinco grandes conjuntos de atributos o campos, según el detalle siguiente:  Conjunto de campos n. 1 Datos de identificación: autor, fecha, número, etc.  Conjunto de campos n. 2 Datos de descripción formal: cromatismo, formato, tipo de plano, ángulo, enfoque, estilo, género, etc. En general, estos campos podrán ser controlados con algún cuadro de clasificación o lista cerrada de valores admitidos.  Conjunto de campos n. 3 Datos de descripción de las características técnicas del soporte: tipo de fotografía, emulsión o soporte, clase y dimensiones del original, estado de conservación, etc. 63


 Conjunto de campos n. 4 Datos de descripción semántica que, a su vez, se pueden dividir en dos subconjuntos de campos (no siempre diferenciados de forma explícita):  Elementos icónicos . Los elementos icónicos son las cosas que podemos ver en la fotografía. Por ejemplo, seres vivos (personas, animales, cosas), cosas inanimadas (coches, piedras), elementos del paisaje (nubes, árboles), etc. Corresponde, si se quiere, al nivel de la denotación, o "lo que veo".  Elementos conceptuales . Los elementos conceptuales son las ideas, conceptos, connotaciones, sentimientos, sensaciones, etc., que se desprenden de las imágenes. Corresponde al nivel de la denotación, o "lo que sé".  Conjunto de campos n. 5 Datos de control y administración: fecha de alta, fecha de modificación, número de registro, etc. Cuando consultamos bancos de imágenes a través de Internet, no siempre vemos los cinco conjuntos de campos. Por ejemplo, el conjunto de campos n. 5 no lo veremos, sino que queda reservado a los documentalistas y administradores del banco de imágenes. Con frecuencia, tampoco veremos una diferencia explícita entre los subconjuntos de campos icónicos y conceptuales, etc.  Motores de indización audiovisuales  Motores de imágenes Exactamente igual que disponemos en la WWW de la ayuda de los motores de búsqueda generalistas para encontrar documentos a partir de las palabras presentes en ellos, tenemos también motores de búsqueda de documentos audiovisuales. La vía de acceso a la información es exactamente la misma. Ya sabemos que motores de búsqueda como Google copian el texto de las sedes web como paso previo para crear su índice. El texto de las sedes web que copian está codificado en HTML. Supongamos que Google (o Yahoo!, o Altavista) encuentra en las direcciones (imaginarias) www.xyz.net, y www.pqr.net sendos documentos web que, entre otras cosas, tienen la siguiente codificación: ... <TITLE> Historia del cine musical </TITLE> ... Figura 1a: Primer ejemplo de documento web con codificación HTML (de la sede www.xyz.net –imaginaria--)

64


... <TITLE> Música clásica </TITLE> ... <BODY> <P> La música clásica ha sido llevada al cine con frecuencia</P> ... Figura 1b. Segundo ejemplo de documento web con codificación HTML (de la sede www.pqr.net –imaginaria--) Sabemos que, a partir de la codificación precedente, en los índices de Google figurará la siguiente información (seleccionamos la parte del índice que nos interesa mostrar aquí):

Término Localización ...

...

clásica

(www.pqr.net, title, 2);

...

...

cine

(www.xyz.net, title, 3); (www.pqr.net, body, 8); ...

...

...

historia (www.xyz.net, title, 1); ... ...

...

música (www.xyz.net, title, 4); ... (www.pqr.net, title, 1); ...

...

Figura 2: Una parte (imaginaria) del índice de un motor de búsqueda (url imaginarias) Lo que indica este índice es lo siguiente: si alguien busca por el término [cine], hay una web en cuyo título aparece el término [cine] y es la palabra n. 3 del título. Pero, si alguien busca por cine, sin especificar dónde debe aparecer la palabra, entonces hay dos webs. A partir de aquí, AltaVista podrá saber no solamente qué documentos web tienen la palabra [cine], sino, en su caso, cuál de ellos tiene ese término en el título, en el cuerpo del documento, etc. 65


¿Qué sucede con las imágenes? Recordemos cuál es la codificación típica de una imagen en un documento HTML:

... <P>El gato silvestre con su amigo el canario <IMG SRC="gatosilvestre.gif"></P> ... Figura n. 3: Codificación de una imagen en el documento HTML (de la web www.mascotas.net –imaginaria--)

A partir de la codificación anterior, Google (y cualquier motor de búsqueda en realidad) no tiene mayor problema para "deducir" que en la web www.mascotas.net hay una imagen relacionada con la palabra "gato", y que esa imagen está en formato "gif". Para ello, el programa de creación de índices de AltaVista lee el texto que rodea o que está en la misma página que la etiqueta <IMG> y de ahí puede generar esta entrada en su índice:

Término Localización ...

...

gato

(www.mascotas.net, img, gif);

...

...

Figura 4: Una parte (imaginaria) del índice de un motor de búsqueda

Ahora ya puede contestar a preguntas de internautas que pidan webs con imágenes de gatos, incluso webs cuyas imágenes estén en formato gif, etc. Además, algunos autores de páginas web utilizan el atributo ALT para añadir un título o una breve descripción de la imagen, lo cual aún proporciona más pistas a los motores de búsqueda. En concreto, una codificación como la siguiente en la web (imaginaria) www.genios.net, deja poco espacio a la duda respecto a que en ella hay una fotografía de Einstein:

... <P>Un genio de la física <IMG SRC="eisntein.gif" ALT="Retrato de Albert Einstein"></P> ... 66


Figura n. 5: Codificación de una imagen en el documento HTML (de la web www.genios.net –imaginaria--)

2.6.

Motores de audio

Como cada formato audiovisual posee unas extensiones bien determinadas, es fácil saber si el objeto es un sonido (wav), una imagen (gif, jpg), una imagen animada (avi), etc. Por esta razón, los principales motores de búsqueda de Internet pueden presentar, además de las opciones de búsqueda convencionales, posibilidad de búsqueda de otras clases de objetos multimedia, entre ellos el sonido, como hemos señalado. De este modo, indizar y buscar páginas web con archivos de audio no es más que una variedad del caso ilustrado para las imágenes. Ahora bien, hay al menos un caso de utilización de motores de indización de documentos de audio que presenta características muy específicas. Nos referimos a algunos programas que aplican un reconocimiento de voz a la banda sonora de registros de vídeo, o al registro de programas de radio. Una vez convertida la banda sonora del video o del programa de radio a texto, el documento se puede indizar con palabras clave por el procedimiento habitual de identificación y asignación de términos de indización de los sistemas convencionales. La cadena de televisión ABC ofrece ese sistema de indización de la banda sonora de sus emisiones de televisión a través de su web, y también lo hacía así la web experimental de Compaq (actualmente una empresa de HP), Speech Bot ( http://speechbot.research.compaq.com/ ) de programas de radio y televisión, de la que nos ocuparemos más adelante con cierto detalle. Actualmente, este sitio ha pasado "a mejor vida", pero mantenemos aquí la referencia la mismo por su interés intrínseco para la Documentación. Sería previsible que en el futuro (crucemos los dedos) vuelva a aparecer una iniciativa similar. De hecho, en sistemas comerciales ya existen (p.e. en LexisNexis).

2.7.

Tres casos significativos

Vamos a examinar tres casos que pueden resultar particularmente ilustrativos en este contexto. Se trata de los siguientes:  Corbis , un banco de imágenes norteamericano, pero que posee colecciones de todo el mundo.

67


 AGE Fotostock , un banco de imágenes español con proyección internacional y que representa a fotógrafos de diversos países  FindSounds , un motor de indización de sonidos en Internet. A continuación, se describe cada uno de ellos con mayor detalle.

2.7.1. Corbis http://www.corbis.com La empresa Corbis , fundada por el dueño de Microsoft, Bill Gates, fue la primera que planeó adquirir y digitalizar sistemáticamente grandes colecciones de fotografías de todo el mundo para explotarlas a través de la WWW. En la actualidad, en la propia sede web de Corbis se puede leer que han adquirido los derechos de 70 millones de imágenes (la mayor parte fotografías), aunque, por el momento, solamente una "pequeña" parte está en línea (unos dos millones). Dividen su colección en: Comercial (imágenes libres de derechos) Editorial (una selección de imágenes nuevas), Históricas, Arte (reproducciones de arte), Noticias , Deportes y Espectáculos . El negocio está dividido en dos tipos, según los derechos de reproducción de las imágenes:  Rights Managed (derechos protegidos) y  Royalty-Free (libres de derechos) Cada tipo contiene un sistema de licencias y un sistema de tarificación distinto. Las imágenes del tipo "libres de derechos" solamente están disponibles en tamaños de imágenes fijos y con precios relativamente baratos. Una vez adquirida, la imagen es propiedad del comprador, a cambio, no tiene un uso exclusivo de la misma (otros clientes también la pueden adquirir). En cuanto a las otras secciones, la fórmula de la "Derechos protegidos" está dirigida a empresas. Con esta fórmula, no se adquiere la imagen, sino el derecho a hacer un uso concreto y determinado de la imagen. Una vez se ha realizado ese uso, no se puede volver a utilizar, a menos que se vuelva a pagar por ella. A cambio, Corbis garantiza el uso exclusivo para ese propósito determinado, es decir, si se adquiere una imagen de Corbis bajo esa licencia para la cubierta de una revista, no se encontrará el comprador de la licencia con la sorpresa de que, en la misma semana o el mismo mes, otra revista utiliza la misma imagen.

68


Los precios pueden variar entre unos pocos hasta unos cientos de dólares dependiendo de la resolución deseada de la imagen y del uso declarado (portada de revista, sede, interior de revista, libro, etc). Para las licencias de tipo tradicional, Corbis no facilita tarifas, ya que indica que deben establecerse para cada adquisición concreta. Si el lector está en línea (o si puede conectarse ahora) este es un momento excelente para entrar en Corbis ( www.corbis.com ) y hacer algunas pruebas. A su buen criterio, el alumno puede explorar ahora Corbis. Se recomienda entrar en las diferentes secciones para hacerse una idea de su contenido. Pruebe a obtener imágenes por navegación, utilizando las categorías que presentan, que como podrá observar, son bastante limitadas, o por recuperación, entrando en la opción de búsqueda avanzada "Más opciones de búsqueda". Una vez tenemos las imágenes a la vista podemos obtener una vista ampliada de la misma, veremos los precios e incluso podemos ver las palabras clave por las cuales ha sido indizada, así como lanzar nuevas búsquedas a partir de esas palabras.

También se recomienda que, cuando necesite buscar imágenes para realizar sus pruebas, combine el uso de términos que identifiquen objetos icónicos (como casa, niño o coche, o sus equivalentes en inglés, house, child, car, etc ), con el uso de términos que identifiquen conceptos (como belleza, miedo, éxito, etc.) y que no tienen una relación unívoca con objetos icónicos concretos.

2.7.2. Age Fotostock www.agefotostock.com La empresa propietaria de la sede web ( Aplicaciones de la Imagen ), es una sociedad que actúa mercantilmente como archivo fotográfico bajo la marca comercial registrada de Age Fotostock . Age Fotostock es una agencia fotográfica española, establecida en Barcelona desde 1973, con amplia proyección nacional e internacional y que cuenta con oficinas en Madrid, Bilbao y Nueva York. El volumen total de su fondo (no el de la base de datos) lo constituyen más de 2 millones de fotografías de temática variada. Distribuyen fundamentalmente sus imágenes a través de catálogos en papel, cd-rom y dos bancos de imágenes de la web (Agefotostock y Pixtal) .

69


Funcionan a modo de agentes comerciales intermediarios de más de 700 fotógrafos de gran calidad de todo el mundo. Los fotógrafos depositan su producción gráfica en AGE Fotostock para su venta y distribución, sin ceder por ello la propiedad intelectual de las fotografías ni los derechos de autor inherentes. AGE Fotostock ofrece a los fotógrafos un porcentaje de los ingresos que obtienen por la venta de los derechos de reproducción de las fotografías a terceras empresas (ver la página de AGE Fotostock para las condiciones concretas). De este modo, los fotógrafos pueden concentrarse en hacer lo que mejor saben hacer: fotografías de calidad, y AGE Fotostock , hace lo que mejor sabe hacer: venderlas a los mejores clientes. Mediante el servicio de Entrega Digital Personalizada se envían las fotografías que el usuario haya pedido, ya sean tanto en baja como en alta resolución. El sistema de distribución en línea es un híbrido de correo electrónico y página Web. El Departamento de Ventas de Age Fotostock envía un mensaje por correo electrónico que contiene un enlace a una página web en la que aparecerán las fotografías solicitadas. Las resoluciones de las imágenes pueden ser de varios tipos: baja resolución, media, y alta resolución (que puede llegar a 26 o 50 Mb).

El sistema de tarifas depende del uso que se vaya a dar a la fotografía. Existe una clasificación general: publicidad, world wide web, aplicaciones decorativas, prensa, edición de láminas, editorial, folletos de viaje, envases y embalajes, música y audiovisuales, juegos, miscelánea, condiciones para la cesión de derechos de reproducción. A su vez, cada categoría presenta otras subdivisiones específicas que dependen de la posición en el medio o del tipo de producto en que se vaya a publicar. Los Derechos de Reproducción de las tarifas están sujetos, como es lógico, a la Ley de Propiedad Intelectual , así como a las condiciones de Age Fotostock , indicadas en el documento Condiciones para la entrega y reproducción de materiales gráficos . Los derechos de reproducción son "no exclusivos", mientras no exista un pacto contrario escrito y firmado por ambas partes. El precio de cesión exclusivo se negocia para cada imagen, como en el caso de Corbis , dadas las dificultades inherentes al bloqueo de fotografías que tienen una difusión muy elevada. La base de datos que ofrecen a través de la web es bastante reducida en relación con su fondo real, ya que sólo presentan una muestra de aproximadamente 125.000 fotografías.

70


El fichero de la imagen que se ofrece en el modo de consulta es en baja resolución con la marca de agua, y si el usuario está registrado puede visualizar la imagen en mayor resolución en una página independiente. En el campo Criterios que posee la imagen se incluyen las palabras clave. La norma de descripción que han establecido, tal como puede observarse, ha sido la de incluir todos los singulares y plurales de los sustantivos, tanto de femeninos como de masculinos, los infinitivos y gerundios de los verbos, y el masculino y el singular de los adjetivos. Se describen tanto los elementos icónicos, como los conceptuales y emotivos. Por ejemplo, en una fotografía con un paisaje se han incluido las siguiente palabras clave: {paisaje, amapola, amarillo, color, naturaleza, tranquilidad, solitario}, etc. El sistema de recuperación es sencillo: una única caja de búsqueda que permite la incorporación de palabras clave y los operadores booleanos: Y, O, NO. Las frases se incluyen entre comillas y se permiten los truncados mediante un asterisco. Si el alumno está en línea en este momento, se recomienda registrarse en AGE Fotostock y realizar algún tipo de consulta. Como ejercicio se recomienda éste: intente localizar fotografías con mujeres y niños riendo en la playa, con orientación vertical. AGE Fotostock presenta diversos sistemas de clasificación temáticos. Por ejemplo, dispone de un sistema de clasificación general de las imágenes con las siguientes categorías generales: historia y bellas artes, personajes famosos, creativa, ciencia e industria, naturaleza, contemporánea, lugares del mundo, conceptos, agricultura y comida.

2.7.3. FindSounds www.findsounds.com FindSounds es propiedad de la empresa Comparisonics Corporation especializada en tecnologías punta del sector de audio. El servicio que ofrecen funciona como un buscador de efectos de sonido o de sonidos simples en la web. Incorporan un motor de búsqueda que permite indizar y recuperar ficheros de sonido que se encuentran en Internet. Como dato un tanto curioso, por lo menos en nuestra cultura, cabe señalar que avisan a los padres que estos sonidos están filtrados y no contienen obscenidades que puedan afectar a sus hijos. Presentan una clasificación por tipologías de sonidos, del siguiente tipo: Animals, Birds, Holidays, Household, Insects, Mayhem, Miscellaneous, Musical Instruments, Nature, Noisemakers, Office, People, Sports and Recreation, Tools, TV and Movie, Vehicles . 71


Cada una de ellas se acompaña de un listado de subtipos. Por ejemplo, de la categoría Animals: alligator, baboon, bat, bear, boar, bison etc. La interfase de consulta, aparte de la caja de diálogo que permite incorporar palabras y frases, presentan la posibilidad de elegir formato (aiff, au, wave), número de canales (mono y estéreo), resolución, velocidad, y tamaño o peso del fichero. El tiempo de bajada del fichero de audio, que puede oscilar entre unos pocos segundos y minutos, depende de su tamaño y de la velocidad de la conexión de Internet. Se advierte en la ayuda que una resolución y una velocidad altas significan una calidad alta de grabación, pero también, como es lógico, un archivo muy voluminoso. También ofrecen una opción de consulta muy interesante por sonidos similares, Find Sounds like this one . En la página, Sounds-Like Search , explican su funcionamiento y regalan un programa gratuito, Comparisonics Audio Player que permite: abrir cualquier archivo de audio, visualizar su gráfico coloreado, seleccionar con el ratón el fragmento que interese y, a continuación, con el comando Find Sounds on Web , buscar otros sonidos similares en la web. Explican también al usuario que mediante un micrófono y programa como el Microsoft Sound Recorder puede grabar sus propios sonidos e incluso su propia voz y buscar otros parecidos en la web. La empresa de FindSounds no era propietaria de los sonidos que indexaba, ni los tenía en depósito. Mantenían con los sonidos la misma relación que los motores de búsqueda convencionales, como Google, con las páginas web que indizan. Si el usuario deseba utilizar los sonidos en alguna forma que pudiera afectar a derechos de autor, debían ponerse en contacto con el administrador de la página web donde se publicaba el sonido.

2.8.

Microstock

En los últimos años ha aparecido una nueva categoría de bancos de imágenes, especialmente, en el sector de la fotografía. Para diferenciarlos de los bancos de imágenes anteriores como Corbis o AGE, se les denomina Microstock. El aspecto "micro" de su nombre está relacionado con los precios (originalmente, también con el pequeño número de imágenes que tenían en sus bancos, pero esto ya ha cambiado). En concreto, los bancos de imágenes del sector Micro ofrecen imágenes a precios hasta diez veces inferiores a los de sus competidores del secror Macro. La clave está en que estos bancos (los Micro) han abierto la puerta a fotógrafos anónimos, ofrecen las imágenes en versión Royalty Free y, naturalmente, también pagan mucho menos a los fotógrafos. Para estos últimos esta cuestión no es necesariamente un mal negocio. Muchos de ellos no hubieran podido vender sus imágenes en los bancos Macro, y 72


ahora tienen una oportunidad en los Micro. Además, aunque cobran menos por cada imagen, en el sector Micro las pueden vender cientos de veces, ya que se licencian bajo Royalty Free, como ya hemos dicho. Para las empresas que necesitan adquirir fotos también son una oportunidad, porque ahora pueden conseguir imágenes a precios decenas de veces más bajos. En este sentido han aparecido decenas, tal vez centenares de estos bancos. El más importante en España probablemente sea:  EasyFotoestock Los tres internacionales más importantes probablemente sean los siguientes:  Dreamstime  Shutterstock  Fotolia

2.9.

Conclusiones

Hemos intentado mostrar las posibilidades actuales y futuras de la documentación audiovisual. Queremos insistir aquí, utilizando una metáfora, en algo que hemos indicado más arriba: si la documentación convencional es la vieja Europa, la documentación audiovisual es la joven África del siglo XIX, es decir, un continente sin explorar. Si la documentación convencional es importante, y lo seguirá siendo siempre, la documentación audiovisual representa un territorio aún más grande que el de la documentación convencional y en el que aún queda mucho por descubrir y mucho por hacer. Es, por tanto, un sector que debería ser visto como un estímulo para emprendedores y profesionales de nuestro sector. La Documentación audiovisual tiene aplicaciones potenciales de enorme valor en sectores como la salud, el arte, la museística y la comunicación social, por mencionar solamente algunos de ellos. Creemos que podemos hacer el siguiente pronóstico fácil: en los próximos años asistiremos a una explosión de actividades en relación a la documentación audiovisual y a sus productos más espectaculares: los bancos de imágenes. La duda razonable, sin embargo, es la siguiente: ¿será esa explosión de actividad una explosión de oportunidades para nuestros profesionales? Nosotros creemos que sí. Pero, como siempre decimos, habrá que estar preparado para aprovechar las oportunidades. 73


Por último, si los participantes lo desean, pueden entrar en el siguiente directorio y mapa mental (desarrollado por Lluís Codina) para ver más casos de bases de datos, directorios y depósitos digitales multimedia: http://tinyurl.com/55f6v9

74


3. Buscadores de video Desde el año 2005, y principalmente a partir de 2006, el número de videos online accesibles a través de la web no ha parado de crecer. La necesidad de las personas de compartir momentos entrañables, divertidos o simplemente curiosos ha encontrado en este formato a su mejor aliado, y ha supuesto para la web un auténtico fenómeno social. También se ha convertido en una nueva forma de comunicar a través de internet. Así hemos asistido a iniciativas tales como la “Video educación”, que ha puesto al alcance de todos los internautas valiosos recursos educativos en formato video. Buena acogida ha tenido también en el ámbito político, donde los partidos han utilizado esta tecnología para hacer campaña electoral. Otro sector aún más importante es el del marketing online, que ha encontrado en este formato una herramienta perfecta para la difusión de productos a un gran número de potenciales clientes. Y también es de destacar su impacto en el mundo artístico, donde ha supuesto tanto un modo de dar a conocer a artistas noveles (músicos, actores, directores cinematográficos, etc.), como un medio idóneo para promocionar a los artistas ya consolidados. Es evidente pues, que el fenómeno del video online ha supuesto una revolución que ha alcanzado por igual a usuarios de a pie (internautas), compañías (para promocionar sus productos mediante publicidad online, elaborando estrategias de marketing viral, o interviniendo directamente en este nuevo mercado - no olvidemos la reciente adquisición de YouTube por parte de Google), celebridades, artistas, etc. Este fenómeno tiene su origen en la aparición, a partir del año 2005, de espacios para compartir y publicar videos en la web. Estos espacios, o servicios de alojamiento de video, se caracterizan por: 1. Permitir la publicación de videos en sus portales de forma gratuita. 2. Los requisitos que deben cumplir estos videos (normalmente, no en todos los casos) son: 

Normalmente no ocupar un espacio mayor a los 100 Mb.

Aceptar la conversión de nuestros videos a una resolución de 450x337 píxeles, a 30 imágenes por segundo.

En algunos casos, permitir la adición del logotipo del servicio de alojamiento al video subido.

Estar en uno de los siguientes formatos: 3gp, asf, avi, mpg, mov, rm, swf, wmv. 75


Permitir hacer comentarios y/o valoraciones a los usuarios sobre los contenidos visualizados.

Permitir establecer el nivel de privacidad deseado por el usuario (normalmente videos privados, mostrados sólo a aquellos usuarios a quienes comuniquemos su existencia, o públicos, disponibles para todos los internautas).

Uno de los principales problemas de estos servicios son los derechos de autor. Esto se debe a que con bastante frecuencia los usuarios incorporan en sus videos imágenes o música protegida. Las compañías dedicadas a la publicación de videos suelen tener la política de retirar estos contenidos sólo si así lo solicitan los titulares de los derechos. Cuando esto ocurre, al usuario que introdujo los contenidos ilícitos simplemente se le cancela su cuenta. Esta solución obviamente no satisface a los titulares de los derechos de autor, y muestra de ello es la conocida demanda de Viacom a Google y YouTube por valor de 1000 millones de dólares, en concepto de daños y perjuicios. A continuación se enumerarán y describirán los principales servicios para la búsqueda de videos generalistas disponibles hoy en la Web.

3.1.

Búsqueda de videos en la web

La gran aceptación que los videos han tenido en el ámbito de la web desde su aparición, ha venido asociada con la necesidad de herramientas que permitan buscarlos y recuperarlos. Pero, ¿cómo podemos buscar un video teniendo en cuenta que está compuesto de fotogramas y no de palabras? Para saber si una web es relevante a una pregunta de un usuario basta con emparejar los términos (palabras) que utiliza este usuario al formular su consulta con las palabras que aparecen en cada documento web. Ahora bien, en un video no aparecen palabras, y aunque existen técnicas que tratan de hacer búsquedas sobre las imágenes o fotogramas (buscando formas, texturas, etc.) éstas aún no funcionan correctamente y además son muy poco intuitivas para que un usuario pueda expresar una necesidad de información compleja. Por tanto, la búsqueda y recuperación de estos materiales ha de hacerse en función de las etiquetas que colocaron sus autores a estos videos a la hora de subirlos, así como de las categorías que se le han asignado (todos los servicios de alojamiento disponen de un conjunto de categorías preestablecidas en función de las cuales agrupan los videos). Serán éstas palabras y categorías las que permitirán a un usuario localizar los contenidos de su interés. Nótese por tanto que esto implica que a la hora de recuperar este tipo de materiales estamos confiando en la honestidad y capacidad de los usuarios para describir convenientemente los contenidos.

76


En cuanto a las herramientas de búsqueda disponibles, podemos agruparlas en dos categorías: 1. Buscadores de los servicios de almacenamiento de videos: todos los servicios para la publicación de videos disponen de motores de búsqueda para localizar los videos que alojan. En muchos casos, conocer estos servicios y utilizar sus herramientas es la mejor manera de encontrar el video que necesitamos. 2. Buscadores de videos: también existen buscadores web especializados en videos, y que realizan su consulta simultáneamente sobre los principales servicios de publicación de videos (mencionados anteriormente). La utilización de los “buscadores de videos web” es sin duda la opción que más agiliza todo el proceso de búsqueda y recuperación, no obstante, no es la opción más exhaustiva, ya que gran parte de los contenidos disponibles en este formato no están a su alcance (siempre habrá gran cantidad de videos disponibles en los servicios de alojamiento que no indexe el buscador que no serán recuperados). Es por ello que, dependiendo de la naturaleza de nuestra necesidad de información, será más conveniente utilizar uno u otro servicio, o quizás ambos. A continuación se enumeran y describen los principales servicios de alojamiento para video, así como los buscadores de video más potentes de la web.

3.2.

Servicios de alojamiento para video

Estos son los servicios de almacenamiento más populares de la web. De todos los servicios que aparecen a continuación, presentan su interfaz en castellano los siguientes: DailyMotion, DaleAlPlay, msn video, MySpaceTV.com, Tu.tv, y YouTube. AOL - Video : servicio de alojamiento gratuito de videos y motor de busqueda web de AOL (American On-Line, uno de los proveedores de internet más importantes del mundo). http://video.aol.com/

Blip.tv : intenta recoger los mejores shows de la web. Es un sitio creado por los usuarios de linux para compartir videos en mp4 (sobre Quicktime) y Flash. http://www.blip.tv/

77


Break : servicio para la publicación de videos, y fotos. Una peculiaridad de este servicio de alojamiento es que paga por algunos tipos de contenidos, como son: cortos de calidad profesional, animaciones en flash, videos de gente o animales bailando, etc. http://www.break.com/

DailyMotion : servicio para el alojamiento gratuito de videos caracterizado por ser de ámbito principalmente europeo. Permite subir videos de hasta 150 Mb y 20 minutos de duración, más que la mayoría de estos servicios. También es positivo el hecho de que no añada su logotipo a los videos subidos. Está disponible en castellano. http://www.dailymotion.com/

DaleAlPlay : servicio español para el alojamiento gratuito de videos. Permite subir contenidos de un máximo de 50 Mb. y una duración máxima de 10 minutos. Inserta su logotipo en los videos. Dispone de un gran número de canales RSS. http://www.dalealplay.com/

Metacafe : servicio de alojamiento gratuito de videos. Permite la subcripción a diferentes canales, así como la creación de un canal propio. Los videos son en su mayoría profesionales (fragmentos de películas, videoclips, etc.), aunque también los hay caseros. http://www.metacafe.com/

msn video (Microsoft) : es el servicio para el alojamiento de videos de Microsoft. Incluye videos de caracter profesional: trailers de películas, publicidad, videos musicales, etc. Está disponible en castellano. http://video.msn.com/

MySpaceTV.com : es el servicio de alojamiento gratuito de videos de MySpace. MySpace, una de las mayores redes sociales de la web caracterizada por la presencia en ella de multitud de grupos musicales y celebridades, se ha convertido en unos de los grandes generadores de contenidos en internet (en abril de 2008 se vieron 50 78


millones de videos en esta red frente a los 58 millones visualizados en Youtube). Por ello, en junio de 2008 se lanzó un servicio gratuito de alojamiento que compite con Youtube, eso sí, dándole una orientación más profesional y huyendo de los videos caseros. Está disponible en castellano. http://vids.myspace.com/

Revver : servicio de alojamiento gratuito de videos muy parecido a los demás, pero que se caracteriza por pagar a los autores de aquellos videos que generen más de cierta cantidad de dinero en concepto de publicidad. http://one.revver.com/revver

Tu.tv : es el servicio de Hispavista para el alojamiento gratuito de videos (por tanto está en castellano). Permite almacenar videos de hasta 300 Mb. y una duración máxima de 10 minutos. http://tu.tv/

Vidiac : servicio de alojamiento gratuito de videos dirigido principalmente a jóvenes y adolescentes. http://www.vidiac.com/

VidiLife : servicio de alojamiento gratuito de videos muy similar a Youtube. Ofrece a sus usarios diversos canales sindicados de vidscasting. http://www.vidilife.com/

Vimeo : servicio de alojamiento de videos gratuito. Está orientado a aquellos usarios que quieran compartir sus videos caseros (no va dirigido a profesionales). No suelen ofrecer muchos videos al público en general, siendo más común la restricción del acceso a los contenidos a los miembros de sus comunidades. Es muy destacable su sencillez y facilidad de uso. Permite descargar los videos en su formato original. El espacio de alojamiento facilitado es de 250 Mb semanales (que pueden emplearse para un único archivo sin límite de duración). 79


http://www.vimeo.com/

Youtube : fundada en 2005 esta empresa se ha convertido en la lider indiscutible del sector del video online, siendo el sitio más utilizado por los internautas para alojar y compartir sus videos. En 2006 Youtube fue comprada por Google, a quien pertenece en este momento. Entre sus proveedores de contenidos destacan: BBC, Sony Music Group, NBA, etc. Puede verse hasta en 10 idiomas (incluido el castellano). http://www.youtube.com

3.3.

Buscadores de video

A continuación se analizan los principales buscadores de video disponibles en la web. Hemos de señalar que junto a ellos existen otros muchos, como Excite Video ( http://search.excite.es/video ). Ello se debe a que la mayoría de los buscadores web existentes han desarrollado sus propios buscadores de videos, no obstante aquí nos vamos a centrar en aquellos que consideramos más importantes. Blinkx : es a la par un servicio de alojamiento de videos gratuito y un buscador de videos. Alimenta de videos virales y material televisivo a sitios como: AOL, Lycos, Times Online, MSN y Live.com. Como buscador indexa y recupera videos procedentes, entre otros, de la BBC, Fox, MTV, Sky News, Reuters, Metacafe, y Youtube. http://www.blinkx.com/

Exalead Video : sección para la búsqueda de videos de Exalead. Realiza sus consultas sobre: YouTube, DailyMotion, Metacafe, Kewego, e ifilm. Su interfaz de búsqueda avanzada es muy novedoso y potente, haciendo uso de operadores booleanos y proximidad, aunque difícil de entender para aquellos no familiarizados con el ámbito de la recuperación de información. Su interfaz está en castellano. http://www.exalead.es/video/results

Google Video: es tanto un servicio para el alojamiento gratuito de videos como un potente buscador de videos. Sus características más destacables como servicio de alojamiento son: capacidad para subir videos más largos de lo habitual, la posibilidad de hacer descargas, no introduce el logo del servicio de alojamiento en el video, y dispone de canales de subscripción RSS. Como motor de búsqueda presenta los resultados hallados principalmente en YouTube, pero también de otros servicios de 80


alojamiento como el propio Google video, Metacafe, etc. Facilita un potente interfaz de búsqueda avanzada para videos, y es muy destacable la opción que da a sus usuarios de sindicar una consulta (RSS), de manera que el buscador nos irá enviando los nuevos resultados que vayan apareciendo para la consulta sindicada. Está en castellano. http://video.google.es/

HolmesVideo : buscador en castellano que realiza las búsqueda en Youtube, MySpace, DailyMotion, Metacafe, ifilm, y DaleAlPlay (entre otros). http://superpatanegra.com/holmesvideo.php

Truveo : buscador de videos perteneciente a AOL. http://www.truveo.com/

Yahoo! Vídeo : es a la vez un servicio de alojamiento gratuito y un buscador de videos. Como servicio de alojamiento permite subir videos de hasta 100 Mb. En los formatos: asf, avi, flv,mov, qt, o wmv. Está en castellano y dispone de interfaz de búsqueda avanzada. Realiza las búsqueda en múltiples servicios de alojamiento, aunque centra sus resultados principalmente en su propio servicio de alojamiento. Los resultados seleccionados no se abren en su página, reenviándonos a la fuente original donde se publicó el video. http://es.video.search.yahoo.com/

3.4.

Conclusiones

El video online se ha convertido en una auténtica mina de oro para todos aquellos agentes involucrados en el desarrollo de servicios web. Ello ha hecho que surjan multitud de iniciativas que compiten entre sí para hacerse con el favor de sus usuarios. En este momento parece claro que Google y sus empresas (YouTube y Google Video) mantienen el liderato en este sector. No obstante, han surgido muchas y muy interesantes propuestas que amenazan la hegemonía del gigante de internet. Especialmente relevantes son iniciativas como la de MySpaceTV o DailyMotion. Desde el punto de vista de la recuperación de la información, la aparición de tantos servicios supone a la vez ventajas e inconvenientes. La principal ventaja es que disponemos de multitud de recursos y de muchas y muy potentes herramientas para 81


su recuperación. El gran inconveniente es que la diversidad de servicios hace casi imposible acceder a todos ellos, por lo que podemos estar seguros de que siempre perderemos información relevante en nuestras búsquedas. A ello además hay que añadir el hecho de que los neófitos en este sector necesitarán algún tiempo hasta descubrir cuáles son los servicios más apropiados en los que buscar cada tipo de información.

82


4. Buscadores de blogs Los blogs constituyen hoy un fenómeno imparable y de continuo crecimiento en la web. Tal es la popularidad que han alcanzado que actualmente son pocas las empresas online que no disponen de uno. Aunque mucho mayor es el impacto de los blogs personales, realizados por particulares interesados en una temática concreta, y que concentran en torno a ellos a auténticas comunidades que comparten gustos e inquietudes similares. A continuación se estudiará qué son los blogs, qué información recogen y cuáles son las mejores herramientas para buscar y acceder a sus contenidos.

4.1.

¿Qué es una bitacora, blog o weblog?

Un blog estándar (téngase presente que cada persona puede diseñarlo y estructurarlo a su antojo) es una página web perteneciente a una o varias personas. Su contenido lo constituyen una serie de entradas, redactadas normalmente de manera informal, ordenadas cronológicamente, y que se van actualizando constantemente sin una periodicidad definida. Suelen tener una temática concreta, y permitir la participación de sus usuarios mediante comentarios a las entradas publicadas. Su especialización les convierte en buenas fuentes para detectar recursos (es decir, enlaces) valiosos sobre su temática, así como a aquellas personas o comunidades interesadas en la misma. Los más avanzados disponen de canales de sindicación (feeds, en formatos RSS, Atom, etc.) que informan a sus suscriptores cada vez que una nueva entrada es publicada. A veces es muy difícil diferenciar un blog de una web personal. La diferencia principal entre ellas es que los blogs no poseen una estructura jerárquica. También podría confundirse con un foro, pero a diferencia de éste, en un blog todas las entradas son realizadas por el/los autor/es del blog y no por los miembros de una comunidad. Aunque los usuarios del blog podrán opinar sobre estas entradas haciendo comentarios, produciéndose en muchas ocasiones debates muy similares a los acontecidos en foros. Para conocer su origen hay que remontarse hasta el año 1993 (cuando Tim Berners Lee, el creador de la web, hizo la primera página con las características propias de un blog). No obstante, no será hasta 1999, con la aparición de Blogger, herramienta que permite crear y mantener un blog fácilmente, cuando este tipo de páginas se popularice, entrando en una fase de crecimiento exponencial que, aún hoy, se mantiene. De hecho, tanto es el éxito que han alcanzado los blogs que incluso los medios de comunicación de masas los han desarrollado. Este es el caso por ejemplo de los principales diarios, revistas, programas de televisión y radio, y de los más importantes portales web. El fenómeno blog ha tenido tanta repercusión como una nueva forma de comunicar y crear comunidades que desde hace años es un tema de 83


estudio e investigación, no sólo desde el punto de vista tecnológico, sino también social. Para la creación de un blog no es necesario hacer uso de ninguna herramienta especial, si bien, la aparición de servicios para el alojamiento gratuito de blogs ha originado también la aparición de herramientas que facilitan enormemente su diseño. Entre los servicios de alojamiento gratuito más populares se encuentran: Blogger , Bloglines , Blogia.com , Blog.com , etc.

4.2.

¿Qué información podemos encontrar en un blog?

En un blog puede encontrarse cualquier tipo de información. De hecho, será el autor del mismo quien decida en todo momento los temas o materias que quiere abordar. Hemos de tener presente que las motivaciones que llevan a una persona a crear un blog pueden ser muy diversas:  Compartir conocimiento.  Opinar sobre algún tema particular.  Constituir una comunidad para establecer relaciones personales con internautas con sus mismos intereses.  Hacer “periodismo”, es decir, informar sobre aquellas cuestiones de mayor interés para el dueño del blog.  Servir como un diario donde hacer anotaciones, manifestar nuestros pensamientos e ideas, etc. Actuando, en definitiva, como un nuevo canal para la comunicación y la expresión humana.  Hacer negocios.  Proporcionar una opción para la diversión y el ocio.  Etc. (probablemente podamos encontrar tantas finalidades como usuarios).

4.3.

¿Cuáles son las mejores herramientas para acceder a esta información?

Las mejores herramientas para el acceso a los contenidos publicados en los blogs son: 1. Los buscadores y directorios de los servicios para la publicación de blogs. El inconveniente es que con ellos sólo podemos acceder a aquellos contenidos almacenados en ese servicio (véanse los servicios más populares mencionados un poco más arriba).

84


2. Canales de sindicación: la suscripción a los canales RSS que presentan muchos de los blogs, es una de las mejores formas de estar informado de todo lo que va apareciendo en los blogs de nuestro interés, además inmediatamente tras ser publicado. El problema es que no todos los blogs disponen de canales sindicados y, por lo tanto, no podremos acceder a la información de muchos de ellos. 3. Directorios de blogs: son sitios web que organizan por categorías y temas grandes conjuntos de blogs. Su ventaja es que permiten al usuario visualizar las temáticas que mejor se ajustan a sus intereses así como los recursos que el directorio posee en relación con los mismos. El inconveniente es que para aparecer en estos directorios el usuario debe haberse dado de alta previamente, por lo que sólo aquellas páginas inscritas pueden ser recuperadas. 4. Buscadores de blogs: son motores de búsqueda especializados en la búsqueda de blogs y de los contenidos aparecidos en ellos. Suponen por tanto la opción más completa de las cuatro, ya que facilitan la búsqueda simultanea en los blogs de diferentes servicios, con independencia de que posean canales de suscripción RSS o de que estén suscritos a uno o varios directorios. A continuación nos centraremos en el estudio de los principales directorios y buscadores de blogs disponibles en la web.

4.3.1. Directorios Los directorios de recursos web han sido paulatinamente desplazados por los buscadores desde su aparición. No obstante, estas herramientas aún conservan un gran potencial para la búsqueda y localización de recursos web. Su uso será especialmente indicado cuando no tengamos muy claro o muy bien definida una necesidad de información. Estas herramientas a través de sus categorías y subcategorías nos ayudarán a detectar dicha necesidad, y nos permitirán hacer una primera aproximación a los blogs de un dominio específico. Algunos de los directorios de blogs más interesantes son: EatonWeb: es el primer directorio que se creó especializado en blogs, y probablemente el más potente e importante de ellos. A través de un gran número de categorías y subcategorías nos permite hallar aquellos blogs que se adecuan a nuestra temática de interés. Además, para ayudar a sus usuarios a decidir qué blog visitar establece a priori tres medidas para cada blog mostrado: “Strenght”, que nos indica cuál es la popularidad del blog, permitiendo identificar aquellos weblogs más valorados para cada temática; “Momentum”, que mide cuál es el nivel de actualización de las bitácoras, diferenciando así entre aquellas que han sido abandonadas y aquellas 85


en las que cada día se introducen nuevos posts; “Overall”, es una medida extraída a partir de las dos anteriores, y por tanto un buen indicativo de la popularidad y salud de que goza cada blog. Además, el directorio EatonWeb permite visualizar diferentes estadísticas de cada bitácora, entre ellas ofrece gráficos sobre la visibilidad del sitio a lo largo del tiempo, de los enlaces que recibe, así como información sobre su evolución en el ranking de Alexa, o de su PageRank de Google. También facilita una lista de los blogs relacionados con el seleccionado por el usuario, indicando para cada uno de ellos si están en crecimiento o decrecimiento. http://portal.eatonweb.com/

Yahoo! Directorio – Sección Blogs: sección del directorio general de Yahoo! dedicada a los blogs. Agrupa una gran cantidad de blogs en torno a más de cuarenta categorías (en inglés): http://dir.yahoo.com/News_and_Media/Blogs/

Directorio de blogs en España: directorio de blogs españoles que categoriza más de 6000 bitácoras. http://www.directorio-blogs.com/

4.3.2. Buscadores de blogs Como se ha mencionado anteriormente son la herramienta más potente para la búsqueda y recuperación de contenidos disponibles en los blogs. Los primeros buscadores de este tipo aparecieron recientemente (en el año 2003), y son muchas las iniciativas que han proliferado desde entonces. No obstante, los más conocidos son: Google Búsqueda de Blogs : es el buscador de blogs de Google. Está considerado el más potente en este momento, realizando búsquedas tanto sobre los títulos de los blogs como sobre sus contenidos. Su interfaz, en castellano, facilita opciones de búsqueda normal y avanzada. En el caso de la búsqueda avanzada podemos concretar bastante nuestra consulta obligando, por ejemplo, a que determinada palabra aparezca en el título del blog, o que la entrada esté hecha por un autor concreto, etc. La ordenación de los resultados puede hacerla bien por relevancia bien por fecha. Es muy rápido y sin publicidad. http://www.google.es/blogsearch

86


Technorati : junto con Google constituyen los dos mejores buscadores de blogs de la web. Su interfaz está en inglés aunque al realizar una consulta identifica el idioma y automáticamente devuelve resultados para el mismo. Presenta opciones de búsqueda avanzada, aunque éstas no están disponibles hasta que se realiza una búsqueda (aparecen como una opción para refinar la consulta). Como inconveniente, además del idioma, señalar la lentitud de este motor de búsqueda frente a Google Búsqueda de Blogs. http://www.technorati.com/

Conclusiones Hoy día los blogs no sólo suponen una auténtica revolución social, sino también un recurso de información de gran valor. Es por tanto imprescindible contar con herramientas que permitan buscar y acceder a estos contenidos. Los buscadores de blogs constituyen así una fuente de información de primer orden para todos aquellos profesionales que quieran hallar información relevante y actualizada sobre una temática concreta, o identificar las características y necesidades de una comunidad de usuarios. En este sentido, son especialmente relevantes las aplicaciones “Google búsqueda de blogs” y “Technorati”, buscadores que han desbancado a un gran número de iniciativas que desde el año 2005 venían produciéndose.

87


5. Buscadores del texto de libros impresos La necesidad de herramientas web que permitan buscar en el texto de documentos impresos no aparece hasta que las versiones electrónicas de revistas y principalmente libros se populariza en internet. Hasta hace muy poco, este tipo de búsqueda sólo podían realizarlas aquellos con acceso a bases de datos (de pago) con contenidos electrónicos a texto completo. Debido a su alto coste, estos servicios estaban al alcance sólo de algunas empresas y, principalmente, de universidades. Será la aparición de iniciativas con el propósito unas veces de hacer accesible a todos la cultura, y otras de hacer negocio, la que propicie la aparición de diversos directorios y repositorios con contenidos electrónicos, y motive posteriormente la creación de buscadores de texto de libros impresos.

5.1.

El libro electrónico

Un libro electrónico o e-book es un contenido disponible en formato digital y que requiere de un ordenador para su visualización. A principios del milenio el debate sobre este tipo de contenidos estaba en auge, y no eran pocas las voces que auguraban la desaparición del libro impreso y la aparición de nuevos dispositivos portátiles para la lectura de libros electrónicos. A día de hoy sabemos que, de momento, esto no ha llegado a materializarse. ¿Supone esto el fracaso de los libros electrónicos? Pues ciertamente no, y es que aunque la tendencia esperada no se haya cumplido, el desarrollo de este tipo de contenidos ha encontrado un valioso aliado en la web. A día de hoy son muchas las editoriales y los agregadores que han incluido entre sus productos libros electrónicos, dirigidos principalmente al entorno académico [Alvite, 2006]. La aceptación de este tipo de contenidos no se ha hecho esperar, y desde 2004 hemos asistido a un lento pero continuado aumento de la venta de los contenidos electrónicos, con un aumento de las ventas en 2007 tras la llegada de "Kindle" el libro electrónico de Amazon.com, y a la espera del impacto que en este sector pueda suponer la consolidación en el mercado del iPad de Apple. Esto puede verse además reforzado por el hecho de que la web ha permitido la constitución de nuevas ofertas formativas (cursos, masters, e incluso carreras online), en las que los libros/contenidos electrónicos juegan un papel importante, más aún si tenemos en cuenta que los documentos en este formato empiezan a ser los preferidos por los estudiantes. En cuanto al acceso a estos contenidos, principalmente se realiza a través de plataformas creadas a tal efecto, y que, en el caso de las universidades, suelen depender de sus bibliotecas, o de asociaciones de varias de ellas. Las principales plataformas de este tipo son: 88


NetLibrary: es una división del OCLC Online Computer Library Center, institución sin ánimo de lucro dedicada a facilitar el acceso al mundo de la información y a reducir sus costes. NetLibrary posee un catálogo de libros, revistas, y obras de referencia electrónicas en continuo crecimiento, que en estos momentos supera los 140.000 títulos, con cientos de editores adscritos a esta iniciativa. Para acceder a estos contenidos es necesario formar parte de una biblioteca que esté registrada en este servicio. No es por tanto un servicio de acceso público. http://www.netlibrary.com/ Safari books online: es un portal que permite la búsqueda sobre el texto de las publicaciones de algunas de las editoriales más importantes (de ambitos tan diversos como la informática, las telecomunicaciones o la empresa), y especialmente de sus creadores: O'Reilly Media, Inc. y The Pearson Technology Group. Permite hacer búsquedas sobre libros, manuscritos, artículos en pdf, guías, y videos educativos. Desde su web podemos buscar, a través de una interfaz sencilla, tipo Google, los términos que describen nuestra necesidad de información y que el sistema buscará en el texto de los libros (también permite, a través de su opción de búsqueda avanzada, realizar consultas sobre el título de los libros, el título de los capítulos, por autor, editorial, ISBN, o en fragmentos de código de programación). Como resultados nos muestra el título del libro que satisface nuestra consulta, junto al fragmento de texto o código que hemos buscado. Además nos permite ordenar los resultados obtenidos bien por su relevancia para la consulta, bien por la popularidad de las obras recuperadas. Una vez seleccionado un libro, tenemos dos opciones, por un lado comprar su versión impresa, y por otro podremos leer su contenido online: su índice y prefacio completos, así como gran parte de su texto, aunque no todo, ya que nos lo impedirá a no ser que seamos usuarios registrados y tengamos contratado el servicio. http://my.safaribooksonline.com/ Ebrary.com: facilita la recuperación de libros, revistas e informes en formato electrónico mediante la búsqueda sobre el texto de los mismos, o también por su autor, editor, título o materia. Su búsqueda avanzada permite limitar nuestras consultas a una categoría de las que tiene como predefinidas, y especificar el nivel de exactitud o concordancia que establecemos para nuestra consulta, además podemos buscar contenidos en diferentes idiomas, entre ellos el castellano. Los resultados pueden ordenarse alfabéticamente por el autor, editor, título, o bien cronológicamente por la fecha de publicación del documento. Al seleccionar un documento podemos visualizar su contenido. Nos permite mantener una lista con nuestra propia lista de títulos favoritos. El pago del servicio se realiza sólo por aquella información consumida, es decir, sólo si deseamos imprimir o copiar una parte de un texto realizamos un pago, que además es muy reducido. Esto obliga a los usuarios que 89


quieran tener acceso a todos los contenidos a tener un crédito inicial de 5$. También se puede acceder y consultar una parte reducida de la colección de forma gratuita (20.000 ejemplares) o comprar el libro en formato impreso si así lo deseamos (facilita el enlace a las librerías online donde podemos conseguirlo). Para poder acceder a los contenidos es necesario instalar previamente una herramienta gratuita para la lectura de documentos electrónicos. http://shop.ebrary.com/

Amazon.com Antes de finalizar el apartado dedicado al libro electrónico es necesario hacer una mención muy especial a Amazon, probablemente la mayor y más importante librería online en internet ( http://www.amazon.com/Books/b?ie=UTF8&node=301731 ). Esta empresa facilita la búsqueda de miles de libros a través de su portal, búsquedas que se realizan no sólo en función del autor o título de las obras, sino también del texto completo de las mismas, permitiendo además ojear el contenido de éstas, así como las páginas donde aparecen los términos utilizados al formular nuestra consulta (todo ello a través de su opción “Search Inside”). Por tanto, la ingente cantidad de libros disponibles en Amazon, junto con la posibilidad de buscar en su texto y visualizarlo posteriormente, hace de este portal (y más concretamente de su sección para la búsqueda de libros) un auténtico y potente buscador del texto de libros impresos. No deberá despreciarse su uso en aquellos casos en que necesitemos encontrar fragmentos de textos, citas de alguna obra, o cualquier otra información que necesitemos y pueda estar impresa (no se ha de olvidar que Amazon reune en su colección tanto libros de ocio como importantes obras técnicas o especializadas de muy diferentes dominios).

5.2.

Buscadores del texto de libros impresos

Google búsqueda de libros: es el motor de búsqueda más potente para el hallazgo del texto de libros impresos, y prácticamente la única opción gratuita para la búsqueda de este tipo de contenidos en la web desde la desaparición de la versión web de A9 , el buscador de libros de Amazon.com, en 2009. "Google búsqueda de libros" recupera aquellos libros que tengan en su texto los términos de búsqueda. Una vez se obtienen los resultados, haciendo clic sobre el título de un libro obtendremos los datos básicos sobre el mismo, y podremos ver algunas de las partes del texto donde aparecen los términos de la consulta. Además, en aquellos casos en los que la editorial lo permita podrán verse algunas páginas completas de libro. Por último, cuando se trate de una obra no protegida por los derechos de autor, ésta podrá leerse por completo. Por tanto, como resultado de nuestras consultas podemos obtener: 90


 Que no hay vista previa disponible: obtenemos información básica sobre el libro.  Vista de fragmentos: permite ver algunas frases alrededor del término de búsqueda.  Vista previa restringida: permite ver algunas de las páginas del libro.  Vista completa: permite ver el texto completo del libro. En cuanto al origen de las fuentes consultables a través de Google búsqueda de libros (o Google Prints), proceden de: 1. Programa de afiliación para Google búsqueda de libros: es un programa de marketing dirigido a editoriales y autores de libros para que promocionen sus obras mostrando un número limitado de páginas de cada libro. 2. Proyecto para bibliotecas de Google búsqueda de libros: es un proyecto que permite incorporar las colecciones de algunas de las bibliotecas más importantes, mostrando información diversa sobre los libros de las mismas (información del catálogo, algunas páginas, o el texto completo cuando sea posible). El principal objetivo de este proyecto es facilitar la consulta y el acceso a la información de obras muy difíciles de encontrar, como pueden ser las descatalogadas. Entre las bibliotecas que colaboran con Google búsqueda de libros destacan: Biblioteca de la Universidad de Michigan, Biblioteca de la Universidad de Harvard, Biblioteca de la Universidad de Stanford, Biblioteca pública de Nueva York, y Biblioteca de la Universidad de Oxford. http://books.google.es/

5.3.

Otras iniciativas

Para terminar, a continuación se enumeran algunos recursos más de gran utilidad para realizar búsquedas sobre el texto de miles de libros impresos en unos casos, y en otros, para localizar y recuperar documentos electrónicos (si bien no buscando directamente sobre sus contenidos). Se reseñan sólo aquellas iniciativas que nos han parecido más importantes, y se invita al alumno a acceder a cada una de ellas y comprobar sus recursos. No obstante, debe tenerse en cuenta que en la web existen en este momento multitud de proyectos que ponen a disposición de los internautas, o de una comunidad concreta de ellos, gran cantidad de contenidos digitalizados. Las iniciativas que hemos creído conveniente destacar son las siguientes:  Project Gutenberg : fundado por Michael Hart, el proyecto Gutemberg fue la primera iniciativa puesta en marcha para hacer accesibles los libros 91


electrónicos a través de la web. Hoy es la colección más extensa de este tipo de contenidos, y continúa en aumento. Su interfaz de búsqueda permite sólo realizar consultas sobre el autor y el título de las obras, aunque en su búsqueda avanzada ofrece más opciones de consulta, entre ellas la posibilidad de buscar sobre el texto completo de las obras. Desde este sitio web podemos descargar miles de libros electrónicos y audiolibros (o audiobooks) en mp3. Permite la descarga de las obras en distintos formatos, y facilita software para la conversión de los libros electrónicos a un formato reproducible en las agendas electrónicas. Este proyecto se desarrolla sin ánimo de lucro, con el objetivo de promover la difusión y el acceso a la cultura. http://www.gutenberg.org/  The Online Books Page : este sitio web es una iniciativa que pretende promover el acceso a la cultura y que surge sin ánimo de lucro de la mano de John Mark Ockerbloom, un investigador de la universidad de Pensilvania (EEUU). En él se facilita el acceso a miles de obras digitalizadas sobre las que ya no pesan derechos de autor. Permite la búsqueda de los libros electrónicos sólo por autor, título y materia. http://digital.library.upenn.edu/books/

Conclusiones La búsqueda del texto de libros impresos se ha desarrollado con una intención eminentemente comercial. Casi la totalidad de las fuentes mencionadas permiten el acceso al texto completo de las obras de forma gratuita sólo cuando éstas no poseen derechos de autor. En los demás casos, la visualización de las mismas estará limitada a algunos fragmentos, y será necesaria la subscripción al servicio de consulta mediante pago, o la compra de la obra misma para poder acceder a todos sus contenidos. De hecho, en la mayoría de las ocasiones es ésta la intención que prevalece tras estas iniciativas, es decir, el uso comercial de estas herramientas de búsqueda. Por otro lado, y en relación al idioma de los motores de búsqueda y colecciones analizadas, se ha de señalar que de todas las fuentes presentadas, sólo Google búsqueda de libros dispone de interfaz en castellano y hace una búsqueda sobre extensas colecciones digitalizadas en esta lengua. El resto de herramientas presentan su interfaz en inglés, aunque podemos hacer nuestras búsquedas en castellano, ya que estos servicios contienen en muchas ocasiones versiones en castellano de las obras digitalizadas.

92


6. Buscadores de software Hoy la tecnología es una de las claves para el éxito de una institución. No obstante, conocer los programas que permiten agilizar y optimizar el desarrollo de nuestras tareas, no siempre es tarea fácil. A continuación se estudiarán los principales buscadores de software. Estos se presentan a modo de portales web, donde podemos localizar prácticamente la totalidad de los programas que necesitamos. Ahora bien, no debemos pensar que la importancia de estas herramientas radica sólo en la capacidad de localizar y descargar un software conocido, sino que podría afirmarse que su principal característica es la posibilidad que nos ofrecen de conocer y ojear las diferentes categorías de software que poseen, y en consecuencia la gran diversidad de programas existentes. Un estudio atento de estas categorías puede revelarnos herramientas que desconocemos y que pueden contribuir considerablemente a potenciar nuestro rendimiento personal e institucional. No obstante, para propiciar que el alumno obtenga el máximo rendimiento de estas herramientas, previamente se analizan cuáles son en este momento las principales licencias software en uso, para que una vez localicemos una aplicación de nuestro interés, sepamos en qué condiciones podemos utilizarla.

6.1.

Sobre el software y su uso

Cuando hablamos de software estamos haciendo referencia al “Conjunto de programas, instrucciones y reglas informáticas para ejecutar ciertas tareas en una computadora” (Diccionario de la Real Academia Española), o de un modo más sencillo, al conjunto de programas y aplicaciones que permiten el funcionamiento y nuestro trabajo en un ordenador. Antes de utilizar un programa es necesario conocer cuáles son sus condiciones de uso. Estas condiciones vienen determinadas por la licencia de los programas. La licencia de un programa establece los derechos y obligaciones tanto del creador del software como del usuario final. Podemos agrupar el software en dos categorías: 1. Software propietario 2. Software no propietario El software propietario es aquel, con frecuencia perteneciente a una marca comercial (como por ejemplo el sistema operativo Windows), cuya redistribución, modificación o copia están prohibidas (normalmente). Este tipo de software suele llevar asociada una 93


licencia comercial (que se conoce como EULA – End User License Agreement) , que establece un pago a la empresa desarrolladora del software por parte de los usuarios que quieran instalarlo y utilizarlo en su PC. Dentro de esta categoría encontramos también el software shareware . Este tipo de software está formado por los programas que se distribuyen gratuitamente como versiones de prueba o evaluación. Este software permite a su usuario la redistribución de copias del mismo aunque para hacer un uso continuado de él (normalmente este software se sirve en versiones de prueba de 30 días y/o con opciones limitadas) se tendrá que pagar. Son muchas las categorías de software que se agrupan bajo la denominación software no propietario . Las más importantes son:  Software libre : que hace especial énfasis en los aspectos morales o éticos del software, viendo la excelencia técnica como un producto secundario deseable de su estándar ético. Para los defensores de esta corriente lo importante es permitir el acceso al software a toda la humanidad, es decir, facilitar el progreso y el acceso a la tecnología en todo y a todo el mundo.  Software Open Source : ve la excelencia técnica como el objetivo prioritario, siendo la compartición del código fuente un medio para dicho fin. Es decir, en él lo que prima es la libertad para poder utilizar y mejorar un software o aplicación. Se trata de un movimiento que promueve la generación de software que facilite su código fuente de manera que cualquier usuario del mismo pueda reutilizarlo y mejorarlo.  CopyLeft : este tipo de software permite gratuitamente su utilización, copia y modificación, pero no permite limitar estas libertades a quienes hacen uso de él. Es decir, si mejoramos un software de este tipo, el resultado obtenido tendremos que distribuirlo forzosamente también como software CopyLeft.  Software de dominio público : es aquél que no está protegido con copyright y por tanto no requiere de licencia. Este software sería aquél cuyo autor lo dona a la humanidad o cuyos derechos de autor han expirado, pudiendo por tanto hacer uso de él cualquier persona, siempre que sea con fines legales y consignando su autoría original.  Software freeware : define un tipo de software que se distribuye gratuitamente y sin límite de tiempo. A veces incluye su código fuente para permitir su modificación y mejora, aunque no suele ser lo habitual. Sí permite su redistribución, aunque puede marcar algunas limitaciones, como por ejemplo prohibir su venta o desautorizar su uso con fines comerciales. Cuando 94


se habla de software “Gratis ” normalmente se está haciendo referencia a este tipo de programas. En cuanto a las licencias del software de tipo no propietario, no es fácil ubicarlas únicamente dentro de una u otra categoría, siendo por ejemplo muy común hallar licencias que reúnen a la par las cualidades especificadas por el “Software libre” y por el “Software Open Source”. La licencia no propietaria más conocida es GPL , o Licencia pública general GNU (= GNU General Public License). Esta licencia trata de proteger la libre distribución, modificación y uso del software. Una vez conocidos los diferentes tipos de software estamos en condiciones de iniciar el estudio de los principales buscadores para su localización. Comenzaremos por el estudio del buscador nacional más importante, Softonic (considerado también el mejor de Europa y, para algunos, el mejor del mundo). A continuación, estudiaremos Snapfiles, otro de los grandes buscadores a nivel internacional, y que destaca por la gran cantidad de programas que contiene en su base de datos. Para terminar, se describirán muy brevemente otros dos buscadores que merecen ser mencionados: CNET Download.com y Filehippo.

6.2.

Softonic

Softonic ( http://www.softonic.com ) es el portal de software más importante de Europa. A nivel internacional, su repositorio cuenta con más de 78.000 programas con una media de casi un millón de descargas diarias y 49 millones de visitas al mes. Para el caso de España, cuna y sede de esta compañía, las cifras son algo inferiores: 45.800 programas disponibles, 734.000 descargas diarias, y 36 millones de visitas al mes, datos que convierten a este portal en el líder indiscutible de nuestro país. Además, otorgan a Softonic el título de Web líder en audiencia según OJD (OJD es la división de INFORMACIÓN Y CONTROL DE PUBLICACIONES, S.A. que se encarga de prestar servicio de certificación de la audiencia/difusión de los medios en Internet).

El portal se organiza en torno a siete secciones principales (figura 1) y dos secciones

secundarias (blog y foros). Figura 1: Secciones principales de Softonic 95


Cada una de las secciones principales funciona como un subportal para la búsqueda y descarga de software. Pueden agruparse de la siguiente manera: 

  

Tres secciones dedicadas a los tres principales sistemas operativos de PC: Windows, Macintosh, y Linux. De este modo, el usuario sabrá a qué sección debe dirigirse para la descarga del software compatible con su sistema operativo. Dos secciones dedicadas a los dos principales sistemas operativos de las agendas electrónicas o PDAs (Personal Digital Assistant): Palm OS, y Pocket PC. Una sección dedicada a los teléfonos Móviles: proporciona acceso a multitud de programas para hacer de nuestro teléfono móvil un miniordenador. Una sección dedicada a Drivers: facilita la búsqueda y descarga de drivers, es decir, de los programas que permiten que nuestro sistema operativo se comunique y utilice dispositivos periféricos (como por ejemplo la impresora, el lector de DVDs, etc.).

Todas estas secciones organizan sus contenidos en diferentes apartados, como por ejemplo: Hoy en portada, Destacados, Novedades, Top Descargas, Top ventas, etc. que permiten el acceso directo a los programas. Además disponen de diferentes herramientas de búsqueda. La principal es el buscador, con una interfaz bastante sencilla, que podemos ver en la figura anterior (figura 1). Otra herramienta de búsqueda es un directorio que agrupa los programas de cada sección en torno a diferentes categorías (figura 2) y subcategorías, y que podremos ir navegando hasta encontrar el tipo de software y el programa concreto que deseamos.

Figura 2: Agrupamiento del software en torno a Categorías navegables 96


Por último, también permiten reutilizar las consultas más populares realizadas por los usuarios, que podemos visualizar a través de una nube de etiquetas (figura 3). Si alguna de las etiquetas mostradas encaja con nuestra necesidad bastará con hacer clic para obtener el conjunto de programas que se agrupan bajo ella.

Figura 3: Nube de etiquetas con las consultas más frecuentes

Una vez realizada la consulta, Softonic nos muestra una lista con el conjunto de programas obtenidos como resultado. El modo en que se presenta esta lista (figura 4) es una de las grandes virtudes de Softonic.

Figura 4: Lista de resultados obtenidos en Softonic

En ella, Softonic nos da, en primer lugar, la opción de visualizar todos los programas recuperados, o por el contrario sólo aquellos que son gratuitos (por defecto los muestra todos). También nos permite filtrar la lista de resultados quedándonos sólo con aquellos que están “En Español”, con aquellos que son “Gratis y en Español”, o sólo con el software compatible con el sistema operativo Windows 7.

97


En cuanto a la ordenación de los resultados, ésta puede hacerse en función de su relevancia para la consulta, en función de la fecha de creación de los programas (este último criterio es muy importante en esta materia, dado el alto grado de obsolescencia de las aplicaciones informáticas), en función del número de descargas totales de la aplicación, atendiendo al número de desacargas semanales que tiene el programa, en base a la valoración que hace del software Softonic, y por último en función de la valoración de los usuarios. De cada uno de los resultados de la lista también ofrece una completa información. Concretamente proporciona:  Una captura de pantalla de la aplicación  Título de la aplicación, que funciona como un enlace a información más exhaustiva sobre la aplicación  Tipo de licencia: Gratis, Evaluación, etc.  Fecha de inclusión del programa en Softonic  Número de descargas totales de la aplicación en Softonic, y número de descargas de la aplicación esta semana  Valoración del software que hace tanto Softonic, como los propios usuarios  Opiniones de los usuarios sobre el software  Opción de descarga del software Si seleccionamos uno de los resultados, Softonic nos da información extra del programa (figura 6), siendo la más destacable el análisis cualitativo que uno de los miembros de Softonic realiza. También permite ver más capturas de pantalla, valoraciones de los usuarios, etc. y, por supuesto, proceder a la descarga del software.

Figura 6: Información de un programa seleccionado

98


Por último, la descarga de los programas probablemente constituya uno de los puntos débiles de Softonic. Al seleccionarla nos ofrece tres opciones que pueden causar cierta confusión (figura 7).

Figura 7: Opciones de descarga

De estas opciones, la descarga gratuita (icono verde) es la que realmente no nos supone coste alguno, y se realiza desde la propia Web del propietario de la aplicación. Las otras dos opciones requieren pago, y sirven tanto para agilizar el tiempo de descarga como para garantizar a sus usuarios que las aplicaciones están libres de virus (aunque esto último es más una estrategia comercial que un problema real, ya que es muy improbable, realmente casi imposible, que se describa y evalúe un software con riesgo de introducirnos virus en nuestro PC).

6.3.

Snapfiles

Snapfiles ( http://www.snapfiles.com ) está considerado hoy el portal de software más importante de la Web. Tiene millones de usuarios repartidos por todo el mundo, y una exhaustiva política para la inclusión de software en su base de datos (sólo aquellas aplicaciones que superan una evaluación de calidad se incorporan). No obstante, presenta un gran inconveniente, que es la inclusión de software únicamente para el sistema operativo Windows. La distribución de sus contenidos difiere bastante de la de otros portales de software, como por ejemplo Softonic, considerándose una de sus grandes ventajas. Se caracteriza porque ya desde la página de inicio el usuario puede decidir realizar una consulta sobre todos los programas que recoge el portal, o bien acudir a una de las dos grandes secciones del portal (figura 8). La primera de ellas formada por el software gratuito o freeware, y la segunda por el software de prueba o shareware. De este modo, permite desde un primer momento filtrar los programas que no encajan con nuestras necesidades y no queremos consultar. Existe una tercera sección, denominada “Features” donde se recogen noticias de actualidad relacionadas con el software.

99


Figura 8: Secciones y buscador de Snapfiles

Además, está herramienta dispone de un interfaz de búsqueda avanzada (figura 9), que permite la consulta mediante el uso de operadores booleanos, pero que no es fácilmente accesible. Sólo cuando una consulta simple no devuelve resultados nos da acceso a ella (también puede accederse a través de un enlace poco visible “More”, entre cuyas opciones se lista la búsqueda avanzada).

Figura 9: Buscador avanzado de Snapfiles

Un aspecto muy positivo de este portal es el conjunto de categorías (figura 10) que utiliza para agrupar el software en las secciones mencionadas. Si accedemos a cualquiera de ellas, Shareware o Freeware, encontraremos un amplio listado de categorías, muy bien definido, que nos permitirá acceder a todas las aplicaciones que se agrupan bajo cada una de las etiquetas.

Figura 10. Categorías de navegación de las secciones Freeware y Shareware 100


Realizada una consulta, el listado de resultados obtenido (figura 11) es muy similar al de Softonic, aunque ofrece algo menos de información: captura de una pantalla del programa, nombre del programa (que enlaza con información extra sobre el mismo), una breve descripción, licencia, versión de Windows para la que está disponible, valoración de Snapfiles y valoración de los usuarios.

Figura 11: Lista de resultados de Snapfiles

Una vez seleccionado un resultado, Snapfiles ofrece alguna información extra sobre el mismo y la posibilidad de descarga (figura 12). Esta información resulta escasa si se compara con la facilitada por Softonic.

Figura 12: Información completa de un resultado en Snapfiles

En cuanto a la descarga de los programas, ésta sí que ofrece una ventaja frente a Softonic, ya que tras hacer clic esta opción (download) comienza de inmediato, sin la aparición de interfaces que confundan al usuario, ni opción de pago alguna.

6.4.

Otras fuentes de interés 101


A continuación se describen brevemente otros dos buscadores de software que merecen ser mencionados:

6.4.1. CNET Download.com CNET Download.com ( http://download.cnet.com/ ) es otro de los grandes buscadores a nivel internacional, su principal ventaja es su gran base de datos de software. Dispone de programas para Windows, Macintosh y dispositivos móviles.

6.4.2. FileHippo.com FileHippo.com ( http://www.filehippo.com ), aunque no es un repositorio especialmente grande de software, merece una atención especial por ofrecer a sus usuarios una aplicación que, instalada gratuitamente en nuestro PC, revisará todo nuestro software y nos dirá qué aplicaciones pueden actualizarse inmediatamente acudiendo a FileHippo.com. Además está disponible en castellano.

6.5.

Conclusiones

Se han estudiado los diferentes tipos de software que podemos encontrar y sus condiciones de uso, y se han analizado dos de las principales herramientas para la búsqueda y descarga de programas. Conviene recordar de nuevo que la principal ventaja que nos ofrecen estas herramientas es la de propiciar el seguimiento y adquisición de diferentes tipos de aplicaciones que pueden contribuir a la mejora de nuestro rendimiento.

102


7. Buscadores de noticias La progresiva popularización de Internet, y finalmente la consolidación de la denominada Web 2.0, caracterizada por su eminente orientación hacia el usuario y sus actividades sociales en la web, ha propiciado la presencia de la mayoría de los medios de comunicación en este entorno. Especialmente relevante ha sido el caso de la prensa escrita, que ha tenido que adaptarse rápidamente a este nuevo escenario para poder satisfacer las demandas de información de unos usuarios cada día más tecnificados. No obstante, una consecuencia inmediata de este hecho ha sido la aparición de los buscadores de noticias, unas herramientas que permiten la recuperación de noticias a partir de un gran número de fuentes (diarios, revistas, agencias de noticias, blogs, canales RSS, etc.) y que amenaza, aparentemente, el papel jugado hasta ahora por las empresas de comunicación como intermediarias entre la noticia y el lector final. A continuación se estudiarán los principales buscadores de noticias disponibles en la web, así como algunas de las alternativas existentes a ellos para la búsqueda de dichas noticias.

7.1.

Principales buscadores de noticias

7.1.1. Google Noticias España http://news.google.es/ Es un buscador de noticias publicadas en España de Google. Google dispone de más de 50 servicios como éste operando en distintos países (Estados Unidos, Reino Unido, Francia, Italia, Argentina, Colombia, Chile, Perú, Venezuela, etc.). De este manera, Google News facilita el acceso a noticias a través de internet que provienen de más de 25.000 fuentes de todo el mundo. Aquí analizaremos el buscador de noticias de Google que opera en España (Google Noticias España), pero que en cuanto a características y funcionalidades no difiere del resto de buscadores de noticias de Google. Google Noticias España recoge titulares de más de 700 fuentes de todo el mundo escritas en castellano, que agrupa en las siguientes secciones: En Portada (que nos permite escoger visualizar las noticias de portada de cualquiera de los países donde opera Google News), Internacional, España, Economía, Ciencia y tecnología, Espectáculos, Deportes, Salud, y Más popular (dónde se recogen las noticias más consultadas independientemente de su temática). El usuario de este portal puede acceder a las noticias que se presentan en cada una de sus secciones o bien realizar una consulta en su buscador. Las noticias que aparecen en cada sección son seleccionadas por Google de forma automática, en función de la frecuencia y de los sitios en que aparece una noticia. De este modo Google afirma que las noticias se escogen con independencia de ideología o 103


partido político alguno (si bien no señalan qué criterios siguen para escoger el sitio en el que buscan las noticias). En sus secciones Google nos muestra los titulares de las noticias y una breve descripción de las mismas. De cada noticia aparece el titular, la fuente y fecha del mismo, y una breve descripción de éste. A continuación aparecen varios enlaces a otras fuentes de información que tratan la misma noticia. Por último, encontramos un enlace que nos lleva a todos los artículos indexados relacionados con la noticia (figura 1). Para leer una noticia completa bastará con hacer clic sobre su título y ésta se abrirá en la página de su fuente original.

Figura 1: Ejemplo de enlace a una noticia económica en Google Noticias España

Además Google Noticias permite personalizar la información que facilita. Para ello pulsaremos el enlace que aparece en la parte superior derecha con el título “Editar esta página”. Se nos abrirá entonces una pestaña (figura 2) que nos permitirá crear secciones personalizadas (mediante la presentación de palabras clave que previamente hayamos seleccionado), la eliminación de secciones ya existentes, o la definición del número de titulares queremos ver en la página/sección, entre otras opciones.

Figura 2: Personalización de Google Noticias España

7.1.2. Google News Archive Search http://news.google.com/archivesearch

104


Se trata de una iniciativa de la edición de Google News de Estados Unidos, que permite consultar noticias de caracter histórico. Es una herramienta ideal para analizar la evolución histórica de determinados acontecimientos, personas o ideas. Este buscador ordena sus resultados atendiendo a la importancia histórica de los documentos recuperados. Para medir esa importancia se tiene en cuenta distintos aspectos, como la publicación en la que apareció el artículo, cuantas veces se ha citado el acontencimiento que describe, y quién lo ha citado. Una vez elegidos los términos de nuestra consulta podemos utilizar esta herramienta de dos modos distintos: 1. Si pulsamos el botón “Buscar archivos” (“Search Archives”): la aplicación recupera todos los artículos que contengan los términos de la consulta ordenados por su relevancia histórica e independientemente de su fecha. Una vez se muestran estos resultados pueden limitarse a diferentes periodos temporales si se desea. 2. Si por el contrario, una vez introducidos los términos de la consulta pulsamos el botón “Mostrar línea temporal” (“Show Timeline”) se nos muestran los resultados por orden cronológico, agrupados por fechas. Sólo se muestran algunas noticas de cada periodo o año. Al hacer clic sobre un periodo o año será cuando visualicemos todas las noticas que se ajustan a nuestra consulta en él. Los artículos seleccionados se abren en la página del noticiario que las produjo. El acceso a estos artículos puede o no estar sujeto a pago (los artículos muy antiguos y/o importantes suelen tener precio).

7.1.3. Yahoo! España Noticias http://es.noticias.yahoo.com/ Es el buscador de noticias de Yahoo!. Al igual que Google Noticias este servicio se presenta en un portal organizado en distintas secciones. No obstante, a diferencia de Google Noticias, estas secciones constan de distintas subsecciones que ayudan a organizar mejor su información. Éstas son:  Portada: Titulares, Especiales, Video/Audio, Fotos, Más populares, Entrevistas, Reportajes, Salud y Consumo.  España: Especiales, Sucesos, Local, ETA, Videos/Audio, Fotos, Más populares.  Política: Especiales, Video/Audio, Fotos, Más populares.  Mundo: Especiales, Europa, América Latina, EE.UU., Oriente Próximo, Asia, África, Videos/Audio, Fotos, Más populares. 105


 Sociedad: Especiales, Salud y Consumo, Videos/Audio, Fotos, Más populares, Perfiles destacados.  Corazón: Especiales, Estilo y Moda, Belleza, Videos/Audio, Fotos, Más populares, Perfiles de Famosos.  Economía: Especiales, Salud y Consumo, Videos/Audio, Fotos, Más populares.  Deportes: Especiales, Fotos, Más populares.  Tecnología: Especiales, Informática, Internet, Videos/Audio, Fotos, Más populares.  Ciencia: Especiales, Salud, Espacio, Medio Ambiente, Salud y Consumo, Videos/Audio, Fotos, Más populares.  Cultura: Especiales, Cine, Música, Videos/Audio, Fotos, Más populares.

Literatura,

Arte,

Agenda cultural,

 Insólitas: Fotos, Más populares. En cuanto al origen de los titulares de las noticias, por defecto, Yahoo! España Noticias ofrece sólo noticias de su propiedad, obtenidas a partir de diferentes agencias (EFE, Reuters, AFP, Europa Press, etc.) y que se visualizan en su propio portal. Al realizar una consulta utilizando su buscador es cuando podemos elegir si queremos que se haga sobre las fuentes de Yahoo! España Noticias (las agencias) (opción “Sólo noticias de Yahoo!”), o bien sobre todas las fuentes indexadas por Yahoo! España Noticias (opción “Todas las noticias”). En este último caso, una vez obtenidos los resultados, si seleccionamos uno procedente de una fuente externa se abrirá en la página de la dicha fuente original. Yahoo! también permite realizar consultas sobre las imágenes de las noticias (opción “Fotos de noticias”). Además, cuando realizamos una consulta normal (no en la sección de fotos mencionada) recupera tanto noticias en formato texto, como videos o imágenes. Además estas últimas no tienen porqué pertenecer a las noticias recuperadas (a diferencia de Google que sólo recupera las imágenes asociadas a las noticias recuperadas). En cuanto a la o rdenación de los resultados obtenidos, puede hacerse tanto por su relevancia para la consulta como por su fecha de publicación. Por último, y como servicios extra, Yahoo! España Noticias ofrece la posibilidad de suscribirse a contenidos sindicados (RSS). Concretamente, ofrece la posibilidad de suscribirse a la información que aparece en cada una de sus secciones, así como a especiales informativos (como por ejemplo: G-8, OTAN, o Irak).

106


7.1.4. MSN Noticias http://noticias.es.msn.com/ Es el servicio de búsqueda de noticias de Microsoft. Trata de imitar los servicios prestados por sus competidores Google Noticias y Yahoo! Noticias, no obstante aún se encuentra en un estadio de desarrollo que dista mucho del de sus dos rivales. Su portal estructura sus noticias en las siguientes secciones principales: Portada, España, Mundo, Local, Sucesos, Sociedad, Verde, Gay, Insolito, Video, El tiempo. Aunque en la página principal también podemos encontrar enlaces a secciones como "Entretenimiento" o "Deportes". Todos sus contenidos proceden de agencias como Europa Press, Associated Press o EFE. Suelen acompañar cada noticia con una imagen de la misma, aunque a menudo estas fotografía no se ven bien (aparecen sólo parcialmente o con poca calidad). Además, su buscador de noticias con frecuencia deja de funcionar correctamente. Además MSN Noticias dispone de un canal RSS, aunque no diferencia entre secciones para su suscripción. Todo esto hace presumir que Microsoft aún tiene un largo camino por delante si quiere estar al nivel de sus competidores más directos: Google y Yahoo!.

7.1.5. abastodenoticias.com http://www.abastodenoticias.com/ Es un buscador de titulares de noticias aparecidos en la prensa española o en prensa extranjera pero de interés para España. Dispone de opciones de búsqueda normal y avanzada. La búsqueda normal puede realizarse sobre noticias de hoy o sobre noticias de ayer y hoy. La búsqueda avanzada permite además buscar frases, así como introducir el nombre de la fuente o la sección en la que deseamos hacer la consulta. También permite buscar sólo aquellas noticas que tengan una determinada palabra o frase en su URL. Esta web va dirigida a webmasters y administradores de páginas web interesados en incorporar titulares de noticias en sus sitios o portales. Es una fuente que accede a más de diez mil titulares diarios, extraídos de diferentes periódicos y fuentes de información de España, que se actualizan continuamente. También ofrece boletines temáticos (más de 150) de suscripción gratuita mediante correo electrónico, así como 150 foros que permiten la participación libre de sus usuarios. Los creadores de este servicio señalan que la selección de los titulares que recoge no se hace atendiendo a su importancia, sino mediante un procesado automático. De este modo justifican que la selección de los titulares se realiza independientemente de tendencias políticas o 107


ideológicas, aunque no se menciona cuáles son los criterios que se siguen para la selección de las fuentes o la generación del ranking de los titulares de noticias. Este portal también permite el acceso a las noticias a través de más de 150 temáticas, que encontraremos en la página principal, bajo el buscador y la sección de titulares más recientes. Estos temas dan acceso a una gran cantidad de secciones y subsecciones en las que agrupan los titulares de noticias que recopilan. Sus principales secciones son: Actualidad, Local, Regional, Deportes, Tecnología, Sociedad, Cultura y ocio, Motor, Economía, Política, y Ciencia.

7.1.6. Wasa Live http://es.wasalive.com/ Es un buscador de titulares de noticias que recoge más de 295.000 fuentes, entre las que se incluyen medios de comunicación, blogs y foros. Este buscador tiene disponible su interfaz en siete idiomás: francés, inglés, alemán, español, italiano, ruso y polaco. Además recupera información en los formatos texto, imágenes y audio. También permite el seguimiento de una consulta mediante su suscripción RSS.

7.2.

Otros recursos de interés

Para terminar, vamos a enumerar algunas fuentes de información que permiten la búsqueda y acceso a noticias sin ser propiamente buscadores web. Concretamente se trata de:

7.2.1. Hemerotecas Digitales Son colecciones de noticias ya aparecidas que se conservan en formato digital y que permiten realizar búsquedas retrospectivas de determinados acontecimientos. Recientemente, muchos de los principales medios de comunicación están haciendo accesible estas noticias a través de la web. Ejemplos muy representativos son las hemerotecas digitales de:  El País (1976-) ( http://www.elpais.com/archivo/hemeroteca.html )  El Mundo (1994-) ( http://www.elmundo.es/papel/hemeroteca/ )  ABC (2002-) ( http://www.abc.es/hemeroteca )  La Voz de Galicia (2000-) ( http://www.lavozdegalicia.es/hemeroteca/index.htm )  20minutos (2005-) ( http://www.20minutos.es/archivo/ )  Biblioteca Virtual de Prensa Histórica ( http://prensahistorica.mcu.es ) 108


 Time (1923-) ( http://www.time.com/time/archive/ )  The New York Times (1981-) http://query.nytimes.com/search/query?srchst=nyt&&srcht=a&srchr=n )

(

 The New York Times http://query.nytimes.com/search/query?srchst=p )

(

(1851-1980)

7.2.2. Bases de datos de noticias online Son colecciones de noticias almacenadas de manera que se permita su búsqueda y recuperación de forma precisa. Este tipo de herramientas sólo facilitan el acceso a sus recursos previo pago en concepto de suscripción, aunque en ocasiones permiten la realización de consultas de forma gratuita, forzando a sus usuarios a pagar si quieren acceder a algún contenido concreto recuperado. Por su calidad y cobertura destacamos:  My News Online ( http://www.mynews.es/ ): es una de las principales bases de datos de noticias en España. Recopila las noticias publicadas por la prensa española (así como de los principales diarios extranjeros) a texto completo.  Lexis Nexis ( http://www.lexisnexis.com/news/ ): base de datos que recoge las noticias de los principales diarios internacionales.

7.2.3. Sistemas de seguimiento de prensa digital para la prestación de servicios personalizados Se trata de empresas que facilitan noticias a otras empresas o particulares en función de sus perfiles y necesidades. El principal objeto de estos servicios es suministrar a sus clientes toda aquella información disponible en la web relacionada con sus actividades, de manera que estos dispongan en todo momento, y de forma actualizada, de la información que les ayude en la toma de decisiones. Empresas dedicadas la prestación de estos servicios son:  iMente ( http://www.imente.com ) (España)  iConoce ( http://www.iconoce.com ) (España)  Moreover ( http://w.moreover.com ) (Internacional)

7.3.

Conclusiones

La progresiva mejora de los buscadores de noticias en la Web, de lo cuales son claros exponentes Google Noticias y Yahoo! Noticias, junto con la aparición de nuevos 109


servicios como son los sistemas de seguimiento de prensa digital para la prestación de servicios personalizados, está provocando un paulatino desplazamiento de los medios de comunicación tradicionales como fuentes de información primarias en la web. La consecuencia ha sido un enfrentamiento entre medios de comunicación y buscadores que en ocasiones ha llegado a los tribunales. Éste ha sido el caso de la prensa belga que tras denunciar a Google News ha conseguido que este buscador deje de indexar sus contenidos, alegando que reproducía y comunicaba públicamente obras protegidas por derechos de autor, y que por tanto solía podría indexarlas previo pago. En todo caso, ésta parece haber sido una batalla sin sentido, ya que cualquier propietario de un dominio en la web puede permitir o denegar la indexación de sus contenidos a los buscadores. Además, es más que cuestionable que no aparecer entre los resultados de buscadores de noticias como Google Noticias o Yahoo! Noticias sea una buena idea. Las consecuencias de este enfrentamiento no se han hecho esperar, y para evitar problemas en el futuro los principales buscadores de noticias han empezado a contratar las noticias directamente a las agencias. Esto otorga a los buscadores la propiedad sobre estas noticias que además pueden mostrar en sus propios portales sin necesidad de acudir a fuentes externas. Esta ha sido la política de Yahoo! Noticias que, por defecto, muestra sus propios contenidos y realiza las cosultas sobre ellos, siendo el usuario el que debe modificar esta opción si quiere acceder a las noticias de diferentes medios de comuniciación. De este modo, podemos ver como Yahoo! Noticias ha pasado de ocupar una posición de intermediario entre el usuario y los medios de comunicación, a transformarse en un medio por sí mismo (que además ha conseguido durante 2007 en EE UU muchas más visitas que diarios como el New York Times). El caso de Google Noticias es bastante peculiar, pues a pesar de haber sido denunciado y teniendo contratado además el servicio de diferentes agencias ha preferido mantener su buscador como hasta ahora, sin discriminar las noticias en función de su origen y redirigiendo a los usuarios a la fuente original una vez deciden visualizar una noticia en función de su titular. A esto hay que sumar que los buscadores están intentando hallar un modo de dar a las noticias que recuperan un valor añadido, una muestra de ello es la prueba que está realizando Google News EE.UU. permitiendo a sus usuarios añadir comentarios sobre las noticias, siempre y cuando estos usuarios tengan una vinculación con la misma. Tendremos que esperar para ver que ocurre en este escenario en el futuro, pero parece que estamos en un punto de inflexión en el que muchas novedades serán incorporadas a este dominio, en el que tanto los buscadores de noticias como los medios de comunicación tendrán mucho que decir.

110


8. Buscadores de precios El comercio electrónico adquiere cada día mayor popularidad entre los internautas. Poco a poco, la asimilación de la web como una parte de nuestra realidad ha permitido que las reticencias iniciales a realizar una compra de un producto que no podemos tocar, o en una tienda que no podemos ubicar físicamente, vayan desapareciendo. Además, los avances que en los últimos años se han producido en las tecnologías que garantizan el desarrollo de una compra online de forma segura, y la competitividad de los precios de las tiendas online frente a los precios de los comercios tradicionales, ha animado a muchos de los usuarios de la web a hacer uso de estos servicios de comercio electrónico. No obstante, el número de tiendas online ha crecido tanto que hoy para un usuario de la web es prácticamente imposible conocer cuál de ellas le ofrece las mejores condiciones de compra. El objetivo de los buscadores de precios es precisamente ayudar a sus usuarios a solucionar este problema. Estos buscadores, permiten desde sus portales buscar un producto con una única consulta, que será trasladada a las bases de datos de multitud de tiendas online, y obtener como resultado los precios y condiciones de compra que cada una de ellas ofrece. Los buscadores de precios ponen así a disposición de sus usuarios una herramienta que les permite valorar tanto el precio como las condiciones de compra que le son más ventajosas. A continuación vamos a estudiar algunos de los buscadores de precios más importantes que existen en la web. Se analizarán cuatro buscadores, de los cuales sólo uno presenta su interfaz en castellano. Esto se debe principalmente a que el nivel de compras online en nuestro país (e hispanoamérica) aún no es lo suficientemente significativo como para desarrollar portales dirigidos al público hispanohablante.

8.1.

BizRate

BizRate ( http://www.bizrate.com ) es un portal (en inglés) para la comparación y compra de pro ductos online. Está dirigido por Shopzilla, uno de los líderes e n la prestación de este tipo de servicios en Internet. El objetivo de BizRate es facilitar a los usuarios de la web la comparación y compra de cualquier artículo, vendido por cualquier tienda online en cualquier lugar del mundo. La búsqueda de los productos puede realizarse bien a través de su buscador, bien a través de las diferentes categorías de productos en que se organiza este portal.

111


Su buscador es muy sencillo (figura 1), y no posee opciones de búsqueda avanzada. Esto hace que su funcionamiento no sea muy satisfactorio cuando realizamos la búsqueda de productos específicos (como por ejemplo: Canon Digital IXUS 990 IS), pero sí eficaz cuando realizamos consultas más generales (como por ejemplo: digital cameras).

Figura 1: Interfaz de búsqueda de BizRate

Además de este buscador, en la página principal encontraremos otras dos formas de acceder a los productos:  A través de los "Departamentos" (menú superior izquierdo) y las subcategorías en que agrupan sus productos. Como por ejemplo: Electronics / Digital cameras.  Mediante la reutilización de las "consultas más populares", que aperecen también en la parte izquierda de la página principal bajo los "departamentos". Por tanto, la consulta de los precios de un producto puede realizarse tanto utilizando su buscador, como mediante la navegación de los diferentes menús de categorías del portal. Cuando realizamos una consulta en el buscador, si el producto no está descrito en Bizrate de un modo similar al de nuestra consulta, o simplemente no se encuentra dicho producto en su base de datos, nos devolverá una pantalla con los resultados de aquellos productos que en su nombre contengan alguno/s de los términos que hemos utilizado en la consulta, a los que Bizrate añadirá aquellos resultados que haya obtenido para nuestra consulta en la web (realmente en diferentes tiendas online). Si por el contrario el producto buscado se encuentra en la base de datos be Bizrate (figura 2), nos mostrará como resultado entradas compuestas por la imagen en miniatura de dicho producto, un encabezado con su nombre, la tienda en línea donde se encuentra el producto y su precio. De esta forma, al ojear la lista de resultados podemos conocer de forma aproximada los precios de un mismo producto en diferentes tiendas. Ahora bien, puede ocurrir que al realizar la consulta por el nombre de una cámara fotográfica también se recuperen resultados de complementos para este tipo de cámara, como baterías, trípodes, etc. Si queremos realizar la comparación 112


de precios para uno de los productos devueltos por nuestra consulta la mejor opción es hacer clic en el enlace "Compare Prices" que aparece en el resultado.

Figura 2: Ejemplo de los resultados obtenidos por BizRate

En caso de no encontrar un producto mediante el buscador, es aconsejable acudir a uno de los Departamentos y analizar sus categorías para redefinir nuestra consulta hasta encontrar el producto deseado. La búsqueda por Departamentos y categorías constituye una potente herramienta para la búsqueda especializada de los productos a los que da acceso este portal. Existen tres versiones de este portal en Europa, con diferentes interfaces (y en el caso frances incluso diferente nombre):  BizRate UK ( http://www.bizrate.co.uk/ )  BizRate France ( http://fr.bizrate.com/ )  BizRate Germany ( http://www.bizrate.de/ )

8.2.

Kelkoo

Kelkoo ( http://www.kelkoo.es/ ) es un buscador para la compra de productos online y una plataforma de marketing en español. Permite la búsqueda, comparación, y compra de multitud de productos a través de su buscador y sus menús de categorías. Su buscador es muy sencillo. Carece de opciones de búsqueda avanzada, aunque realizada una consulta, dispone de un sistema de recomendación de consultas que se activa cuando la búsqueda formulada por el usuario no se corresponde exactamente con algunos de sus productos. También permite la búsqueda de productos mediante una taxonomía de categorías que, gracias a sus subcategorías y filtros, constituye una potente herramienta de búsqueda especializada. 113


A continuación se ilustra el funcionamiento de este servicio con un ejemplo, concretamente la búsqueda de una PDA con teléfono móvil incorporado, aunque podríamos buscar cualquier otro producto (videocamaras, bolsos, etc). En el caso de la PDA tendríamos que hacer clic en el menú "Teléfonos" y a continuación sobre la categoría "Móviles libres y PDA's" (figura 3).

Figura 3: Una parte del menú de categorías de Kelkoo

La página obtenida contendrá el conjunto de resultados que se ajustan a la subcategoría seleccionada, apareciendo a su derecha un conjunto de filtros (figura 4) que nos ayudarán a buscar y seleccionar el producto que deseamos. En nuestro ejemplo, algunos de los filtros disponibles son: marca, precio, tipo de teléfono, etc.

Figura 4: Ejemplo de algunos de los filtros de Kelkoo

En cuanto a los resultados obtenidos por este buscador presentan (figura 5):

114


Figura 5: Ejemplo de los resultados obtenidos por Kelkoo

 Una imagen en miniatura del producto (en este caso de la PDA)  Nombre del producto y principales características  Comentarios del producto realizadas por expertos  Puntuación global del producto en su categoría  El intervalo de precios por el que puede adquirirse el producto  Un enlace que permite la comparación del precio del producto en diferentes tiendas online, con la posibilidad de acceder a la compra de éste en las mismas Además, una vez se selecciona el producto puede accederse a las especificaciones técnicas del mismo. Junto con estos dos sistemas (buscador y categorías) Kelkoo permite la consulta de productos mediante diferentes menús que permiten la búsqueda por: Marcas, Tiendas online, o temas (Especiales). Además, bajo su menú principal facilita el acceso a un interesante recurso: las “Guías de compra” (figura 6).

Figura 6: Guías de compra de Kelkoo

Las “Guías de compra” ofrecen información detallada sobre un tipo de producto (por ejemplo, Televisores Lcd). En ellas se informa a los usuarios de cuáles son los aspectos más importantes que se deben valorar a la hora de decidirse por uno u otro producto. 115


8.3.

Shopping.com

Shopping.com ( http://uk.shopping.com/ ) es una compañía del grupo eBay, pionera en los servicios de comparación de precios y con un índice de crecimiento bastante alto. Con sus servicios pone a disposición de los internautas millones de productos con valoraciones y comentarios de sus usuarios sobre los mismos. Su tecnología es empleada por otros portales también dedicados a la comparación de precios, como el popular DealTime ( http://www.dealtime.com ). La búsqueda de productos es muy similar a la de los anteriores buscadores de precios, y se realiza a través de un sencillo buscador y de diferentes menús de categorías. Los resultados de sus consultas presentan:  Una imagen en miniatura de cada producto  Una valoración que sobre el producto han hecho sus usuarios  El precio mínimo por el que puede adquirirse el producto, con un enlace a las diferentes tiendas online donde podemos comprarlo Sobre los resultados obtenidos pueden aplicarse diferentes filtros (precios, marcas, etc.) que permiten al usuario concretar las características del producto deseado. Su interfaz está en inglés y desde Europa este servicio nos redirige a la tienda de Reino Unido, que tiene el inconveniente de presentar los precios de los productos expresados en libras.

8.4.

Shopzilla

Shopzilla ( http://www.shopzilla.com/ ) es uno de los servicios para la búsqueda y comparación de precios más potentes de la web. En 2006 gestionaba ya casi 19 millones de usuarios según datos de ComScore. Al acceder a este servicio sorprende su interfaz, que difiere considerablemente de la presentada por el resto de sus competidores (figura 11). Adopta la forma de un buscador, con un campo de búsqueda sencillo (tipo Google) y con un reducido número de categorías. Su apariencia por tanto es más propia de un buscador que de un portal de compras online (no muestra imágenes de productos, los productos más comprados, novedades, ofertas, etc.).

116


Figura 11: Interfaz de Shopzilla

No obstante, también es muy fácil acceder a los productos a través de sus categorías (departamentos), que incluyen una detallada lista de subcategorías de sus productos. Los resultados obtenidos para una consulta presentan las características propias de estos servicios:  Una imagen en miniatura del producto  Valoración y comentarios realizados por los usuarios del producto  Precio mínimo por el que se ha encontrado el artículo en las tiendas online  Un enlace con el acceso a todas las tiendas online que ofrecen el producto en Shopzilla con sus respectivos precios para permitir la comparación Además, para delimitar más nuestra búsqueda podemos aplicar diferentes filtros (situados a la izquierda de la página de resultados) como: precio, marca, y multitud de características propias del producto consultado. La característica más importante de este buscador de precios es sin duda su sencillez. Su interfaz nada recargada, su tipografía de gran tamaño, sus colores de gran contraste, y la ausencia de imágenes y de aglomeraciones de enlaces a diferentes secciones, hacen que el uso de este servicio sea más sencillo para el usuarios “de a pie” de la web. Todo ello genera la sensación de estar ante un sistema más ágil a la hora de realizar las consultas y acceder a los productos deseados. Quizás por ello Shopzilla es hoy uno de los buscadores para la comparación de precios más importantes y potentes de todo el mundo.

8.5.

Conclusiones

Se han estudiado las características de algunos de los buscadores de precios más importantes de la web. Es significativo el hecho de que este tipo de buscadores ha optado por interfaces de consulta muy sencillos, en combinación con filtros que permiten, una vez obtenido un conjunto de resultados, depurar la lista de productos ofertados hasta obtener aquellos de interés para los usuarios. 117


Estos servicios han sabido así sacar el máximo partido a sus herramientas de búsqueda. Dado que dan acceso a multitud de productos con muy diferentes características han optado por la inclusión de un buscador sencillo que permite la consulta de todos ellos. Una vez identificados los productos que se ofrecen como resultado, se activan aquellos filtros aplicables al tipo de producto recuperado y comienza la fase de especialización de la consulta. Por otro lado, también se han aprendido algunas de las fuentes a las que se pueden acudir cuando sea necesario realizar una compra, y previamente se quiera conocer cuáles son las mejores ofertas que puede ofrecer la web.

118


9. Buscadores de diccionarios y enciclopedias Hasta la llegada de la web la consulta en formato electrónico (normalmente en CDRom) de diccionarios, enciclopedias y cualquier otra obra de referencia era un privilegio reservado casi exclusivamente a los entornos académicos (o a los usuarios más pudientes). Además, el limitado público que tenían estas fuentes no era su único inconveniente. La distribución de estas obras en formato CD-Rom hacía muy costosa, en tiempo y dinero, su actualización, lo que impedía disponer de una obra completamente actualizada. Hoy, la consolidación de la web y de las iniciativas que proclaman el acceso universal a la cultura, han propiciado la existencia de multitud de herramientas terminológicas (diccionarios, tesauros, traductores automáticos, etc.) y enciclopedias que ponen sus contenidos, total o parcialmente, a disposición de los internautas, y en ocasiones de forma gratuita. Obras online que además se mantienen continuamente actualizadas. A continuación se estudiarán muchas de estas fuentes, que se han seleccionado atendiendo tanto a su calidad como gratuidad (cuando es posible).

9.1.

Diccionarios

9.1.1. Diccionario de la Real Academia Española Este diccionario online ( http://buscon.rae.es/draeI/ ) basado en la 22ª edición del Diccionario de la Lengua Española , recoge el léxico de España y los países hispánicos, en una base de datos que, gracias a su naturaleza electrónica, se revisa con frecuencia a fin de que no quede tan obsoleta como la edición impresa. Así pues, para consultar cualquier duda sobre una palabra en castellano, podemos acudir a esta web que recoge la vigésima segunda edición del Diccionario de la Lengua Española. El vocablo se puede buscar por aproximación, por la palabra exacta, sin signos diacríticos, o por semejanza fonético-ortográfica. La estructura general de los artículos del diccionario es la siguiente:  Se transcribe la palabra, y en ocasiones su información etimológica (es decir, su origen, que en la figura 1 podemos ver en verde)  En segundo lugar aparece la acepción o acepciones numeradas (figura 1)

119


 Si las tiene, como el caso de la palabra "prisa", se incluyen formas complejas con su explicación correspondiente (figura 2):

Si encontramos al final de la definición un cuadratín y la abreviatura “V” (=véase), por ejemplo, en la definición de “repente”, estamos ante un “envío” que nos remite a otra entrada donde encontraremos la información que buscamos (figura 3).

Una herramienta que puede resultar de gran utilidad es el "Acceso rápido al Diccionario desde el navegador" que nos permite su consulta desde el navegador web que estemos utilizando. Podemos recurrir a la opción que prefiramos:  rae.es/palabra_que_desea_consultar  http://rae.es/palabra_que_desea_consultar  www.rae.es/palabra_que_desea_consultar  http://www.rae.es/palabra_que_desea_consultar

9.1.2. Diccionario panhispánico de dudas El Diccionario panhispánico de dudas ( http://buscon.rae.es/dpdI/ ) tiene como objetivo resolver las dudas más frecuentes que se plantean con el uso del español. A través de su versión electrónica podemos encontrar respuestas a cuestiones relativas a la ortografía, el léxico y la gramática. 120


Como ejemplo de búsqueda, puede introducirse la palabra “marketing”. Este diccionario nos remitirá al término “márquetin”, explicando que es la adaptación gráfica propuesta para el vocablo de origen inglés, y a continuación lo definirá. Seguidamente pondrá un ejemplo de uso en un artículo de un periódico de tirada nacional, y se recomendará el uso de “mercadotecnia”, que es el equivalente en castellano. Bajo el campo de búsqueda aparece el enlace “orientaciones para la búsqueda”. Si hacemos clic en él encontraremos sugerencias y directrices a tener en cuenta a la hora de realizar las búsquedas. Este diccionario está formado por cuatro secciones. Puede accederse a ellas a través de los enlaces que aparecen en la tabla que figura bajo el formulario de consulta. Estas secciones son:  Un diccionario compuesto de “Artículos temáticos” (aparece en la primera fila, tercera columna de la tabla). Contiene un listado organizado alfabéticamente de artículos que versan sobre cuestiones generales, como el uso de los signos de puntuación, la concordancia, el dequeísmo, etc.).  Apéndices (segunda fila, primera columna), sobre modelos de conjugación, abreviaturas, símbolos alfabetizables, símbolos, etc.  Un glosario de términos lingüísticos (segunda fila, segunda columna), que define los conceptos gramaticales utilizados en el diccionario.  Una relación de fuentes citadas (segunda fila, tercera columna), que se divide en 2 apartados: autores y obras, y publicaciones periódicas y portales electrónicos. Se podría decir que la principal diferencia entre el Diccionario de la Real Academia Española de la Lengua y el Diccionario panhispánico de dudas es que en el segundo se limita a explicar el uso más común de la palabra buscada sin incluir todas las acepciones, y se incluye una cita ilustrativa de su uso en la escritura.

9.1.3. WordReference.com WordReference ( http://www.wordreference.com/es/index.htm ) es una web que pone gratuitamente a disposición de sus usuarios 13 diccionarios: 10 diccionarios de idiomas (que cubren 5 idiomas diferentes), un diccionario para la búsqueda de definiciones de términos en español, un diccionario para la búsqueda de sinónimos de palabras en español, y un diccionario para la búsqueda de definiciones de términos en inglés. La búsqueda se puede llevar a cabo escribiendo una palabra y seleccionando la opción que deseemos del desplegable (figura 4), 121


Figura 4: Lista de los diccionarios disponibles en WordReference

Otra opción, es recurrir al formulario para la selección de diccionario y la búsqueda de palabras que aparece un poco más abajo del formulario de consulta inicial (figura 5).

Figura 5: Selección del diccionario en WordReference mediante formulario

Al realizar una búsqueda, por ejemplo del verbo “aprender” (si no seleccionamos ningún diccionario toma por defecto los diccionarios inglés-español y español-inglés) los resultados se presentan de la siguiente forma (figura 6):

122


123


Figura 6: Resultado obtenido en una consulta a WordReference

 Aparece el vocablo en negrita en la parte superior izquierda con un listado de opciones:  Definición: nos devuelve la definición en castellano de la palabra con sus acepciones y ejemplos de uso.  Sinónimos: enumera una serie de sinónimos y antónimos.  Conjugator / conjugador: se conjuga el verbo en todas sus formas verbales.  En Francés: traduce el vocablo al francés.  En Portugués: traduce el vocablo al portugués.  In context / en contexto, e images / imágenes: se abre una nueva ventana en nuestro navegador y aparecen los resultados de la búsqueda de esa palabra en Grupos de Google y Búsqueda Google de Imágenes.  Podemos escuchar la pronunciación haciendo clic el icono del altavoz que aparece junto al texto “Listen - España”.  Se nos informa de la categoría gramatical y el tipo de palabra que es (verbo transitivo).  Se indica cual es la traducción al inglés.  En el “Forum discussions with the word(s) “ aprender ” in the title” podemos encontrar un listado con diferentes foros en los que los usuarios registrados han formulado consultas relacionadas con el término “aprender”. Estas consultas son respondidas por otros usuarios (también registrados) y suelen resultar de gran ayuda, puesto que en ocasiones hacen referencia a usos muy específicos de la palabra, tales como en los ámbitos jurídico, científico o en el lenguaje vulgar.  Nos informa de las entradas en que la palabra “aprender” también aparece, tanto en castellano como en inglés. La web nos ofrece la posibilidad de añadir la búsqueda en WordReference a nuestra página principal de Google. Asimismo, realizada una consulta nos muestra, acompañando al resultado (a la izquierda), un listado de las palabras que preceden y siguen a la que hemos buscado. Además, si tenemos dudas sobre el significado de las abreviaturas, o los símbolos de pronunciación, las podemos aclarar haciendo clic los enlaces del menú “Links” que también aparecen a la izquierda de la página. 124


9.1.4. Babylon Babylon ( http://www.babylon.com/ ) posee una base de datos de 1500 glosarios en 75 idiomas, donde se incluyen 25 diccionarios profesionales. Esta web nos da la posibilidad de descargar gratuitamente una herramienta que nos permitirá, entre otras cosas, traducir directamente desde aplicaciones tales como Word, Outlook, etc. Si no estamos interesados en descargar la aplicación, podemos acceder a su diccionario online gratuito ( http://www.babylon.com/define ) donde, realizada una consulta, obtenemos como resultado:  Una definición para cada acepción de la palabra según el diccionario “Babylon English-English”.  La definición incluida en “Wikipedia English”, con diversos términos marcados como hipervínculos por si queremos ampliar información relativa a la palabra.  Un enlace que nos abre en una nueva ventana el artículo dedicado al término buscado en la Wikipedia. El inconveniente de este diccionario online es que su interfaz aparece sólo en inglés. No obstante, es capaz de identificar a qué idioma corresponde la palabra buscada, salvo que se trate de un término común a varios idiomas, por ejemplo, “internet”, que nos ofrecerá por defecto la definición en inglés. En cualquier caso, debajo del formulario de búsqueda podemos seleccionar el idioma (inglés, francés, alemán, italiano y español) en el que realizaremos la consulta. Además, y ésta es una las grandes ventajas de este diccionario, podemos elegir realizar la consulta sólo en los diccionarios especializados en una temática concreta, como por ejemplo en economía y finanzas, software, telecomunicaciones, etc.

9.1.5. Language Automation Inc. Este recurso online ( http://www.lai.com/lai/glossaries.html ) pertenece a una web de una empresa que ofrece servicios de traducción. Hemos creído conveniente incluirlo aquí porque podemos encontrar decenas de diccionarios de multitud de idiomas. La lista de los glosarios disponibles se presenta alfabéticamente, y bajo el epígrafe de “Spanish” podemos encontrar casi una treintena de estos, algunos de los cuales se centran en temas específicos tales como un diccionario Inglés-Español sobre Biblioteconomía y Documentación, un diccionario Inglés-Español sobre Informática, o un diccionario Alemán-Inglés-Español sobre términos comerciales-económicos. Su interfaz está en inglés.

125


9.1.6. Thesaurus.com Thesaurus.com ( http://thesaurus.reference.com/ ) es un portal muy completo donde podemos encontrar muchos y muy diferentes recursos lingüísticos, como un traductor online, un diccionario, enciclopedias, o juegos educativos. Si bien la interfaz está en inglés, puede resultar de utilidad como complemento a otras búsquedas, o para escuchar la pronunciación de las palabras (sin embargo, nótese que la transcripción fonética no se adapta al estándar internacional). La barra de búsqueda incorpora cinco pestañas para elegir si queremos que los resultados mostrados sean de un diccionario, de un tesauro, una definición enciclopédica, de un traductor automático, o los resultados que aparecen en la web (principalmente procedentes del buscador Ask). Actividad 1 : elija una palabra y búsquela en al menos dos de las webs-diccionarios que hemos visto y compare los resultados. Redacte su valoración (no más de 300 palabras) en cuanto a claridad de la definición, ejemplos, información adicional, etc.

9.2.

Enciclopedias

9.2.1. Wikipedia Wikipedia ( http://es.wikipedia.org/ ) es una enciclopedia libre plurilingüe basada en la tecnología wiki, cuyas entradas pueden ser modificadas o ampliadas por cualquiera de sus usuarios. Se está renovando y corrigiendo constantemente, lo que la hace merecedora de su popularidad junto con el hecho de ser de distribución gratuita. Sus orígenes se remontan a 2001, y sus creadores Jimbo Wales y Larry Sanger la idearon como complemento de la enciclopedia escrita por expertos Nupedia. Actualmente cuenta con más de 8 millones de artículos, superando los 2 millones en su edición en inglés. La edición en español ronda los 365.000 artículos (podemos acceder a las otras 236 ediciones activas de la Wikipedia a través de la dirección: http://wikipedia.org/ ). A pesar de que pudiera suscitar desconfianza el hecho de que sus autores sean voluntarios, los artículos están en su mayoría revisados y, además, la revista científica Nature declaró a la Wikipedia en inglés casi tan exacta como la enciclopedia Britannica. En cuanto a su consulta, ésta se realiza a través de un campo de búsqueda difícil de localizar y que se ubica en la parte izquierda, entre los menús de “navegación” y herramientas” (figura 7).

126


Figura 7: Barra de búsqueda de Wikipedia

Esta enciclopedia ofrece además otras opciones de búsqueda a través de diferentes índices y taxonomías de categorías (figura 8). De todos ellos el más útil e intuitivo es el denominado como “Portales temáticos”.

Figura 8: Menú de búsqueda avanzada y consultas

En general, los artículos recuperados incluyen:  Una definición, con algunas palabras relacionadas con el tema señaladas como hipervínculos, y que están descritas en otra entrada de la Wikipedia  Fotografías y/o gráficos ilustrativos de la temática buscada  Una tabla de los contenidos que se desarrollan en el resto del artículo  Referencias  Véase también: enlaces a artículos relacionados de alguna forma con la palabra de nuestro interés  Enlaces externos  Las categorías en las que aparece y se clasifica este término 127


Además, en la portada encontraremos una lista completa de todos los idiomas en los que está editada la Wikipedia, artículos destacados, imágenes del día, y curiosidades en la sección “¿Sabías que...?”.

9.2.2. Enciclopedia Britannica La Enciclopedia Britannica ( http://www.britannica.com/ ) es una de las obras de referencia en inglés de mayor calidad. Tiene carácter multidisciplinar, y junto con sus reputados artículos (más de 73.000) incluye biografías, atlas, calendarios de hechos o acontecimientos destacados, contenido multimedia, artículos y titulares de noticias. Permite la realización de consultas a través de un sencillo interfaz de consulta, así como el acceso a artículos destacados a través de diferentes categorías temáticas. En cualquier caso, y a pesar de permitir el acceso a una gran cantidad de contenidos de forma gratuita, esta enciclopedia reserva el acceso a contenidos y diversos servicios para sus usuarios suscritos (de pago). No obstante, se puede disfrutar durante un mes de todos sus contenidos solicitando una suscripción de prueba gratuita.

9.2.3. Enciclopedia Libre Universal en español La Enciclopedia Libre Universal en Español ( http://enciclopedia.us.es/ ), es un proyecto colaborativo que pretende desarrollar a través de Internet una enciclopedia libre y gratuita en español, donde se puede colaborar elaborando nuevos artículos o ampliando los existentes. De esta forma, se asemeja al objetivo de la Wikipedia, siendo muy parecida a ésta también en la apariencia de su interfaz. Esta enciclopedia incorpora más de 10.000 imágenes y 45.000 artículos que se pueden consultar a través de su buscador (idéntico al de la Wikipedia).

9.2.4. Enciclonet Enciclonet ( http://www.enciclonet.com/portada ) es una importante base de datos online de artículos de enciclopedia. Está compuesta por más de 180.000 documentos de todas las áreas del conocimiento. Las consultas se pueden hacer accediendo a la página e introduciendo el término en la barra de búsqueda. No obstante, para tener acceso a todos sus contenidos y a ciertos servicios deberá suscribirse (mediante pago).

9.2.5. Océano Océano ( http://ocenet.oceano.com/Saber/login.jsp ) es un portal que proporciona acceso a información de diferentes dominios mediante suscripción. Sus recursos van dirigidos principalmente a bibliotecas, escuelas, e instituciones públicas o privadas que deseen facilitar el acceso a sus usuarios a estos contenidos. Todos sus recursos poseen 128


una completa interfaz de búsqueda. Además, para la selección de sus contenidos acuden tanto a las obras de referencia de cada uno de los dominios tratados, como a las últimas publicaciones aparecidas en estos. Permite la suscripción a ocho tipos de fuentes:  OCEANO Saber: específicamente desarrollado para bibliotecas, contiene más de 200.000 artículos a texto completo en español.  OCEANO Universitas: herramienta de referencia y apoyo al aprendizaje, especialmente desarrollada para estudiantes de primer ciclo universitario. Dispone de una amplia cobertura temática y está en lengua castellana.  OCEANO Administración de empresas: con contenidos específicos de economía y administración de empresas, aporta tanto información de referencia como elementos prácticos. Así mismo, ofrece una visión de la realidad económica mundial.  OCEANO Medicina y Salud: va dirigido a los estudiantes de ciencias de la salud y a los profesionales de la medicina. Es una herramienta de apoyo al aprendizaje, a la vez que una fuente de recursos para el trabajo diario. También incorpora información para el paciente.  OCEANO Escolar: proporciona recursos útiles para contribuir a la mejora del proceso de aprendizaje de los estudiantes. Se trata tanto de una herramienta de apoyo a la biblioteca escolar como de una ayuda para las actividades de clase.  OCEANO Salus: recoge más de 10.000 artículos de divulgación y prevención sobre salud, nutrición y educación.  OCEANO Aula de padres: que facilita información sobre el cuidado y la educación de los hijos.  OCEANO Diccionarios: con más de 350.000 entradas de diccionarios de Español, diccionarios de sinónimos y antónimos, y diccionarios bilingües de inglés, francés, alemán, y portugues.

9.3.

Otras obras de referencia

9.3.1. Biografías y Vidas En esta web ( http://www.biografiasyvidas.com/ ) podemos acceder a miles de biografías de personajes famosos históricos y actuales. Cuenta con secciones dedicadas a monografías, reportajes, y novedades (con las últimas biografías 129


publicadas). Como resultado a nuestras búsquedas encontramos la biografía, cronología, fotos y videos (si los hubiera) del personaje en cuestión.

9.3.2. Corpus de referencia del español actual (CREA) El Corpus de Referencia del Español Actual (CREA) ( http://corpus.rae.es/creanet.html ) está compuesto por numerosos textos, tanto escritos como orales, procedentes de distintas fuentes consideradas como referentes en el uso del español. Permite consultar información sobre los significados de las palabras que contienen dichos textos y sobre el contexto de los mismos. Para poder abarcar el máximo número de variedades lingüísticas, se han introducido más de 160 millones de entradas, generadas desde 1975 hasta hoy día. De esa ingente cantidad, el 90% corresponde a la lengua escrita y el resto a la lengua oral, y a su vez, el 50% se genera en España, y el 50% en América. En el CREA se pueden realizar búsquedas por modelos de combinaciones de palabras, comprobar frecuencias de aparición, ver ejemplos de uso de palabras y expresiones, etc. El CREA constituye una herramienta lingüística que puede ser de utilidad en el mundo de la publicidad, para desarrollos informáticos de traducción automática, etc.

9.3.3. Corpus Diacrónico del Español (CORDE) El corpus diacrónico del español (CORDE) ( http://corpus.rae.es/cordenet.html ) complementa al CREA, puesto que recoge textos escritos de gran variedad de géneros, de todos los lugares y épocas en que se habló español hasta 1975. La finalidad de este corpus es analizar a través del tiempo, el uso de las palabras y la gramática española. Actualmente cuenta con 250 millones de registros.

9.3.4. Base de datos de libros editados en España Esta base de datos ( http://www.mcu.es/webISBN/tituloSimpleFilter.do;jsessionid=E66FB39F9FC914212B3 E3A3DD3F24BF7?cache=init&prev_layout=busquedaisbn&layout=busquedaisbn&lang uage=es ) contiene más de 900.000 referencias de ediciones en castellano, catalán, gallego y euskera, e incluye los datos de todas las publicaciones editadas en España desde 1972. Su interfaz de búsqueda sencilla permite consultar las obras por ISBN o palabras clave, y ordenar los resultados obtenidos por: autor, fecha de edición, o título. Si realizamos una consulta utilizando el ISBN debemos tener presente lo siguiente:  El ISBN -International Standard Book Number- o número normalizado internacional de libro, es un número creado para dotar a cada libro de un código numérico que lo identifique. 130


 Hasta el año 2006, el ISBN estaba compuesto por 10 dígitos, pero a partir del 1 de enero de 2007 el nuevo ISBN se compone de 13. Los tres dígitos añadidos se colocan al comienzo y constituyen un identificador comercial. De manera que podremos realizar la búsqueda tanto introduciendo el ISBN de diez dígitos (ISBN 10) como el de trece dígitos (ISBN 13). Si queremos restringir aún más nuestra consulta podemos recurrir a la búsqueda avanzada, que nos permite buscar conjuntamente por los campos autor, título, colección, editorial, y materia, utilizando con ellos operadores boolenos (y, o, no). También permite la consulta mediante el uso del ISBN, y atendiendo al lugar y fecha de publicación. Además, permite ordenar los resultados obtenidos por: autor título y fecha de edición. Así pues, si en la búsqueda simple introducimos un título como “La catedral del mar” sin aplicar ningún filtro, nos aparecen cuatro resultados (figura 9):

Figura 9: Ejemplo de búsqueda en la Base de datos de libros editados en España

 El primero corresponde a Santa María del Mar, catedral de la Ribera de Francesc Tort i Mitjans, editado en el año 1990 por la editorial Fundación Uriach 1838. Podemos hacer clic en el ISBN 13 (aunque se incluyen los dos ISBN) o el título del libro y nos muestra una página con todos los datos del libro: lengua de publicación, encuadernación, materias, precio, etc. En cambio, si seguimos el hipervínculo de la editorial, nos proporciona información sobre 131


los ISBN tramitados, la dirección, la provincia, etc. además de un enlace a las colecciones y los títulos editados por esta editorial.  Los otros tres pertenecen al libro La catedral del mar de Ildefonso Falcones, y cada registro corresponde a una edición distinta, dos de la editorial Grijalbo, y una de Círculo de Lectores, S.A. (nótese que cada una tiene un ISBN distinto a pesar de tratarse del mismo título y del mismo autor).

9.4.

Conclusiones

Son muchas y muy diferentes las fuentes analizadas. Con su estudio se ha pretendido dotar al alumno de un conjunto de herramientas cuya consulta, normalmente de forma puntual, puede contribuir a mejorar el desarrollo de nuestras labores. La traducción de textos de un idioma a otro, la búsqueda del significado de un término, la consulta de su ortografía, la búsqueda de información para la contextualización una materia tratada en un informe, etc. son tareas que estas herramientas contribuyen a realizar.

132


10.

Buscadores de mapas

En los últimos años hemos asistido a una auténtica guerra comercial en el ámbito de la recuperación de información. Los principales agentes (especialmente los buscadores) involucrados en este dominio no han parado de luchar por conseguir el predominio en la búsqueda y recuperación de cualquier tipo de información. De esta manera, el interés de estas empresas ya no se centra sólo en la recuperación de información textual, sino que progresivamente se ha ido extendiendo a otras materias, como pueden ser los blogs, imágenes, o videos. Recientemente esta batalla se ha trasladado también a la búsqueda de mapas, debido a la gran aceptación que han tenido estas aplicaciones por parte de los internautas, y la multitud de servicios con los que se relaciona (hostelería, restauración, agencias de viajes, etc.). Los buscadores de mapas se han convertido así en uno de los objetivos claves de estas empresas, que ven en ellos un negocio prometedor. A continuación estudiaremos los principales motores de búsqueda existentes en este momento, prestando especial atención a los más populares: Google Maps, Yahoo! Mapas, y Bing Maps (Beta). Para finalizar, estudiaremos otras dos iniciativas de gran interés: Bing Maps Platform, y Vía Michelín (esta última con servicios y contenidos de calidad, al menos, equiparable a los de Google, Yahoo!, y Bing).

10.1. Google Maps Google Maps ( http://maps.google.es/) : es el buscador de mapas más potente de la web. Permite encontrar una localización concreta en mapas de todo el mundo, visualizar las empresas (hoteles, tiendas, etc.) próxima a ellas, o acceder a los comentarios que algún otro usuario ha hecho sobre dicha localización (figura 1).

133


Figura 1: Buscar en el mapa

Otra opción muy interesante que presenta es “Como llegar”, que aparece como un enlace en la parte superior izquierda. Esta herramienta, dada una dirección de origen y otra de destino, nos facilita la mejor ruta entre ambas, como si de un GPS se tratase (indicándonos en qué calles hemos de girar, qué carreteras hemos de seguir, etc.). Podemos establecer que la ruta sea para hacerla a pie o en coche. En este último caso, además puede indicarse si deseamos o no hacer uso de autopistas. Además si la ruta ofrecida no es de nuestro agrado, podemos modificarla manipulando la señal/línea que representa la ruta en pantalla (en la figura 2 la línea púrpura más gruesa que puede verse), y moviéndola en el mapa hacia aquellos puntos por los que deseamos pasar (o alejándola de aquellos puntos que queremos evitar). También permite establecer nuevas rutas a partir de cada destino. Es decir, podemos fijar un recorrido con un trazado que tenga sucesivas paradas en distintos lugares. Además nos da toda la información para hacer la ruta invertida con un solo clic de ratón sobre el icono que aparece junto a los formularios de origen y destino, y que representa la opción “Obtener rutas invertidas”.

134


Figura 2: Cómo llegar

Los mapas pueden visualizarse en tres formatos distintos, que podemos elegir en la parte superior derecha del mapa. La primera de las opciones se denomina sencillamente “Mapa” (figura 3) y presenta el trazado de carreteras y calles que estamos acostumbrados a encontrar en los mapas de carretera o callejeros tradicionales.

Figura 3: Vista de tipo “Mapa”

El segundo tipo de visualización se denomina “Satélite” (figura 4), y nos muestra un mapa híbrido que combina elementos de las fotografías vía satélite (de calles, plazas, etc.) con elementos de un mapa normal (introduce en las fotografías el nombre de las calles, etc.).

135


Figura 4: Vista de tipo “Satélite”

Por último, la tercera opción se denomina “Earth” (figura 5), y al seleccionarla nos muestra en pantalla un mapa en tres dimensiones las fotografías vía satélite. Esta opción reproduce el modo de visión que obtenemos con la aplicación Google Earth.

Figura 5: Vista de tipo “Earth”

El desplazamiento a través del mapa podemos hacerlo de dos modos: 1. Utilizando las flechas de desplazamiento que aparecen en la parte superior izquierda del mapa (flechas que indican las posiciones:arriba, abajo, izquierda y derecha). 2. Moviéndonos con el ratón, para lo cual será necesario pulsar el botón izquierdo del ratón y, manteniéndolo así pulsado, desplazar éste sobre el mapa La resolución de los mapas también puede modificarse, para ello se utilizará la barra vertical que aparece bajo las flechas de desplazamiento en la esquina superior izquierda. La resolución máxima alcanzable variará de unos lugares a otros, pero suele ser tan alta que fácilmente podemos pasar de la visualización del mapa de un país a ver el callejero de cualquiera de sus ciudades o pueblos (tanto es así, que si se habilita la visión de “Satélite” es muy posible que pueda localizar su vivienda con este sistema – obsérvese que en la figura 6 es fácil discernir los coches y árboles próximos a la localización buscada, o en la figura 7, donde podemos ver con claridad la Gran Piramide de Keops en El Cairo).

136


Figura 6: Utilización del zoom de Google Maps sobre una localización concreta

Figura 7: Gran Pirámide de Keops (zoom de Google Maps)

Por último, es necesario mencionar una nueva funcionalidad que Google Maps ha añadido en los mapas de las principales ciudades del mundo, se trata de la “Street View” (o vista de calle). Esta opción la encontraremos presente en el recuadro de dirección una vez buscada una localización (véase la figura 8).

137


Figura 8: Enlace de acceso a la opción “Street View”

Si hacemos clic en este enlace visualizaremos la dirección buscada como si realmente estuviéramos en ella (figura 9), y además podremos desplazarnos por las calles manteniendo una visión total de 360º. No obstante, hemos de recordar que la opción “Street View” sólo está disponible para algunas ciudades, y en éstas no para todas sus calles.

Figura 9: Vista de tipo “Street View”

Mis mapas Si disponemos de una cuenta de Gmail, Google Maps nos permite acceder como usuarios registrados, personalizar un mapa o localización y guardarlo de manera que su uso sea privado o público (según nuestra preferencia). A continuación se muestra un mapa personalizado (figura 10):

138


Figura 10: Ejemplo de un mapa personalizado Este mapa representa una parte de la ciudad en la que viví durante mi niñez. En él se han incorporado los diferentes elementos que permite añadir Google Maps a un mapa, concretamente: 1. el dibujo de formas (en este caso correspondería a la zona sombreada en azul y que marcaría mi antiguo barrio); 2. Marcas de posición: son los dos punteros que aparecen en el mapa, uno dentro del sombreado y otro fuera de él (y que corresponderían al lugar donde se hallaban respectivamente mi casa y colegio); 3. Líneas: que en este caso se han utilizado para unir las dos marcas de posición anteriores (simbolizan el camino que hacía de casa al colegio). En la parte superior izquierda del mapa, como puede verse en la figura 10, aparecen todos estos elementos. Al hacer clic sobre cada uno de ellos se abrirá un cuadro de diálogo con su título y descripción. Además en el caso de las líneas, nos indicará la distancia en metros entre los puntos seleccionados. Estos mapas podemos guardarlos en ficheros KML (Keyhole Markup Language), un formato XML desarrollado para Google Earth que permite describir datos geográficos en tres dimensiones (título, descripción del lugar, coordenadas, etc.). También podemos utilizar los mapas creados por otros usuarios de Google Maps (si han sido puestos a disposición pública), e incluso añadir contenidos extra a los mismos como pueden ser la posición (latitud y longitud), el tiempo, información del tráfico, herramientas para la medición de distancias, etc. Estas herramientas pueden seleccionarse a partir del enlace “Añadir contenido” que aparece en la pestaña “Mis mapas” del margen izquierdo de la página de Google Maps. Estas son las características principales de Google Maps, no obstante ofrece muchas más, como pueden ser: la visualización de algunos lugares a través de webcams; la 139


búsqueda (e incluso reserva) de hoteles en una ciudad; y muchas otras que pueden añadirse a este buscador para personalizarlo.

10.2. Yahoo! Mapas Yahoo! Mapas ( http://espanol.maps.yahoo.com ) es un buscador dirigido principalmente a conductores. Su página inicial nos ofrece un campo de búsqueda doble (figura 11) para indicar una dirección de origen y otra de destino, aunque, si lo deseamos, podemos utilizar sólo uno de ellos para buscar una localización específica. No obstante, una vez obtenida esa localización el zoom que podemos hacer sobre una zona del mapa es mucho menor que el que facilita Google Maps. Esta diferencia es especialmente notable cuando visualizamos el mapa en el modo híbrido y satélite (Yahoo! Mapas dispone de los mismos tipos de visualización que posee Google Maps: Mapa, Híbrido y Satélite -- a excepción de la visualización en 3D de Google Earth). Además incorpora un formulario de consulta adicional para la búsqueda de negocios próximos a la localización dada.

Figura 11: Página de incio de Yahoo! Mapas

Al buscar una ruta este buscador se comporta igual que lo hace un GPS, indicándonos (figura 12) en la parte izquierda de la pantalla las calles que hemos de seguir, los puntos en los que hemos de girar, o a qué carreteras hemos de incorporarnos. Las rutas pueden establecerse entre dos o más puntos de un mapa. Además podemos solicitar una ruta de ida y otra de vuelta, o pedir que directamente nos facilite una ruta que nos valga tanto para ir como para volver. Al igual que Google Maps, nos indica la distancia entre los puntos marcados y el tiempo estimado que se tarda en recorrer la ruta.

140


Figura 12: Especificación de una ruta con Yahoo! Mapas

Una vez escogida una ruta o localización Yahoo! Mapas nos ofrece cuatro opciones muy interesantes (figura 13): 1. La visualización del mapa de modo que sea fácilmente imprimible; 2. Enviarnos el mapa a una dirección de correo electrónico o a nuestro teléfono móvil; 3. Guardar el mapa; 4. Visualizar el tráfico en vivo en una zona (esta opción no suele funcionar).

Figura 13: Opciones de Yahoo! Mapas

Por último, sorprende que los servicios disponibles en Yahoo! Mapas para usuarios registrados y usuarios no registrados sean los mismos.

10.3. Bing Maps En el último año Bing ha puesto a disposición de sus usuarios su buscador de mapas: Bing Maps ( http://www.bing.com/maps/ ). El inconveniente que presenta es que aún no está disponible en castellano. En cuanto a su funcionalidad, se trata de una versión Beta que, desafortunademente, produce algunos errores al realizar las consultas. al igual que Google y Yahoo!, dispone de tres tipos de vista: calle, aérea, y vista de pájaro. 141


Las vistas de “calle” y “aérea” no suponen una ventaja con respecto a las vistas de sus competidores, aunque sí es interesante explorar la opción “vista de pájaro” (figura 14).

Figura 14: Vista de tipo “Vista de pájaro”

El resto de opciones son parecidas a las de Yahoo! Mapas y Google Maps, y aunque esta herramienta se encuentra en un estado incipiente de desarrollo, en el futuro podría ser un digno competidor de Google Maps.

10.4. Otras opciones para la búsqueda de mapas Google Maps y Yahoo! Mapas son en este momento los servicios online más populares para la búsqueda de mapas. No obstante, también podemos encontrar otras iniciativas que merecen ser señaladas.

10.4.1. Bing Maps Platform La orientación de esta iniciativa de Microsoft ( http://www.microsoft.com/maps/ ) es bien distinta a las anteriores. Está dirigida a un público empresarial, y concretamente a aquellas organizaciones que quieran incorporar mapas en sus sitios web. Microsoft define a este producto como una plataforma para la localización y búsqueda de imágenes y mapas. Entre sus funcionalidades destacan la posibilidad de editar los mapas, así como la de construir mapas propios en tres dimensiones. Este software pretende dar solución, entre otros, a algunos de los siguientes problemas:  Facilitar la visualización de la ubicación de ciertas localizaciones (como pueden ser tiendas, almacenes, sucursales, etc.)  Visualización de datos sobre un mapa. Virtual Earth permite vincular un punto geográfico con un conjunto de datos de una base de datos.

142


 El desarrollo de mapas para portales web que faciliten determinada información a sus usuarios.  Servicios de localización móvil: para rutas en carretera, rutas aéreas, etc.  Virtual Earth también puede ser integrado con centralitas telefónicas, facilitando infomación específica sobre las llamadas (localización del lugar desde el que se realiza la llamada, etc.).  Desarrollo de rutas comerciales para el transporte de mercancías.  etc. A continuación vemos (figura 15) la aplicación que ha hecho el fabricante de motos Harley-Davidson de esta tecnología. Concretamente ha instalado en su web (en la versión americana) un “Explorador de Grandes Rutas”. Básicamente se trata de una aplicación que informa de manera muy completa sobre las mejores rutas que se pueden hacer en moto en Estados Unidos. Además facilita información sobre los talleres más cercanos de Harley-Davidson a esas rutas y también sobre los hoteles/hostales en los que se puede descansar. De cada ruta ofrece una completa información: valoración de la misma (en función de la opinión de otros moteros); la mejor fecha para realizarla; frecuencia con que pueden encontrarse gasolineras; clima habitual; tipo de recorrido (con muchas curvas, recto, etc.); tráfico (abundante, moderado, etc.); desgaste de los neumáticos; lugares más interesantes para visitar; comentarios y consejos de moteros que ya han hecho la ruta; fotos; etc. En conclusión, multitud de información para todos aquellos que quieran seguir estas rutas en una motocicleta (http://rideplanner.harley-davidson.com/rideplanner/).

Figura 15: Bing Maps Platform utilizada por Harley-Davidson

143


10.4.2. Vía Michelín Vía Michelín ( http://www.viamichelin.es/ ) es un potente buscador de mapas dirigido principlamente a conductores. Permite buscar una localización específica en mapas y planos, y una vez obtenida ofrece diferentes opciones:  Obtener más información sobre la dirección introducida (básicamente una descripción de la ciudad e información meteorológica de la misma).  Enviar esa dirección a nuestro GPS.  Si somos usuarios registrados, añadir esa dirección a nuestra cuenta.  Iniciar un itinerario o ruta con esa dirección. Además, si lo deseamos nos facilita información muy completa de los servicios disponibles próximos a la localización introducida (figura 16): restaurantes, hoteles, parkings, radares de tráfico próximos a la zona, estaciones de cercanías y metro cercanas, e información diversa sobre el tráfico (obras, atascos, etc.). Es especialmente interesante la barra de navegación que aparece en el mapa, que además de permitir desplazarnos por el mismo y hacer zoom sobre las distintas zonas, permite activar en el mapa información diversa (estaciones de trenes, radares, etc.).

Figura 16: Servicios próximos a una localización en Vía Michelín

Este buscador también permite calcular un itinerario de viaje incluyendo nuestros parámetros personales. Podemos establecer hasta dos paradas para el cálculo de cada itinerario. Además Vía Michelín nos indicará la distancia y el tiempo estimado para realizar el recorrido. También nos hace una estimación del coste del viaje, calculada tanto en función del peaje de las autopistas, como del carburante necesario. Como resultado de la búsqueda de un itinerario obtenemos una hoja de ruta, mucho más completa que la que facilitan Google Maps y Yahoo! Mapas. En ella se detalla 144


cuidadosamente la distancia entre cada punto de la hoja de ruta, el coste de cada peaje (si existe) y el tipo de vía por el que nos desplazaremos. Además nos permite obtener un mapa detallado de cada uno de los fragmentos de la hoja de ruta. Toda la información así obtenida, al igual que en el caso de los mapas, podremos imprimirla, enviarla a nuestro correo, o a nuestro GPS. Por último, también podemos registrarnos en Vía Michelín, en cuyo caso obtendremos permisos para guardar, comentar y compartir nuestras direcciones. Como puede verse es un servicio muy parecido al que facilita Google y Yahoo!, y aunque su visualización de localizaciones mediante fotografías vía satélite no es muy potente, si nuestro objetivo es conocer los servicios, las comunicaciones, y el tráfico de un lugar al que vamos a viajar, probablemente sea ésta la herramienta más potente.

10.5. Conclusiones Se han estudiado las aplicaciones desarrolladas por Google, Yahoo!, Microsoft y Michelín para la búsqueda de mapas. Atendiendo a su flexibilidad podemos afirmar que las herramientas desarrolladas por Google y Yahoo! son las más potentes (siendo notoria la mejor calidad del servicio facilitado por Google Maps). No obstante, cuando se trata de establecer itinerarios u hojas de ruta, el servicio más completo es el prestado por Vía Michelín, fruto de su gran experiencia en este sector (desde el año 2000). Microsoft no se ha mantenido al margen de la búsqueda de mapas, no obstante ha orientado su modelo de negocio de un modo completamente diferente al de sus rivales, dirigiéndose directamente a las empresas para facilitarles el software que les permita integrar un gestor de mapas con sus gestores de contenidos o plataformas, si bien Bing Maps podría ser un competidor serio para Google y Yahoo! en el futuro. Junto a estas aplicaciones podemos encontrar otras muchas, normalmente dirigidas a ámbitos más restringidos (un país o grupo de paises) que probablemente pronto serán eliminadas por los gigantes aquí mencionados.

145


11.

Buscadores de cursos y empleo

La sociedad actual demanda profesionales con una sólida formación y un perfil que, no sólo se adapte a un puesto de trabajo, sino que evolucione con éste. Por tanto, para encontrar nuestro sitio en el mercado laboral o cambiar de empleo, necesitamos información y formación. La formación se puede adquirir a través de universidades, academias, centros de formación profesional y, cada vez más, a través de Internet. De hecho, hoy por hoy, la web constituye uno de los escenarios formativos más importantes. Por sus características propicia la eliminación de las barreras espaciotemporales (se realiza el estudio desde donde se quiere y a la hora que se quiere) y además favorece una formación más individualizada, y con un coste inferior a la formación presencial. Algo similar ha ocurrido con la búsqueda de empleo. La aparición de los portales de empleo han supuesto una reducción de los costes del proceso de contratación de las empresas, y han facilitado a los candidatos una herramienta que les permite la búsqueda de empleo de una forma global, sin coste alguno, y respetando su privacidad. A continuación se estudiarán los principales portales que en nuestro país permiten, de un lado, la búsqueda de actividades formativas, y de otro, la búsqueda de empleo.

11.1. Buscadores de cursos

11.1.1. emagister.com Emagister ( http://www.emagister.com/ ) es un portal dedicado a la formación continua y especializada, tanto para la empleabilidad como para el desarrollo de actividades no profesionales (hobbys, etc.). Recibe más de 13 millones de visitas mensuales (según OJD), y oferta una amplia variedad de cursos a más de 20 países. Agrupa su oferta formativa en torno a siete categorías:  Cursos  Masters  Universidades  Cursos gratis  Oposiciones  Subvencionados 146


 Formación profesional A la oferta formativa de cada una de ellas se puede acceder: 1. Utilizando un buscador 2. A través de una lista de temáticas El buscador (figura 1) permite la consulta mediante el uso de palabras clave, a través de una sencillaz interfaz de búsqueda.

Figura 1: Buscador de cursos de emagister

En cuanto al listado de categorías (figura 2), aparece en la parte superior izquierda bajo el menú de navegación principal. En él se presentan las temánticas más populares, si bien podemos acceder al listado de todas las temáticas existentes haciendo clic en el enlace "Ver todas las temáticas" que aparece al final de la lista.

Figura 2: Lista de temáticas en emagister.com

Haciendo clic en cada una de estas categorías podemos acceder a todos las ofertas formativas agrupadas bajo ellas. Con independencia del sistema de búsqueda escogido, en los resultados obtenidos (figura 3) -que se pueden ordenar por relevancia o valoración-, para cada oferta 147


veremos la institución que la imparte, una breve descripción de la misma o parte de sus contenidos, tipo de formación, modalidad (a distancia, online, presencial, etc.) y precio. De manera adicional, en algunos cursos ofrecen bolsa de empleo, descuentos,

becas... Figura 3: Resultados en emagister

Dentro de la lista de resultados una herramienta que puede sernos de gran utilidad es la que permite comparar dos o más cursos. Para ello tendremos que seleccionar los enlaces “Añadir a favoritos” de los cursos que queremos evaluar. Seleccionada la oferta formativa a comparar, en una nueva ventana desplegable aparecerán los cursos seleccionados (figura 4).

Figura 4: Opción de "Añadir a favoritos" para comparar ofertas formativas

Al hacer clic sobre el botón "Comparar" de esta ventana Emagister abrirá una nueva página con un conjunto de informaciones (horas, precio, modalidad, etc.) que ayudan al usuario a decidir qué oferta formativa es la más conveniente (figura 5). 148


Figura 5: Comparación de cursos.

Volviendo ahora al listado de resultados (véase la figura 3), además de permitir la comparación de diferentes ofertas formativas, si hacemos clic sobre el título de alguno de los resultados nos dará diferentes informaciones, como el tipo de título/certificado que expide el centro que proporciona la formación, el perfil de los estudiantes a quién va dirigido la formación, requisitos para el acceso, etc. Por último, también se puede solicitar información adicional sobre cualquier oferta formativa seleccionando "Pedir info". Otra característica destacable de emagister es su herramienta para el filtrado de los resultados obtenidos en una búsqueda (figura 6):

149


Figura 6: Filtro de resultados de emagister

Proporciona la posibilidad de filtrar las ofertas formativas recuperadas por: temática, precio, servicios adicionales (subvencionados, prácticas, etc.), lugar o método (lugar de impartición o método docente -- básicamente presencial o a distancia), y tipo de formación. Por último, emagister también facilita una herramienta que posibilita la creación de alertas (figura 7), y que nos informa de la oferta formativa que se ajuste a nuestras exigencias (temática, método docente, etc.). Para ello, realizada una consulta bastará con hacer clic sobre el enlace "Alertas de cursos como éstos", que aparece en la parte superior derecha del listado de resultados.

Figura 7: Alertas de emagister

Terminamos la descripción de emagister señalando otros aspectos de interés de este portal: 1. En la sección “Universidades” emagister proporciona información sobre universidades y carreras, las cuales nos presenta por áreas (Sociales y jurídicas, Ingenierías y arquitectura, etc.) y por regiones. Permite buscar las titulaciones especificando rama universitaria, la provincia, o la nota de corte. Como curiosidad, señalar el test de orientación profesional que sugiere para ayudar a elegir la carrera adecuada. 2. En la sección “Cursos Gratis” incluye dos subsecciones, una con tutoriales y otra con manuales. Gran parte de ellos son de acceso gratuito, y para cada 150


búsqueda nos recomiendan otros de similares características tanto gratis como de pago. 3. En “Oposiciones” emagister presenta una interfaz de búsqueda especializada que añade las opciones de búsqueda por convocatorias, cursos o temarios, y además incorpora la novedad de ver lo más buscado. Otras formas de búsqueda las divide en secciones, administraciones o titulación. Incluye además el servicio de alertas para estar al día en cuanto a las convocatorias. Señalar también la información que ofrece en “Cómo aprobar una oposición” y la oferta de temarios para oposiciones. 4. Si nos interesa saber la opinión de otros usuarios sobre cursos o exponer la nuestra, la sección “Foros” es el lugar indicado. Podemos buscar por palabra clave, por temáticas, o consultar los más dinámicos. 5. Por último, también podemos publicar cursos, para lo cual emagister pone a disposición de los centros de formación, academias, escuelas, etc. esta herramienta que promocionará el/los curso/s que se desee tras darse de alta. También se puede publicar un curso “a título personal” si queremos compartir conocimiento con otros usuarios.

11.1.2. Educaweb.com Educaweb.com ( http://www.educaweb.com/ ) es un portal que presta servicios de orientación profesional a personas, instituciones y centros de formación, así como de consultoría educativa a empresas. Se organiza en torno a tres subportales, que además de permitir la búsqueda de ofertas formativas, ofrecen información de interés para el tipo de usuario que representan. Son:  Estudiantes.  Profesionales de la Educación.  Centros e instituciones educativas. Así mismo, el portal dispone de ocho secciones que, a través de sus buscadores especializados, permiten la búsqueda de:  Cursos  Centros educativos  Enlaces: enlaces a recursos educativos de calidad sobre una temática dada  Actualidad: noticias de actualidad relacionadas con la educación 151


 Contenidos: da acceso a artículos y textos online, aunque su buscador no siempre ofrece resultados interesantes o que lleven a contenidos  Agenda: congresos, conferencias, jornadas, convocatorias de becas, son algunos de los contenidos que podremos buscar en esta sección  Diccionario de estudios: permite la búsqueda de estudios a través de un buscador o de una taxonomía con las principales áreas del conocimiento.  Empleo: facilita la búsqueda de ofertas de empleo Si en este portal realizamos una consulta en la subsección "Cursos" con la palabra marketing , nos devolverá resultados que incluyan esa palabra y que estén relacionados con la formación, como masters, licenciaturas, cursos, etc. Un aspecto muy interesante de los resultados devueltos es que podemos suscribir nuestra consulta mediante un canal RSS habilitado por Educaweb. La selección de uno de los resultados, por ejemplo de un curso que satisfaga la consulta anterior, ofrece información sobre el centro donde se imparte, tipo de curso, y duración o modalidad. Así mismo, se analizan los destinatarios y la finalidad/objetivos del curso. Finalmente incluye el temario y, en algunos casos, un link para solicitar más información a la página de la entidad que imparte dicha formación.

11.1.3. Aprendemas.com Aprendemas.com ( http://www.aprendemas.com/ ) es un portal que ofrece principalmente cursos y formación para el estudiante y el profesional. En su página de inicio facilita la búsqueda de ofertas formativas mediante el uso de cuatro herramientas. Dos de ellas son bastante sencillas: por un lado, un buscador de cursos, con una interfaz muy simple y que nos aparece al comienzo de la página (figura 8):

Figura 8: Buscador de formación de Aprendemas.com

Por otro, dos herramientas que permiten la búsqueda de ofertas formativas bien mediante un conjunto de categorías (figura 9), bien mediante el tipo de formación de las ofertas: 152


Figura 9: Categorías que agrupan los cursos en Aprendemas.com

Las dos herramientas de búsqueda algo más complejas son:  Directorio: se accede a él a través del enlace “Directorio” que aparece sobre el formulario de consulta del buscador. Este directorio puede consultarse de dos forma distintas. Bien mediante una taxonomía de categorías o temáticas (con sus correspondientes subcategorías) (véase la figura 10), como por ejemplo: Arte, Ciencia, Ciencias Sociales, etc. Bien atendiendo a la tipología de la oferta formativa, es decir: Cursos, Masters, Conferencias, Seminarios, etc.

Figura 10: Directorio Aprendemas.com para la búsqueda de cursos

 Búsqueda avanzada: Aprendemas.com también facilita una opción de búsqueda avanzada (figura 11). Puede accederse a ella tanto a través de un enlace colocado en la parte derecha de su buscador simple, como a través del Directorio. Esta herramienta es un completo y potente buscador que permite 153


consultar y filtrar las ofertas formativas disponibles mediante el uso de combinado de: palabras clave, lugar de impartición, tipo de formación, categoría temática de la oferta, modalidad (método docente), fecha de impartición, y precio.

Figura 11: Búsqueda avanzada de Aprendemas.com

Una vez realizada una consulta, y seleccionado un curso, Aprendemas.com nos facilita datos sobre el centro que lo imparte (con link a su web y su oferta formativa), y toda la información relativa al curso: tipo, modalidad, duración, programa del curso, etc. También se presentan como alternativa otros cursos con contenidos similares. Además, en caso de estar interesados en recibir más información, podemos solicitarla mediante un formulario. Además de estas herramientas de búsqueda Aprendemas.com en su página de inicio presenta tres apartados que pueden ser de interés, y a los que podemos subscribirnos mediante canales RSS. Son:  Noticias: noticias de actualidad relacionadas con la educación  Reportajes: estudios o análisis en profundidad de cuestiones educativas (por ejemplo, un análisis sobre las dobles titulaciones universitarias en España, etc.). 154


 Breves: informa de eventos o actividades relacionadas con la comunidad educativa

11.2. Buscadores de empleo

11.2.1. InfoJobs.net InfoJobs.net ( http://www.infojobs.net/ ) dispone en la actualidad de más de 4 millones de candidatos, lo que la convierte en la bolsa de empleo privada nº 1 en Europa (según Internet Nielsen NetRankings). Es una de las webs más utilizadas en la actualidad para buscar un primer empleo, cambiar el actual o publicar una oferta de trabajo. Dispone de dos interfaces de consulta. La que muestra en su página de inicio, pese a su sencillez, es un gran ejemplo de una buena interfaz de consulta especializada (figura 12), ofreciendo opciones de búsqueda por palabra clave, provincia, y categoría y subcategoría profesional.

Figura 12: Interfaz de búsqueda de InfoJobs.net

A través de esta interfaz, y como puede verse en la figura 12, podemos acceder a la interfaz de consulta avanzado (figura 13). Esta interfaz es una potente herramienta para la búsqueda de empleo atendiendo a multitud de criterios (analícese en detalle la figura 13):

155


Figura 13: Interfaz de búsqueda avanzada de InfoJobs

Además, ambas interfaces permiten la utilización de diferentes comandos, utilizables en el campo “Palabras clave” para optimizar aún más sus opciones de búsqueda (figura 14). Todas ellas funcionan como potentes operadores de proximidad y como

comandos que representan opciones de búsqueda booleana:

156


Figura 14: Opciones de búsqueda mediante palabras clave en InfoJobs InfoJobs facilita otros dos métodos para la búsqueda de empleo a través de su página principal. El primero de ellos es la “búsqueda de empleo por canales” (figura 15), donde podremos encontrar las ofertas de trabajo que estén relacionadas con un determinado sector en cualquier parte de España.

Figura 15: Búsqueda de empleo por canales.

Otra opción es la búsqueda de empleo “Por empresas”, que nos permite conocer los empleos ofertados principalmente por empresas de selección de recursos humanos y empresas de trabajo temporal. Con independencia de la herramienta de búsqueda utilizada, una vez seleccionamos un empleo de la lista de resultados obtenida, InfoJobs.net nos presenta en una página todos los datos que la empresa facilita sobre el puesto de trabajo: una descripción más completa de la oferta (especificando las tareas a desarrollar), los requisitos de los candidatos, así como información sobre el contrato y el salario del empleo. También nos indica el número de personas inscritas en la oferta. Además, tanto si la empresa se identifica como si no, el candidato puede ver haciendo clic sobre “Mostrar más información” datos de la empresa relativos al nº de trabajadores, dónde se encuentra la sede central y carácter de la empresa (nacional, multinacional, etc.). Para inscribirse en cada oferta de empleo, el candidato debe estar previamente registrado en InfoJobs, para lo cual hay que introducir los datos en un formulario, y luego, si se desea, se puede adjuntar el currículo y una foto. Además, para los usuarios registrados InfoJobs facilita, a modo de sistema de alerta, la posibilidad de definir nuestras propias consultas para la búsqueda de empleo. Periódicamente (diaria o semanalmente) InfoJobs comprobará si hay ofertas 157


disponibles para nuestras consultas, y si es así nos lo comunicará por correo electrónico. En cuanto a los servicios que InfoJobs ofrece a las empresas, estos son:  La inserción de ofertas en la página web  Recepción de los currículos inscritos en cada oferta  Gestión del proceso de selección Si la empresa está interesada, puede solicitar de manera gratuita que su oferta se indique en un mapa. También, y previo pago, se puede resaltar la oferta en negrita, destacarla por categoría o hacer que aparezca en la página principal (lo cual constituye una forma de darse a conocer y/o de publicitarse). InfoJobs.net ofrece la opción de suscribirse al RSS de una o varias búsquedas de empleo, lo que permite recibir las ofertas en tiempo real. Así mismo, dentro del área de candidatos, la página de Infoempleo pone a disposición del usuario su servicio de Newsletters y “Avisos de novedades y promociones”, a través de los cuales se reciben en el e-mail consejos para encontrar empleo, información sobre las tendencias del mercado laboral, y promociones para los usuarios. Cabe destacar también la sección de "Consejos y recursos", dentro del apartado de Recursos, que incluye: información y sugerencias en cuanto a la elaboración del currículum y la carta de presentación, o consejos para preparar las entrevistas de trabajo, entre otras muchas informaciones interesantes.

11.2.2. Infoempleo.com Infoempleo.com ( http://www.infoempleo.com/ ) es un portal que facilita el acceso a ofertas de empleo y a multitud de contenidos e información relacionados con el mercado laboral. Su interfaz de búsqueda ( figura 16) es similar a la de InfoJobs.net, y permite la búsqueda de ofertas por: puesto de trabajo o empresa, área o sector de la empresa, y área geográfica o localización del empleo ofertado.

158


Figura 16: Interfaz de búsqueda de Infoempleo.com

También ofrece una opción de búsqueda avanzada (figura 17), donde podemos acotar más nuestra búsquedas en función del puesto de trabajo deseado, remuneración del mismo, o antigüedad de la oferta. Además permite omitir aquellas ofertas que se realizan a través de empresas de trabajo temporal o de empresas de selección.

Figura 17: Interfaz búsqueda avanzada de Infoempleo.com

Una vez se obtienen los resultados de nuestra consulta, si seleccionamos una oferta podremos ver información detallada sobre la misma: funciones del puesto de trabajo, número de puestos vacantes, requisitos de los candidatos, salario, y el número de personas inscritas en la oferta. Para optar al proceso de selección del puesto ofertado debemos ser usuarios registrados de Infoempleo.com. Como usuarios registrados podremos actualizar nuestro CV, recibir ofertas de empleo vía e-mail conforme a nuestras consultas, y acceder a contenidos limitados sólo a los usuarios del portal. Infoempleo.com también permite la recepción de ofertas de empleo vía RSS, mediante la suscripción a diversos canales (que se corresponden con los diferentes sectores o actividades empresariales). Como contenido adicional, este portal presenta en su página de inicio una sección con las ofertas destacadas (figura 18), y el acceso a ofertas de empleo por canales (es decir, por sectores o actividades empresariales).

159


Figura 18: Ofertas destacadas y búsqueda por canales.

A las empresas Infoempleo.com les ofrece un sistema de publicación de ofertas rápido y sencillo, la recepción y visualización de CVs en tiempo real, sistemas de filtrado de CVs manual y automático precisos, etc. Aunque para disfrutar de todos estos servicios es necesario que la empresa este registrada y realice un pago, que variará en función de los servicios contratados. No obstante, la publicación de ofertas de empleo es gratuita. Para terminar, es necesario destacar, también en la página de inicio de este portal, la sección “otros enlaces de interés”, desde donde se da acceso a completas guías de empresas, ofertas de empleo aparecidas en la prensa, u ofertas de empleo público entre otros.

11.2.3. Laboris.net Laboris.net ( http://www.laboris.net/ ) es otra de las grandes bolsas de empleo online, dirigida tanto a los particulares interesados en la búsqueda de ofertas de empleo, como a las empresas que requieren la selección de nuevo personal. En su página de inicio, encontramos un buscador (figura 19), prácticamente idéntico a las búsqueda simple de Infoempleo.com, con dos listas desplegables para seleccionar una provincia y una categoría profesional, y un campo donde introducir una palabra clave.

160


Figura 19: Interfaz de búsqueda simple de Laboris.net

La búsqueda avanzada (figura 20) es bastante completa, con opciones muy parecidas a las presentadas por InfoJobs.

Figura 20: Interfaz de búsqueda avanzada de Laboris.net

Asimismo, Laboris.net ofrece la posibilidad de buscar por empresa ("Búsqueda de empresas"). La búsqueda por empresa se realiza especificando su nombre, sector, provincia, o número de empleados (figura 21).

161


Figura 21: Búsqueda por empresa

Una vez obtenidos los resultados para nuestra consulta y seleccionada una oferta, Laboris.net nos facilita información de la empresa (nombre, sector, tamaño), una descripción detallada de la oferta (categoría, lugar, descripción), requisitos de los candidatos y la remuneración. También nos informa del número de candidatos ya inscritos en la oferta, y nos proporciona un link a otras ofertas similares. Para poder inscribirse en las oferta es imprescindible ser un usuario registrado. También existe otra forma de consultar las ofertas de empleo disponibles. Sería a través de la sección “Ofertas por categorías” (figura 22) que aparece en el apartado "Te recomendamos..." de la página de inicio, y que agrupa todas las ofertas disponibles en torno a diferentes categorías y subcategorías temáticas.

Figura 22: Ofertas de trabajo por categorías

En cuanto a los servicios ofrecidos a los usuarios registrados, Laboris.net, a través de su “Menú Privado” permite actualizar nuestro currículo, recibir avisos o alertas por correo electrónico con los empleos que satisfacen nuestras consultas, etc. Como novedad, esta web ofrece al usuario destacar su CV durante siete días previo pago (6€ + IVA). Para terminar, merece señalarse la riqueza de los contenidos que este portal ofrece a través de sus secciones: Canales, Noticias y Consejos, Emprendedores, y Formación. 162


 “Canales”: permite conocer la actualidad, cursos y todas las ofertas de empleo relacionadas con los sectores de: administración, comercial, construcción, hostelería, marketing, química, recursos humanos, y tecnología.  “Noticias y Consejos” pone a nuestra disposición gran cantidad de información: artículos relacionados con cómo encontrar trabajo, tipos de contratos, derecho laboral, salud en el trabajo, junto con estrategias para enfrentarse a las entrevistas de trabajo, etc.  “Emprendedores”: proporciona información referente a la creación de empresas, los tipos de franquicias, las características principales de los franquiciados, cómo buscar una franquicia, así como los requisitos necesarios para crear la franquicia.  “Formación”: da acceso a la oferta formativa, de carácter profesional, de lectiva.net.

11.3. Conclusiones Se han estudiado los principales portales para la búsqueda de cursos y empleo. En ambos casos, estamos ante servicios con un marcado carácter comercial, cuyo éxito dependen casi exclusivamente de su eficacia para satisfacer las demandas de información de sus usuarios. Esto se traduce, como hemos podido comprobar, en la coexistencia en estos portales de multitud de formas para la búsqueda, recuperación, y acceso a la información. Además, conlleva la existencia de elaborados interfaces en sus motores de búsqueda, más completos y potentes que los estudiados hasta el momento. Por tanto, estos portales constituyen un modelo a seguir por todos aquellos que quieran desarrollar sitios o portales web en los que el acceso a la información sea prioritario. Especialmente relevantes son las interfaces de búsqueda avanzada que presentan, cuyo nivel de especialización permite la formulación de complejas consultas de un modo sencillo para el usuario. Por otro lado, y atendiendo al contenido, se dota al alumno del conocimiento necesario para mantenerse al día de las principales ofertas formativas y laborales que en España se producen.

163


Tercera parte: La Web Semántica Pese a todo lo visto hasta ahora, tal vez la tendencia más importante por lo que hace a la búsqueda de información en la web es el proyecto de la Werb Semántica. Se trata de una ambiciosa iniciativa del World Wide Web Consortium (W3C) que, de tener éxito, estaría destinado a transformar de modo decisivo la Web tal como la conocemos ahora. El objetivo consiste en conseguir una Web cuyos contenidos sean mejor interpretados por los ordenadores y, entre otras cosas, los buscadores funcionen de forma “inteligente”.

1. Primera aproximación El W3C (www.w3.org) es el organismo que regula aspectos esenciales de la Web tales como los lenguajes de marcado y de presentación (HTML, XML, CSS, etc.) con los que se crean las páginas y los sitios web. Puede decirse que es, con mucha diferencia, el organismo de normalización más importante de Internet, siendo su director el propio fundador de la Web, Tim Berners-Lee, por lo que sus recomendaciones, aunque no siempre adoptan forma de normas oficiales, poseen un gran prestigio y una enorme influencia. En este contexto, la definición oficial del proyecto de la Web semántica es el siguiente: La Web semántica proporciona un marco común que permite que los datos sean compartidos y reutilizados a través de aplicaciones, empresas y fronteras comunitarias. Es un esfuerzo colaborativo liderado por el W3C con la participación de un gran número de investigadores y socios industriales. Está basado en Resource Description Framework (RDF) e integra una variedad de aplicaciones utilizando XML para la sintaxis y URI para las denominaciones (www.w3.org/2001/sw/)

Lo primer que corresponde señalar es que, de acuerdo con las estimaciones, el despliegue total de la Web semántica se prolongará más allá del año 2010. Es decir, no estamos hablando de una realidad todavía. Sin embargo, la Web semántica ya está entre nosotros de diversas formas. En primer lugar, bajo la forma de una auténtica idea-fuerza, en el sentido de que es una idea que ya ha sido capaz de movilizar energías (e ilusiones) y que, sin duda no dejará de arrojar resultados positivos durante los próximos años. En segundo lugar, aportando nuevos estándares que ya son de uso habitual (como el lenguaje XML) e influenciando en el desarrollo de la nueva generación de navegadores y editores de páginas web. En todo caso, volviendo a su definición, en el proyecto de la Web semántica conviven dos grandes visiones o dos grandes ideas-fuerza cuya confluencia a veces dificulta su interpretación. Por este motivo, nosotros proponemos dos definiciones separadas (que se pueden complementar) de la Web semántica: 164


Definición 1. La visión de la Inteligencia Artificial: La Web semántica es un conjunto de iniciativas destinadas a promover una futura Web cuyas páginas estén organizadas, estructuradas y codificadas de tal manera que los ordenadores sean capaces de efectuar inferencias y razonar a partir de sus contenidos. Definición 2. La visión del procesamiento robusto: La Web semántica es un conjunto de iniciativas destinadas a convertir la World Wide Web en una gran base de datos capaz de soportar un procesamiento sistemático y consistente de la información.

En relación a la Definición 1, es evidente que los ordenadores actuales no son capaces de razonar ni de realizar inferencias en un modo similar al de los seres humanos, y ni tan solo hay atisbos de que puedan hacerlo en el futuro. Por tanto, debemos dejar claro que el “razonamiento” que puede esperarse que sean capaces de realizar los ordenadores consistirá en una simulación (de razonamiento). Veamos ahora la Definición 2 vinculada a la visión del procesamiento robusto. Lo que separa a un conjunto de documentos con información no estructurada, y por tanto difícil de procesar y de explotar su contenido respecto de un conjunto de registros de una base de datos es la suma de tratamiento sistemático + metadatos propia de estos últimos (y ausente en los primeros). Recordemos que la creación de una típica base de datos documental consiste en definir un grupo de campos, lo que equivaldría en nuestro caso a definir un conjunto de etiquetas como <autor>, <título>, etc., para marcar sistemáticamente en cada documento de la base de datos la información que en el documento original aparece sin ninguna identificación explícita. El segundo paso consistirá en vincular cada documento con metadatos mediante etiquetas del estilo <clasificación>, <tipo de documento>, <descriptores>, <fecha de creación>, etc. Una vez tenemos lo anterior, hemos pasado de información desestructurada a información sistematizada en la que cada línea de texto, cada párrafo o cada grupo de párrafos forma parte de un campo y está vinculado a un conjunto de metadatos. A partir de aquí será sencillo conseguir que la base de datos simule una cierta inteligencia de la que carecen en estos momentos los motores de búsqueda, ya que será capaz de responder a preguntas que actualmente no puede responder un motor de búsqueda. Por ejemplo, en la actualidad no existe forma de pedir a un motor de búsqueda que busque documentos donde la palabra Eco se refiera al nombre de un autor y no a un fenómeno acústico. En cambio, en una base de datos documental es una operación tan trivial que nos pasa absolutamente desapercibida. Es a esta clase de 165


procesamiento sistemático (predecible) y consistente a la que nos queremos referir con la expresión de procesamiento robusto. Ahora bien, dada esta dicotomía, ¿hay algún elemento común, alguna cosa que nos permita unificar o al menos articular las dos visiones? La respuesta, al menos en nuestra opinión es que sí. Si observamos los elementos de infraestructura en los que confía la visión de la IA, vemos que son en parte los mismos que se requieren para crear una base de datos, es decir los mismos de la visión del procesamiento robusto. La segunda visión, la del procesamiento robusto, está mucho más pegada al terreno. Es solvente, porque se basa en elementos bien probados en el procesamiento de la información, y esa es su gran virtud. Su problema es que carece de la capacidad de fascinación de la primera. Es posible que, si el proyecto de la Web semántica se hubiera limitado a esta segunda visión (con una denominación más técnica, etc.), nunca hubiera trascendido de las páginas de las revistas especializadas.

2. Componentes Los medios con los cuales se persiguen los objetivos de la Web semántica son los siguientes: en primer lugar, utilizando una codificación de documentos en la cual las etiquetas tengan, precisamente, carga semántica. Este apartado corresponde al estándar denominado XML (eXtensible Markup Language). La versión de XML específicamente dedicada a páginas web es XHMTL, mientras que para documentos ofimáticos se ha desarrollado OpenDocument (norma ISO sobre codificación de 166


documentos ofimáticos que utilizan aplicaciones tan implantadas actualmente como OpenOffice). En segundo lugar, aportando descripciones (metadatos) de las páginas y sitios web con un formato que sea compatible con la estructura general de la Web y con diversas categorías de páginas e interoperable entre distintos sistemas informáticos. De este se ocupa la norma RDF (Resource Description Language). En tercer lugar, mediante un sistema de ontologías que permitan especificar conceptos de los diversos dominios del conocimiento mediante el uso de un lenguaje fuertemente basado en lógica simbólica y susceptible, por tanto, de ser eventualmente interpretado por un ordenador. De este aspecto se ocupa el denominado OWL Web Ontology Language (OWL), un sistema estándar propuesto por el W3C para representar y codificar ontologías. Existen además otros componentes de carácter más técnico que, si cumplen bien su misión, están destinados a pasar desapercibidos. En total, suelen considerarse siete componentes distintos. En la tabla siguiente presentamos comentamos estos componentes. La tabla debe interpretarse así: cada fila es como una capa o como las plantas de un edificio; las capas inferiores constituyen la infraestructura básica que soporta las prestaciones que proporcionarán las superiores una vez se haya completado el proyecto. En la primera columna mantenemos la terminología original del proyecto de acuerdo con el W3C. Tabla 1: Las “capas” o niveles de la Web Semántica 7 Trust (+ Digital Signature)

6 Proof

5 Logic

La superior capa, Trust (confianza) debe servir para otorgar seguridad a las transacciones en la Web que se llevarán a cabo no solamente entre usuarios y sitios web sino también entre programas de software; y todo ello tanto en el plano C2B (consumer to business) como en el B2B (business to business). La llamada Digital Signature (firma digital) proporcionará soporte específico a esta capa. En este contexto, Proof (prueba) significa demostración lógica o matemática. Se considera que un ordenador alcanza la máxima fiabilidad en sus razonamientos cuando es capaz de realizar demostraciones o, lo que es lo mismo a efectos prácticos, cuando es capaz de justificar el motivo por el cual tomó (o aconsejó tomar) una decisión. Como la Web semántica está relacionada con ideas de Inteligencia Artificial esta capa será necesaria para que los usuarios (humanos) confien en las decisiones de los agentes de software. En este contexto, logic se refiere a la ciencia que estudia las reglas formales que permiten determinar si un razonamiento se sigue necesariamente de sus premisas. La lógica estudia, por tanto, la estructura de los razonamientos válidos. Se espera que los ordenadores del futuro puedan efectuar razonamientos sobre los recursos y servicios de la Web combinando los conocimientos expresados en las ontologías, 167


4 Ontology vocabulary

3 RDF + rdfschema

2 XML+NS+XML SCHEMA

1 Unicode + URI

los hechos declarados en los metadatos y la aplicación de reglas lógicas. Una ontología es una especificación formal de un dominio del conocimiento que, en su expresión más simple, se identifica con una taxonomía. Una taxonomía consiste en una jerarquía de conceptos y sus relaciones del tipo clase-subclase. Una ontología formaliza la relación de clase, añade otras relaciones y especifica propiedades para individuos y clases. Ontology-vocabulary se refiere a una ontología concreta sobre un dominio concreto del conocimiento. El W3 Consortium ha desarrollado un modelo para representar ontologías utilizando RDF que se denomina OWL. Resource Description Framework (RDF) es un modelo de representación de metadatos que, entre otras cosas, permite representar recursos digitales tales como sitios o páginas web. RDF está concebido para representar cualquier clase de recursos (no solamente páginas publicadas en la web). RDF Schema, por su parte, es una extensión de RDF que aporta un lenguaje con mayor capacidad para representar relaciones semánticas complejas. eXtended Markup Language (XML) es un sistema que permite definir lenguajes de marcas para usos específicos. Name Spaces (NS) permite combinar diversos lenguajes de marcado creados con XML en un mismo documento. XML Schema sirve para definir tipos de documentos complejos en los que se pueden especificar tipos de datos, listas de componentes y restricciones similares a las del diccionario de datos típico de una base de datos. Unicode es un sistema internacional estándar que proporciona un número único para cada carácter, sin importar la plataforma ni el programa. Esto permite representar caracteres de cualquier idioma con una codificación unificada. Uniform Resource Identifier (URI) es un sistema de direccionamiento e identificación de recursos. El sistema que usamos actualmente para acceder a los recursos de la Web (URL) es una parte de URI.

168


Figura 1: Componentes o “capas” de la Web semántica según el W3C

Hasta ahora, solamente las tres primeras capas que aparecen en la Tabla 1 (o sea, las filas no sombreadas) disponen de un buen desarrollo. Las siguientes capas han generado una gran cantidad de literatura técnica, científica y filosófica, así como diversos prototipos; pero a casi todos los efectos prácticos carecen de desarrollos reales, es decir, que se están aplicando con éxito en estos momentos. No obstante, no faltan las iniciativas. En este sentido, además de las iniciativas relacionadas con RDF, existe una gran actividad alrededor de la idea de las ontologías (ver la fila n. 4 de la Tabla 1). En cambio, como hemos señalado, más allá de la capa 3 (es decir, de las ontologías en adelante) apenas se ha progresado. Algunos autores poco críticos con la Web Semántica suelen aducir el caso del buscador Swoogle (http://swoogle.umbc.edu/) teóricamente un buscador capaz de utilizar ontologías. Pero un simple test con este buscador (o una lectura atenta de sus páginas de ayuda) nos indica que, de ningún modo es un buscador comparable a Google o Yahoo!, ni lo pretende, y sus resultados se limitan a documentos escritos en RDF, es decir, busca sobre documentos que codifican clasificaciones, tesauros, etc., pero no busca sobre páginas web. El proyecto de la Web semántica se enfrenta a retos interesantes y valiosos cualquiera que sea la visión adoptada. El problema es que no existen precedentes, ni mucho menos, ni de bases de datos ni mucho menos de sistemas inteligentes a escala de algo como la Web: descentralizado, descoordinado, con intereses contrapuestos y con miles o decenas de miles actores independientes (empresas, autores de páginas, diseñadores, creadores de sofware, etc.). 169


Ahora bien, el W3C se complace con el uso de un registro de lenguaje que enmascara a veces las dificultades reales del proyecto de la Web semántica. De este discurso, por desgracia se contagian la mayor parte de los libros y artículos que se publican sobre el tema. A veces resulta lastimoso leer tanta literatura sobre la Web semántica como si ésta no solamente fuera factible a corto plazo, sino como si ya fuera una realidad cumplida. Nosotros entendemos que, por el contrario, es importante destacar estas dificultades, en primer lugar por simple respeto a la verdad (o al menos lo que nosotros honestamente como tal), pero también por razones de eficiencia: si de verdad creemos en el proyecto, no es eficiente disimular sus dificultades. Nadie puede discutir el acierto de Unicode, la racionalidad del sistema URI ni mucho menos el enorme logro que ha significado el lenguaje XML para casi todas las ramas de la ofimática y de la Biblioteconomía-Documentación. También aparecen bien justificadas las esperanzas que ha despertado RDF como modelo unificado de codificación y representación de metadatos. Sin embargo, a partir de aquí, todo lo relativo a las ontologías (OWL) y el uso de la lógica por parte de los ordenadores para realizar razonamientos y demostraciones está mucho menos claro. Incluso aspectos aparentemente inocentes del proyecto, como imaginar una Web poblada exclusivamente (o mayoritariamente) por páginas impecablemente codificadas en XML (o XHTML) y con metadatos técnicamente correctos y éticamente adecuados resultan fuertemente contestados por la realidad de la Web tal como es hoy por hoy. Ciertamente, esta realidad puede cambiar en el futuro, pero para que la dimensión del cambio sea creíble para la década del 2010, deberíamos empezar a tener indicadores ya de ese cambio de los cuales carecemos aún.

170


Bibliografía i fuentes Anuario hipertext.net. Acceso: http://www.hipertext.net/ Biblioteconomia I Documentació. Acceso: http://www.ub.edu/bid/ Abadal, Ernest; Codina, Lluís. 2008. “Función de los portales temáticos en la era de la búsqueda posmoderna”. En: Baiget, Tomàs. 2008. Anuario ThinkEPI: Análsis de tendencias en información y documentación. Boswell, Wendy. 2007. Online research. Avon: Adams Media. Cabezas, Álvaro, Daniel Torres, and Emilio Delgado. 2009. “Ciencia 2.0: Herramientas e implicaciones para la actividad investigadora”. El Profesional De La Información 18, (1): 72-9. Codina, Lluís. 2009. “Ciencia 2.0: Redes sociales y aplicaciones en línea para académicos”. Hipertext.Net 7, http://www.hipertext.net/web/pag295.htm. Codina, Lluís. Web 2.0 (diagrama y directorio interactivo). 2009. Acceso: http://tinyurl.com/bzp57z/ Codina, Lluís. Ciencia 2.0 (diagrama y directorio interactivo). Acceso: http://tinyurl.com/ciencia20/ Codina, Lluís, and Mari Carmen Marcos. 2005. “Posicionamiento web: Conceptos y herramientas”. El Profesional de La Información 14, (2) (Marzo-Abril 2005) Fielding, Nigel G., Raymond M. Dr. Lee, and Grant (Editors) Blank. 2008. The handbook of online research methods. London: Sage. Henninger, Maureen. 2008. The hidden web. 2nd edition ed. Sydney: UNSW. Hock, Randolf. 2007. The extreme searcher's internet handbook: A guide for the serious searcher. Medford: Information Today. Jones, Kristopher. 2008. Search engine optimization. Indianapolis: Wiley. Krosky, Ellyssa. 2008. Web 2.0 for librarians and information professionals. New York: NealSchuman. Oscar, Héctor, Elizabeth González, and Daniel Hugo. 2008. Data mining with ontologies. Hershey: Information Science Reference. Ramos, Andreas, and Stephanie Cota. 2009. Search engine marketing. New York: Mc Graw Hill.

171


Búsqueda y Recuperación de Información en la Web  

Lluís Codina y Rafael Pedraza-Jiménez Departamento de ComunicaciónUniversitat Pompeu Fabra

Advertisement
Read more
Read more
Similar to
Popular now
Just for you