viernes, enero 19, 2007

GOOGLE: LA BÚSQUEDA PERFECTA

LA BÚSQUEDA PERFECTA

Hoy en día disponemos de gran cantidad de herramientas y servicios para realizar nuestras
búsquedas de manera más rápida y eficaz. Tenemos grandes expertos en la materia como Google, Yahoo, Altavista, Lycos, Wanadoo, Msn, enrte otros motores de búsqueda,en donde buscamos casi cualquier cosa que nos plantee dudas. A otra escala tenemos también directorios temáticos, que son índices de sitios Web generados por editores humanos que a veces son expertos en el tema que indexan. La información se organiza utilizando categorías temáticas jerarquizadas. Tenemos catálogos, bibliotecas virtuales...Para otro tipo de búsquedas tenemos las bases de datos o Web invisible, que son todas aquellas páginas que no pueden encontrar los motores de búsqueda y que no suelen aparecer en los directorios temáticos.
Pero muchas veces no encontramos lo que buscamos, los resultados que obtenemos son imprecisos y no se adecúan a lo que buscamos y ahí es donde surge el concepto de búsqueda perfecta. Hoy en día, y como tal, no existe. Lo que existe es la idea de lo que se querría lograr. Una búsqueda perfecta consistiría en obtener la respuesta deseada a la consulta, desechando toda aquella información que carezca de interés. Esto se puede conseguir mediante un rastreo de clicks de las anteriores búsquedas, y observando qué es lo que a usted le interesa, de esa forma la respuesta se ajustará a la perfección, y además, el buscador, le proporcionará una lista de temas relacionados que podrían interesarle. Sería un buscador inteligente capaz de encontrar cualquier información en cualquier lugar.
En si, la idea no es mala, pero creo que es un propósito inalcanzable, ya que es prácticamente imposible crear una "herramienta" capaz de condensar todo el conocimiento humano. Existen casi 100 millones de libros, pero sólo unos cientos de miles pueden consultarse en línea, en el momento en el que este libro se esccribió. Como dato de interés curioso, que nos ha llamado la atención, un estudio realizado en la Universidad de California de Berkeley en el 2002, reveló que en ese mismo año la humanidad había creado 5 exabites de datos almacenados (como datos almacenados se refieren a información multimedia impresa, filmada y óptica) que equivalen en papel a 500.000 nuevas Bibliotecas del Congreso cada año. Más del 90% de esos 5 exabites se almacenaron en disco duro. Pero aunque hoy en día generamos gran cantidad de información digital, la mayor parte de ella no está a disposición de los motores de búsqueda. Se necesitaría mucho tiempo y mucha gente que introdujese millones de datos para poder condensar toda el conocimiento; pero aún á pesar de las dificultades que existen,poco a poco se introducen avances que paso a paso van convirtiendo las búsquedas en algo más personalizado.
Este capítulo toca muchos temas en lo referente a la búsqueda, pero nosotras nos hemos centrado en tres aspectos relacionados con las nuevas formas de buscar.

LA WEB SEMÁNTICA
Consiste en añadir metadatos semánticos a laWeb.
Estas informaciones adicionales describiendo el contenido, el significado y la relación de los datos deben ser dadas en forma formal que sea posible evaluarlas automáticamente por máquinas.
El objetivo es mejorar la Web:
  • Ampliando la interoperabilidad entre los sistemas informáticos ·
  • Reduciéndo la necesaria mediación de operadores humanos.

Relación de la Web semántica con la Web:

  • La Web está basada principalmente en documentos escritos en HTML, un lenguaje de marcas que sirve para crear hipertexto en Internet.
  • HTML da pocas posibilidades para categorizar los elementos que configuran el texto.
  • La Web Semántica se ocupará de resolver estas deficiencias.
  • Para ello dispone de tecnologías de descripción de los contenidos, como RDF y OWL, además de XML, el lenguaje de marcas diseñado para describir los datos.
  • Estas tecnologías se combinan para aportar descripciones explícitas de los recursos de la Web.
  • El contenido queda desvelado, como los datos de una base de datos accesibles por Web, o las etiquetas inmersas en el documento.
  • Estas etiquetas hacen posible a los gestores de contenidos interpretar los documentos y realizar procesos inteligentes de captura y tratamiento de información.

Componentes de la Web Semántica:

  • Los principales componentes de la Web Semántica son los metalenguajes y estándares de representación XML, XML Schema, RDF, RDF Schema y OWL.
  • La OWL Web Ontology Language Overview describe la función y relación de cada uno de estos componentes de la Web Semántica: XML aporta la sintaxis superficial para los documentos estructurados, pero sin dotarles de ninguna restricción sobre el significado. ·XML Schema es un lenguaje para definir la estructura de los documentos XML. RDF es un modelo de datos para los recursos y las relaciones que se puedan establecer entre ellos. Aporta una semántica básica para este modelo de datos que puede representarse mediante XML. RDF Schema es un vocabulario para describir las propiedades y las clases de los recursos RDF, con una semántica para establecer jerarquías de generalización entre dichas propiedades y clases. OWL añade más vocabulario para describir propiedades y clasestales como: relaciones entre: cardinalidad, igualdad, tipologías de propiedades más complejas, caracterización de propiedades o clases enumeradas.

BLOGS

Un blog, también conocido como weblog o cuaderno de bitácora es:

  • Un sitio web periódicamente actualizado.
  • Recopila cronológicamente textos o artículos de uno o varios autores, apareciendo primero el más reciente
  • Donde el autor conserva siempre la libertad de dejar publicado lo que crea pertinente.
  • En cada artículo, los lectores pueden escribir sus comentarios y el autor darles respuesta ü es posible establecer un diálogo
  • El uso o temática de cada weblog es particular, los hay: de tipo personal, periodístico, empresarial, corporativo, tecnológico, educativo (edublogs), etc.

El término "weblog" fue acuñado por Jorn Barger el 17 de diciembre de 1997. La forma corta, "blog", fue acuñada por Peter Merholz, quien dividió la palabra weblog en la frase we blog en la barra lateral de su blog Peterme.com en abril o mayo de 1999. Rápidamente fue adoptado tanto como nombre y verbo, asumiendo "bloguear" como "editar el weblog de alguien o añadir un mensaje en el weblog de alguien".

Características técnicas:

Enlaces:

  • Una característica de los weblogs es que las anotaciones suelen incluir múltiples enlaces a otras páginas web, no necesariamente weblogs, como referencias o para ampliar la información agregada.
  • Además, la presencia de elementos como: Un enlace permanente (permalinks) en cada anotación, para que cualquiera pueda citarla. Un archivo de las anotaciones anteriores. Una lista de enlaces a otros weblogs seleccionados o recomendados por los autores, denominada habitualmente blogroll).

Enlaces inversos:

  • En algunos casos las anotaciones o historias permiten que se les haga trackback, un enlace inverso (o retroenlace) que permite: ­ saber que alguien ha enlazado nuestra entrada, ­ avisar a otro weblog que estamos citando una de sus entradas ­ que se ha publicado un artículo relacionado.
  • Todos los trackbacks aparecen automáticamente a continuación de la historia, junto con los comentarios.

Sindicación:

  • Una característica de los weblogs es la multiplicidad de formatos en los que se publican.
  • Aparte de HTML, suelen incluir algún medio para sindicarlos, es decir, para poder leerlos mediante un programa que pueda incluir datos procedentes de muchos medios diferentes.
  • Generalmente se usa RSS para la sindicación, aunque desde el año 2004 ha comenzado a popularizarse también el Atom

Glosario de términos empleados:

  • Rich Site Summary
  • RSS: es parte de la familia de los formatos XML desarrollado específicamente para todo tipo de sitios que se actualicen con frecuencia y por medio del cual se puede compartir la información y usarla en otros sitios web o programas. A esto se le conoce como redifusión o sindicación.
  • Atom es un formato XML similar a RSS. Nació para resolver la confusión creada por la existencia de estándares similares para sindicación (RSS y RDF) y crear una API y un formato de sindicación más flexibles. Sin embargo, los detractores de este formato opinan que más que resolver el problema de múltiples estándares, ha creado uno nuevo que convive con los anteriores a los que pretendía reemplazar.
  • RDF: Marco de Descripción de Recursos


FOLKSONOMIES
Antes de definir el concepto de folksonomies, debemos primero hablar de los tags.
Un tag es una palabra clave que sirve para describir objetos, bien sea un fotografía, favoritos, bookmarcs...No suele estar formado por varias palabras sino por una sola.

Folksonomy es un sistema de autoclasificación de contenidos (de objetos generalizando más) que no la hace a priori un arquitecto de información profesional, ni un documentalista, ni un sistema automático de clustering basado en un algoritmo, sino que son los propios usuarios quienes clasifican los contenidos de algún modo, de forma natural, democrática y cambiante.
Un folksonomy puede ser el "otros usuarios que han leído tal también han leído cual" de Amazon, o un sistema de organización de libros por centros de interés basados en las peticiones de los usuarios en su propio lenguaje natural, por ejemplo.

Folksonomies basados en tags
Aplicado esto a un portal Web, sería un sistema de autoclasificación de contenidos basado en las descripciones de los usuarios del propio contenido (en ocasiones aportado por ellos mismos), según sus propias palabras clave (tags), para así construir una arquitectura de información natural y sin jerarquías preestablecidas. Normalmente, los tags, se presentan en la home por orden alfabético. Los más utilizados se ven más y más grandes; cuantos más usuarios describen un objeto, más grande se ve éste en la pantalla.

Ventajas

  • Sistema de clasificación / categorización muy simple.
  • Al usuario le resulta muy fácil describir el contenido.
  • El sistema aporta una sensación de juego sl acto de describir y compartir el contenido y esa descripción.
  • La representación de los tags resulta visualmente atractiva.
  • Utiliza economías de escala: una vez construído el sitema, el trabajo de descripción lo hacen los usuarios.

Problemas

  • Los tags se limitan en general a palabras únicas, ni tan siquiera permite expresiones complejas: es decir, se utiliza flores, no flores secas. Por tanto las categorías que crea (los tags) son muy genéricos.
  • Los tags eliminan ls relaciones jerárquicas, restringiéndose a las relaciones asociativas.
  • Aumenta la exhaustividad de la recuperación (obtenemos más información), pero dificulta la especificidad (obtener justo lo que buscamos).
  • El tamaño visual puede engañar a los usuarios que describen sus contenidos: cuanto más grande sea un tag, más incita a usarse para describir nuevos contenidos.

Algunos ejemplos de esto, los encontramos en las siguientes páginas:

  • Del.icio.us: en palabras de sus creadores, es un social bookmarks manager, una especie de lista de favoritos online que puedes consultar desde cualquier ordenador. La aplicación te permite etiquetar esos enlaces individualmente o en grupos con palabras clave (tags) que uno mismo selecciona. Lo que lo hace social es que te permite compartir esos directorios "etiquetados" con otras personas, identificar coincidencias entre listados y conocer cómo han clasificado otros los elementos que tenéis en común. También te permite suscribirte a las listas que encuentres más interesantes.

  • 43 things: sitio en el que declaras abiertamente cuáles son las 43 cosas más importantes de tu vida, compartiéndola con todas las personas que entren en la página. Las categorías son generadas, de forma colaborativa, por todos los usuarios. Las etiquetas más utilizadas hoy son: viajar, amor, aprender, música...Además, también puedes saber en cualquier momento qué personas están persiguiendo determinado objetivo.

  • Flickr: sitio Web de organización de fotografías digitales y red social. El servicio es utilizado extensamente como depósito de fotos. El sistema permite hacer búsquedas de imagen por etiquetas (tags), por fecha y por licencias de Creative Commons.

Como conclusión a todo esto, creemos que lograr lo que se proponen es algo imposible, pero que lo actual, si se puede convertir en algo mejor.