viernes, 21 de octubre de 2011






 "BUSQUEDA DE DOCUMENTOIS ACADEMICOS"


      Históricamente, la importante editorial Elsevier fue la primera en detectar que existía una nueva necesidad de información académica en la Web y que, por tanto, se necesitaba una nueva clase de sistemas de información para la Web. En concreto, Elsevier concibió un sistema capaz de indizar páginas web de manera automática, es decir, tal como lo hacen los motores convencionales, pero que fuera capaz de filtrar la información de manera que pudiera ser admisible y fiable para los estrictos criterios del mundo académico.

Ese producto se llamó Scirus (www.scirus.com) y, al parecer su éxito despertó suficientes recelos en Google para que esta empresa intentara una operación parecida, y así tuvimos unos pocos años después Google Scholar (scholar.google.com).
Por imitación (y para suerte del mundo académico) Microsoft no quiso ser menos y, desde inicios del 2007 contamos con un nuevo contendiente en este apasionante campo: Live Search Academic (academic.live.com).
La característica principal de los tres sistemas es que solamente indizan sitios web vinculados con el mundo académico. Qué se entiende por "mundo académico" cambia en cada caso. La perspectiva que combina, a la vez, rigor y máxima amplitud corresponde sin duda a Scirus. La perspectiva que se ciñe con el máximo rigor, pero en esta caso a costa de la amplitud, corresponde a Live Search Academic y, en alguna posición intermedia, se encuentra Google Scholar.
Con el fin de poder presentar una comparativa entre los tres motores, proponemos la siguiente tipología de documentos académicos:
1.    Tipo 1: Páginas web y documentos de todo tipo (Word, ppt, etc.) publicados en sitios de instituciones académicas o científicas (p.e., sitios del tipo.edu).
2.    Tipo 2: Artículos de publicaciones científicas tipo peer review, ya se trate de publicaciones open acceso de publicaciones de pago.
3.    Tipo 3: Trabajos académicos tales como tesis doctorales o tesis de licenciatura.
4.    Tipo 4: Documentos depositados en repositorios científicos (e-prints) ya sean pre-pirnts, post-prints, materiales didácticos, etc.
5.    Tipo 5: Patentes
6.    Tipo 6: Libros (monografías)
      
      Los seis tipos de documentos anteriores se solapan entre ellos. Por ejemplo, algunos repositorios incluyen tesis doctorales (aunque no todos); algunos repositorios han sido creados por asociaciones científicas o por agencias gubernamentales, pero otros creados y mantenidos por universidades y se accede a ellos a través de su sitio web, etc. Pese a todo, la distribución anterior nos será útil aquí para situar en contexto a los motores de búsqueda académicos.
A partir de la clasificación anterior, podemos establecer una tabla como la siguiente para presentar una comparativa de los tres sistemas anteriores en relación la clase de documentos que incluyen (o sea, en relación a sus "inputs"):


Sistema Tipo 1 Tipo 2 Tipo 3 Tipo 4 Tipo 5 Tipo 6
Scirus
x
x
x
x
x
.
Live Search Academic
.
x
.
.
.
.
Google Scholar
x
x
x
x
.
x

      Como se puede observar, de los seis tipos posibles, Scirus y Google Scholar tienen 5 de ellos (aunque no coincidentes): Scirus no tiene libros y, por su parte, Google no tiene patentes. Live tiene solamente uno, mientras que el Tipo 2 (revistas científicas) es, como parece lógico si se mira bien, el único común a los tres motores. En lo que sigue presentaremos con un poco más de detalle cada uno de los tres motores.

Scirus



 La austera pero potente y eficaz pantalla principal de Scirus

Contexto

 

      El motor de búsqueda Scirus es, como ya se ha apuntado antes, una creación de la importante editorial de revistas científicas holandesa Elsevier (www.elsevier.com) que es parte, a su vez, del gigante editorial anglo-holandés Reed-Elsevier (www.reed-elsevier.com), editor de libros y revistas y productor de bases de datos como Lexis-Nexis.
La cuestión es que Elsevier parece haber comprendido muy bien importantísimo papel que la Web está jugando en la distribución de información académica y dispone de otras dos grandes bases de datos (en este caso y a diferencia de los motores que analizaremos aquí, dirigidas a su utilización en el contexto de bibliotecas universitarias): Science Direct (www.sciencedirect.com) y Scopus (www.scopus).
Scirus fue fundado en el año 2001 y, poco a poco ha ido ampliando su campo de acción incorporando sucesivamente nuevas fuentes hasta convertirse en un auténtico gigante y en el más completo sistema de los tres (Google Scholar y Windows Live). En un análisis realizado a finales del año 2006 (Jacsó, 2006) se constató que contenía más de 300 millones de documentos (empezó con 50 millones en 2001, de manera que ha multiplicado su contenido por seis desde entonces). Otros dos análisis previos (Giustini y Barksy, 2005; Doldi y Bratengeyer, 2005) confirmaron en su momento que Scirus era, con mucha diferencia más completo que Google Scholar (no existía Live en 2005) por lo que hacía a repositorios científicos del tipo American Physical Society o PubMed.

Inputs

 

      Los inputs de Scirus, es decir, el origen de los documentos que incluye en sus índices son los siguientes (nos guiamos por la propia categorización de Scirus):
1.    Artículos de revistas: principalmente, publicaciones académicas de la propia editorial Elsevier (unos 2.000 títulos) más un amplio grupo de publicaciones de tipo open Access. Son los documentos que Scirus agrupa bajo la denominación Journal Sources en su página de resultados y la opción del mismo nombre que se puede marcar o desmarcar en su formulario de búsqueda.
2.    Repositorios institucionales o académicos: este apartado incluye repositorios como el de la NASA sobre astronomía o el de la biblioteca de la Cornell University sobre ciencias (física, informática, biología y matemáticas), hasta un total (en teoría) de 18 repositorios, entre los que debemos destacar, además de los mencionados, el de tesis doctorales de la red internacional NDLTD y el de patentes de Lexis-Nexis que incluye patentes de Estados Unidos, Japón y Europa. Decimos "en teoría" porque las pruebas demuestran que en realidad utiliza más repositorios, por ejemplo, hemos podido comprobar que utiliza también E-LIS, un repositorio sobre Biblioteconomía-Documentación que no aparece en la lista "oficial" de fuentes de Scirus. Esta clase de documentos está señala por Scirus bajo la denominación Preferred Web Sources.
3.    Páginas y documentos publicados en sitios web: en este caso se trata excusivamente de servidores de universidades, de instituciones académicas o de departamentos o institutos de I+D de algunas empresas. Desde el punto de vista del dominio, se trata mayoritariamente de sitios del tipo.edu, ac.uk,.gov, etc. Este grupo se identifica en Scirus como Other Web Sources.

Google Scholar





La súper austera interfaz de Google Scholar

Contexto

 

      A estas alturas es difícil presentar a Google. Ha sido la empresa que ha revolucionado de tal manera la búsqueda en la Web que incluso ha acabado afectando a los hábitos de navegación. Por ejemplo, la mayoría de los internautas ya no utiliza los Preferidos del navegador: prefiere entrar el nombre de la web en la más famosa caja de búsqueda de la historia. Muchos tampoco entran ya una URL completa si ésta en medianamente complicada. Prefirieren entrar una parte del nombre de la web sabiendo que Google les llevará a ella, probablemente en el primer resultado. Ha empujado a los directorios generalistas, como Yahoo o Dmoz, prácticamente a la clandestinidad y ha barrido a los centenares de directorios nacionales e internacionales que existían antes del 2000. La influencia de Google se ha dejado sentir también en el primer modelo de negocio que ha sido capaz de generar beneficios en la Web: su sistema de anuncios AdWord y AdSense, imitado también por sus competidores.
Por último, prácticamente han creado (u obligado a desarrollar, según se mire) una rama de la matemática: el análisis de enlaces. Lo cierto es que son muchas cosas las que Google ha aportado a la Web. La cuestión es que, en su búsqueda incesante de nuevas actividades (siempre pensado en reforzar su modelo de negocio, no lo olvidemos), desde hace dos años Google se decidió a entrar en el mercado de los motores académicos y lanzó Google Scholar (Google Académico) con algunas ideas (relativamente) nuevas. La más importante, sin duda, la de llevar a la Web el análisis de citaciones (por eso decimos que era una idea relativamente nueva).

Inputs

 

      De acuerdo con la documentación oficial (y como es fácil comprobar con un simple test) los inputs de Google Scholar consisten en lo siguiente:
1.    Artículos de revistas: en este caso se trata de artículos de las editoriales académicas que han aceptado formar parte del programa de Google Scholar. En una línea secretista que comienza a ser demasiado característica de Google, no existe una documentación pública (al menos este analista no la ha encontrado) que detalle qué editoriales son en concreto. Mediante pruebas sucesivas es fácil ver que hay una amplia representación de ellas, pero naturalmente, esto no substituye la buena práctica que consistiría en ir publicando periódicamente qué editoriales están en el programa de Google Scholar.
2.    Libros: al igual que en el caso anterior, se trata de editoriales que han aceptado formar parte de los contenidos de Google Scholar, en este caso, editoriales de libros. Tampoco disponemos de forma pública de una lista de tales editoriales. En todo caso, lo anterior es solamente una de las variedades de esta entrada. La segunda consiste en acuerdos con bibliotecas para obras cuyo derecho de autor haya caducado por haber transcurrido más de los X años que cada legislación (la europea, la norteamericana, etc.) establece después de la muerte del autor para que la obra pueda pasar a dominio público. En general, cabe señalar que, en el caso que alguno de los resultados de Scholar sea un libro, el sistema nos remitirá a Google bocks para su examen. No obstante, entendemos que debemos incluimos aquí esta categoría documental porque está integrada en las búsquedas de Scholar.
3.    Sitios Web: Al igual que Scirus, incluye documentos y páginas de sitios web vinculados con el mundo académico. La documentación oficial de Scholar no explica cómo seleccionan estos sitios. Es posible deducir, no obstante, que debe utilizar un sistema similar al de Scirus, a saber, indizar sitio del tipo.edu, etc., sin perjuicio que tengan una lista de URL (sitios) de partida para analizar y a partir de los cuales encuentren otros, etc. En esta categoría, Google Scholar incluye también repositorios de e-prints como los mencionados a propósito de Scirus.
El principal problema de Google Scholar es que no facilita ninguna información precisa sobre sus fuentes concretas. No tenemos una lista ni de editoriales ni de repositorios, ni tampoco una estimación sobre el número de sitios que indizan o sobre el número de documentos que contiene. En su lado positivo, podemos señalar que ha construido su propio índice de impacto, basado en citaciones que se aplica a todos los resultados. De forma que representa algo así como la alternativa económica al índice ISI (con muchas menos prestaciones, al menos por el momento).

Live Search Academic




Live Search presenta la única interfaz en el mundo
de la búsqueda en la Web que no intenta imitar la de Google

 Contexto

 

      Microsoft (la compañía propietaria de Live Search) tiene una curiosa historia con la Web: casi siempre llega tarde, pero acaba dominando todo o parte del sector. Les sucedió con los navegadores, con el correo electrónico y les ha sucedido con las búsquedas en la Web. Les ha vuelto a suceder con las búsquedas para objetivos académicos, es decir, en este caso se cumple solamente la primer parte: han llegado tarde. Lo que no sabemos es si acabarán dominado una buena parte del sector, como consiguieron hacer en el caso de los navegadores.
En todo caso, Microsoft es la única empresa del mercado informático que dispone de capacidad tecnológica y financiera suficiente para plantear un desafío creíble al lider actual de las búsquedas generalistas en la web (Google), por un lado, y al líder de las búsquedas académicas por otro (Scirus). Solamente una incomprensible lista de fracasos anteriores de Microsoft en este campo hace difícil pensar en su liderazgo a medio plazo, pese a los medios de que dispone.

Inputs

 

      En el caso de Live Academic, la lista de inputs es simple: artículos de revistas académicas procedentes de diversas editoriales y sociedades científicas ¿Cuáles son estas revistas participantes? Por suerte, Live Academics es algo más transparente que Google en este aspecto y proporciona una la lista de lo que denominan " participating publishers”. En esta lista aparecen publicaciones como: ACM, Blackwell, Elsevier, Nature, Springer-Verlag y así hasta poco más de cincuenta " publishers”. Lo que sucede es que uno solo de estos "publishers" edita hasta 2000 títulos distintos. Lo que no indica aquí Live Academic es cuántos títulos de estas editoriales incluye, es decir, si incluye todas sus publicaciones o solamente una parte. Las pruebas muestran que, al menos el momento solo incluye una parte, y no muy amplia, de los títulos de estas editoriales. La lista también  demuestra que su lista no incluye editoriales fuera del ámbito anglosajón. Ciertamente, una búsqueda usando palabras clave en castellano arroja algún resultado, pero siempre corresponde al hecho de que alguna editorial no española, como Elzevir haya publicado alguna vez, casi por casualidad, algún documento en castellano. Nada que ver con el hecho de incluir, por ejemplo, las publicaciones del CSIC o de cualquier otro editor español (en lengua castellana o en cualquier otra lengua)
Si Microsoft piensa tomar en serio su nuevo motor de búsqueda no hay duda que deberá ampliar su lista de "Publisher" a varias bandas: editoriales de otros países, pero también mayor número de títulos de cada editorial.

PUBLICADO POR: CIBEREXPLORADOR ANA ITZEL ANDRADE PERDOMO 1° "D"

No hay comentarios:

Publicar un comentario