miércoles, 25 de marzo de 2015

La deepweb

1.    DEFINICIÒN:
Se denomina 'Internet invisible' o Infranet al conjunto de recursos accesibles únicamente a través de algún tipo de pasarela o formulario Web que por tanto, no pueden ser indicados de forma estructural por los robots de los buscadores. Es toda la información a la cual no acceden los buscadores comunes. Generalmente, es información almacenada y accesible mediante base de datos. Se llama Internet invisible al conjunto de recursos Web a los que se consigue acceder de manera indirecta y habitualmente con alguna restricción, cuyo contenido permanece vedado a la indización de los robots de búsqueda de los buscadores. En 1994 la doctora Jill Ellsworth utilizó el término de "Invisible Web" ( Internet Invisible ), para referirse a la información que los motores de búsqueda tradicionales no pueden encontrar. Otra forma de denominar a esta información es " depp web” (Internet profunda ) , ya que en realidad no es invisible, sólo hay que saber llegar a ella a través de navegadores convencionales o con plugin. Por ello, el término más correcto para denominar a la web invisible sería " no indizable ".


2.    TIPOS DE INTERNET
Internet global: Red de información libre y gratuita que es accesible mediante la interconexión de ordenadores. La forma de acceso se realiza mediante programas navegadores, Chats, mensajería o intercambio de protocolos (FTP, P2P).
Internet invisible: Información que está disponible en Internet pero que únicamente es accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos. Es inaccesible mediante los procesos habituales de recuperación de la información que realizan buscadores, directorios y agentes de búsqueda. Pero podemos acceder mediante herramientas de navegación, correo. Internet oscuro: Los servidores o host que son totalmente inaccesibles desde nuestro ordenador. La causa principal se debe a zonas restringidas con fines de seguridad nacional y militar, otros motivos son la configuración incorrecta de routers, servicios de cortafuegos y protección, servidores inactivos y finalmente "secuestro" de servidores para utilización ilegal.
           
3.    TIPOS DE INFORMACIÒN
Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio porque las restantes son dinámicas.
Documentos en formato pdf, word...: los motores de búsquedas fueron creados sólo para localizar e indizar páginas html, aunque actualmente Google indiza documentos en formato pdf, doc, xml.
Páginas web que no son indexadas por los motores de búsqueda: porque se excluyen ellas mismas a través de un protocolo de exclusión.
Sitios web que necesitan contraseña: los motores de búsqueda no pueden acceder al contenido de estas páginas.

4.    TAMAÑO ESTIMADO
Por cada millón de páginas visibles hay otros 500 0 550 millones ocultas. El 90% es información pública y gratuita. La información es de 400 a 550 veces mayor que la web visible. Calidad 1000-2000 veces superior a la web visible.

5.    SITIOS DE DUDOSA CALIDAD

6.    SITIOS DE BUENA CALIDAD

7. CLASIFICACIÒN DE INTERNET INVISIBLE
Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisibleWeb).
8. WEB OPACA
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:
Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

9. WEB PRIVADA
Consiste en las páginas Web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas: Las páginas están protegidas por contraseñas (passwords). Contienen un archivo “robots.txt” para evitar ser indizadas. Contienen un campo “noindex” para evitar que el buscador índice la parte correspondiente al cuerpo de la página.

10. WEB PROPIETARIA
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito (Turner, 2003)

11. WEB REALMENTE INVISIBLE
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
·         Páginas Web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
·         Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
·         Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
·         Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.
12. CLASIFICACIÒN DE LA WEB INVISIBLE
Web invisible contiene un gran número de fuentes de información que no pueden buscarse porque su contenido no ha sido indizado ni puede serlo por los principales buscadores. Aun cuando recuperemos un sitio que contenga una base de datos, es improbable que el buscador conduzca a la base de datos misma, puesto que requiere que se navegue por el sitio Web para encontrarla. Así pues, la Web invisible está constituida por toda esa información accesible vía Web, pero a la que no es posible llegar mediante una consulta a los buscadores tradicionales .

13. BASES DE DATOS BIBLIOGRÁFICAS :
Incluidos los catálogos de bibliotecas, las bases de datos de referencias bibliográficas, gratuitas o de pago, etc. Bases de datos alfanuméricas y a texto completo : que incluyen en esta categoría las obras de referencia, tipo enciclopedia o diccionarios. Revistas electrónicas y archivos de documentos : tanto las de acceso gratuito, que normalmente exigen registro previo, como los repositorios institucionales; como las de pago (acceso a través de IP o clave personal), que son invisibles a los motores de búsqueda tradicionales. Documentos en formatos no indizables , esto es, ficheros no HTML o textuales desarrollados con formatos más elaborados (pdf; ppt; doc; etc).

14. EJEMPLOS
Bibliotecas Digitales Base de Datos de Bibliotecas Catálogos de Editoriales Directorio de publicaciones Periódicas Directorio de base de Datos Guías o recopilaciones de sitios.

15. SITIOS DE INTERNET INVISIBLE
 Motores de Búsqueda Buscadores: Especializados- Regionales-Generales. Ejemplo: Google Youtube Altavista Web crawler.

16. METABUSCADORES
Un metabuscador es una clase de buscador que carece de base de datos propia y, en su lugar, usa las de otros buscadores y muestra una combinación de las mejores páginas que ha devuelto cada buscador. EJEMPLO: IXQUICK MAMMA VIVISIMO GLUSTY

17. DIRECTORIO
Es una agrupación de archivos de datos, atendiendo a su contenido, a su propósito o a cualquier criterio que decida el usuario. Técnicamente el directorio almacena información acerca de los archivos que contiene: como los atributos de los archivos o dónde se encuentran físicamente en el dispositivo de almacenamiento. EJEMPLO: EXIT YAHOO

18. CONCLUSIONES
·         Calidad y cantidad
·         Ahorro de tiempo
·         Ahorro de dinero

 

No hay comentarios:

Publicar un comentario