1.
DEFINICIÒN:
Se denomina 'Internet invisible' o Infranet al
conjunto de recursos accesibles únicamente a través de algún tipo de pasarela o
formulario Web que por tanto, no pueden ser indicados de forma estructural por
los robots de los buscadores. Es toda la información a la cual no acceden los
buscadores comunes. Generalmente, es información almacenada y accesible
mediante base de datos. Se llama Internet invisible al conjunto de recursos Web
a los que se consigue acceder de manera indirecta y habitualmente con alguna
restricción, cuyo contenido permanece vedado a la indización de los robots de
búsqueda de los buscadores. En 1994 la doctora Jill Ellsworth utilizó el
término de "Invisible Web" ( Internet Invisible ), para
referirse a la información que los motores de búsqueda tradicionales no pueden
encontrar. Otra forma de denominar a esta información es " depp web”
(Internet profunda ) , ya que en realidad no es invisible, sólo hay que saber
llegar a ella a través de navegadores convencionales o con plugin. Por ello, el
término más correcto para denominar a la web invisible sería " no
indizable ".
2.
TIPOS DE
INTERNET
Internet
global: Red de información libre y gratuita que es accesible mediante la
interconexión de ordenadores. La forma de acceso se realiza mediante programas
navegadores, Chats, mensajería o intercambio de protocolos (FTP, P2P).
Internet
invisible: Información que está disponible en Internet pero que únicamente es
accesible a través de páginas generadas dinámicamente tras realizar una
consulta en una base de datos. Es inaccesible mediante los procesos habituales
de recuperación de la información que realizan buscadores, directorios y
agentes de búsqueda. Pero podemos acceder mediante herramientas de navegación,
correo. Internet oscuro: Los servidores o host que son totalmente inaccesibles
desde nuestro ordenador. La causa principal se debe a zonas restringidas con
fines de seguridad nacional y militar, otros motivos son la configuración
incorrecta de routers, servicios de cortafuegos y protección, servidores
inactivos y finalmente "secuestro" de servidores para
utilización ilegal.
3.
TIPOS DE
INFORMACIÒN
Bases de
datos: los buscadores sólo proporcionan acceso a la página de inicio porque
las restantes son dinámicas.
Documentos
en formato pdf, word...: los motores de búsquedas fueron creados sólo para
localizar e indizar páginas html, aunque actualmente Google indiza documentos
en formato pdf, doc, xml.
Páginas
web que no son indexadas por los motores de búsqueda: porque
se excluyen ellas mismas a través de un protocolo de exclusión.
Sitios
web que necesitan contraseña: los motores de búsqueda no pueden acceder al
contenido de estas páginas.
4.
TAMAÑO
ESTIMADO
Por cada millón de páginas
visibles hay otros 500 0 550 millones ocultas. El 90% es información pública y
gratuita. La información es de 400 a 550 veces mayor que la web visible.
Calidad 1000-2000 veces superior a la web visible.
5.
SITIOS DE
DUDOSA CALIDAD
6.
SITIOS DE
BUENA CALIDAD
7.
CLASIFICACIÒN DE INTERNET INVISIBLE
Sherman y Price (2001) identifican cuatro tipos de
contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada
(the private Web), la Web propietaria (the proprietary Web) y la Web realmente
invisible (the truly invisibleWeb).
8. WEB
OPACA
Se compone de archivos que podrían estar incluidos
en los índices de los motores de búsqueda, pero no lo están por alguna de estas
razones:
Extensión de la indización: por economía, no todas
las páginas de un sitio son indizadas en los buscadores.
Frecuencia de la indización: los motores de
búsqueda no tienen la capacidad de indizar todas las páginas existentes;
diariamente se añaden, modifican o desaparecen muchas y la indización no se
realiza al mismo ritmo.
Número máximo de resultados visibles: aunque los
motores de búsqueda arrojan a veces un gran número de resultados de búsqueda,
generalmente limitan el número de documentos que se muestran (entre 200 y 1000
documentos).
URL’s desconectados: las generaciones más recientes
de buscadores, como Google, presentan los documentos por relevancia basada en
el número de veces que aparecen referenciados o ligados en otros. Si un
documento no tiene una liga en otro documento será imposible que la página sea
descubierta, pues no habrá sido indizada.
9. WEB
PRIVADA
Consiste en las páginas Web que podrían estar
indizadas en los motores de búsqueda pero son excluidas deliberadamente por
alguna de estas causas: Las páginas están protegidas por contraseñas
(passwords). Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador índice la parte
correspondiente al cuerpo de la página.
10. WEB
PROPIETARIA
Incluye aquellas páginas en las que es necesario
registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se
dice que al menos 95% de la Web profunda contiene información de acceso público
y gratuito (Turner, 2003)
11. WEB
REALMENTE INVISIBLE
Se compone de páginas que no pueden ser indizadas
por limitaciones técnicas de los buscadores, como las siguientes:
·
Páginas Web que incluyen formatos como PDF,
PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
·
Páginas generadas dinámicamente, es decir, que se
generan a partir de datos que introduce el usuario.
·
Información almacenada en bases de datos
relacionales, que no puede ser extraída a menos que se realice una petición
específica.
·
Otra dificultad consiste en la variable estructura
y diseño de las bases de datos, así como en los diferentes procedimientos de
búsqueda.
12.
CLASIFICACIÒN DE LA WEB INVISIBLE
Web invisible contiene un gran número de fuentes de
información que no pueden buscarse porque su contenido no ha sido indizado ni
puede serlo por los principales buscadores. Aun cuando recuperemos un sitio que
contenga una base de datos, es improbable que el buscador conduzca a la base de
datos misma, puesto que requiere que se navegue por el sitio Web para
encontrarla. Así pues, la Web invisible está constituida por toda esa
información accesible vía Web, pero a la que no es posible llegar mediante una
consulta a los buscadores tradicionales .
13. BASES
DE DATOS BIBLIOGRÁFICAS :
Incluidos los catálogos de bibliotecas, las bases
de datos de referencias bibliográficas, gratuitas o de pago, etc. Bases de
datos alfanuméricas y a texto completo : que incluyen en esta categoría las
obras de referencia, tipo enciclopedia o diccionarios. Revistas electrónicas y
archivos de documentos : tanto las de acceso gratuito, que normalmente exigen
registro previo, como los repositorios institucionales; como las de pago
(acceso a través de IP o clave personal), que son invisibles a los motores de
búsqueda tradicionales. Documentos en formatos no indizables , esto es,
ficheros no HTML o textuales desarrollados con formatos más elaborados (pdf;
ppt; doc; etc).
14.
EJEMPLOS
Bibliotecas Digitales Base de Datos de Bibliotecas
Catálogos de Editoriales Directorio de publicaciones Periódicas Directorio de
base de Datos Guías o recopilaciones de sitios.
15.
SITIOS DE INTERNET INVISIBLE
Motores de Búsqueda Buscadores:
Especializados- Regionales-Generales. Ejemplo: Google Youtube Altavista Web
crawler.
16.
METABUSCADORES
Un metabuscador es una clase de buscador que carece
de base de datos propia y, en su lugar, usa las de otros buscadores y muestra
una combinación de las mejores páginas que ha devuelto cada buscador. EJEMPLO:
IXQUICK MAMMA VIVISIMO GLUSTY
17.
DIRECTORIO
Es una agrupación de archivos de datos, atendiendo
a su contenido, a su propósito o a cualquier criterio que decida el usuario.
Técnicamente el directorio almacena información acerca de los archivos que
contiene: como los atributos de los archivos o dónde se encuentran físicamente
en el dispositivo de almacenamiento. EJEMPLO: EXIT YAHOO
18.
CONCLUSIONES
·
Calidad y cantidad
·
Ahorro de tiempo
·
Ahorro de dinero
Deepweb from giordanocor
No hay comentarios:
Publicar un comentario