miércoles, 17 de junio de 2015

Web Superficial VS Web Profunda


Se dice que sólo un 4% del total de la web es lo que llamamos la web visible o web superficial que es la que conocemos, por la que nos movemos habitualmente, y que el otro 96% está oculto a nuestros ojos y que dentro de este gran iceberg bajo la superficie se encuentra desde aquellas páginas que no pueden ser indizadas por los buscadores ya sea por el formato que tienen o simplemente porque están desconectadas y no tienen links que apunten a ella; hasta la web más profunda y oscura donde sólo se puede acceder con equipo muy especializado y con amplios conocimientos informáticos en la que se puede encontrar todo tipo de delincuentes y material ilegal, mercados negros, venta de drogas, armas, pedofilia, archivos gubernamentales, investigaciones ocultas, etc. Realidad o mito?? eso lo dejaremos para otro estudio más pormenorizado hecho por gente más cualificada, pero lo que si parece es que hay mucho ahi abajo de lo que jamás sabremos nada el común de los mortales.

Lo que si es cierto es que la web superficial es sólo una pequeña parte de lo que podemos encontrar en la red, podemos definir la web visible como aquella parte de la red cuyo
contenido puede ser indizado, y por tanto recuperado, por los motores de búsqueda,
mientras que la parte invisible correspondería a toda esa información presente en Internet
pero que no puede ser indizada ni recuperada por los motores de búsqueda tradicionales.

Las principales características de estas páginas o sitios superficiales son :

  • su información no está contenida en bases de datos
  • es de libre acceso
  • no se requiere la realización de un proceso de registro para acceder a la información.
  • mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos
con una URL fija y accesibles desde otro enlace.


Así mismo, la web profunda o invisible (sin entrar en la conocida como web oscura o ilegal donde se mezclan el mito y la realidad) puede dividirse en 4 grupos según Sherman y Price, cada uno de los cuales está formado por páginas y recursos con diferentes características:

La Web Opaca: Son aquellos sitios de la web que no están indizados por las limitaciones de los propios motores de búsqueda de los navegadores, como la extensión o la frecuencia de la indización o el número maximo de resultados visibles en una búsqueda o finalmente aquellas webs que al no estar referenciadas en otras webs mediante links a ellas los buscadores las consideran "desconectadas" y tampoco las indizan.

La Web Privada: Son páginas que han sido excluidas de los motores de búsqueda de los navegadores deliberadamente, bien porque estan protegidas por contraseñas o bien porque contienen archivo robots.txt o un campo noindex para evitar que los buscadores puedan indizarlas

La Web Propietaria: Son aquellas páginas en las que es necesario registrarse para acceder a su contenido.

La Web Realmente Invisible: Sería aquella que técnicamente los buscadores no pueden indizar al tratarse de archivos ejecutables o comprimidos, páginas generadas dinámicamente o informaciones almacenadas en bases de datos a las que el buscador no tiene acceso.

Aquí os dejo otra forma de dividir la web invisible, parecida, pero no igual, llevada a cabo por Isidro F. Aguillo:


Existen recursos de búsqueda para sumergirse en esta web invisible que podemos utilizar para acceder a lugares a los que nuestros buscadores habituales no pueden llevarnos:


  • Infoplease: Web de consulta organizada por áreas de conocimiento, consta de muchos atlas o enciclopedias, biografías o la posibilidad de consultar todo lo sucedido historicamente en un dia determinado
  • DeepWebTech: ofrece cinco motores de búsqueda para temas específicos como ciencia, medicina o negocios.
  • TechXtra: centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.