Institut de Recerche en Informatique de Nantes (IRIN)Le projet ThotOutils et techniques
pour explorer le web invisible

 
Page construite à partir d'informations collectées sur le Web à la mi-décembre 2000 dans le cadre du projet Thot.
Les spiders ne sont pas capables d’indexer tous les éléments qu’ils peuvent trouver. De fait, ils laissent de côté un grand nombre de
documents : Enfin, il faut ajouter à tout cela "les informations sur lesquelles on tombe en cliquant sur certaines bannières publicitaires; en naviguant souvent sur Internet; en tapant, intentionnellement, une fausse URL [Adresse d'un site Internet]"...

Le Web invisible correspond à l’ensemble des documents (textes, vidéos, images...) qui n’est pas indexé par les outils de recherche (moteurs, annuaires...). Ces données peuvent être soient de nature non indexable (animations), non référencées (volontairement ou non), ou dynamiques.

[Laurent Soron, "Le Web invisible, cet inconnu..."]

Généralités (quelques chiffres)

Moteurs de recherche indexent 800 000 sites et 750 000 millions d'exclus [2] ????
15 teractets d'informations [2]
180 millions d'images [2]
1.5 milliards de pages indexables [4]

En 1997 : 320 millions de pages
En Fev. 1999 [1] 800 millions de pages, 6000 milliards de caractères

Moteurs de recherche généraux

Méta-moteurs de recherche


Outils spécialisés web invisible

Bases de données

Env. 1000 bd spécialisées sur le web. [2]

Des explications sur le fonctionnement :

Divers :


Liens et Références principales

  1. Lawrence and Giles, "Accessibility of Information on the Web", Nature, Vol. 400, July 8, 1999, pp. 107-109.
  2. K. Wiseman, "The Invisible Web for Educators", (http://www3.dist214.k12.il.us/invisible/resources.html)
  3. D. Sullivan, "Search Engine Sizes", SearchEngineWatch.com, November 8, 2000 (http://www.searchenginewatch.com)
  4. Chris Sherman, "The invisible Web", http://websearch.about.com/internet/websearch/library/weekly/aa061199.htm
  5. Béatrice FOENIX-RIOU, "800 MILLIONS DE PAGES WEB PEU INDEXEES PAR LES MOTEURS",  Netsources - n19 (http://www.direct-way.com/netsource/n21.html)
  6. Laurent Soron, "Le Web invisible, cet inconnu...", http://lsoron.free.fr/dossiers/invis/invis.html

Page modifiée le 3 / 2 / 2003

Pour vos commentaires : Emmanuel.Desmontils@irin.univ-nantes.fr