Outils et techniques
pour explorer le web invisible

Page construite à partir d'informations collectées sur le Web à la mi-décembre 2000 dans le cadre du projet Thot.

Les spiders ne sont pas capables d’indexer tous les éléments qu’ils peuvent trouver. De fait, ils laissent de côté un grand nombre de
documents :

Tout d’abord, tous les fichiers ne sont pas indexés : impossible donc de trouver un document (de traitement de texte, tableur...), une animation (Flash), un fichier Pdf... Seuls les fichiers musicaux (MP3, midi), images (gif, jpg...) et documents au format HTML (bientôt ceux au format XML) sont " correctement " indexés.
Les spiders n’indexent pas la totalité des sites qu’ils visitent : ils choisissent quelques liens, et au mieux indexent un niveau de l’arborescence. D’où l’importance des fameux " metatags " et de la page d’accueil... De même les annuaires refusent plus de sites qu’ils n’en acceptent (pour ne garder que les plus représentatifs). Si un site n’est pas référencé et qu’aucun autre site ne pointe sur lui, il est tout simplement introuvable....
Une bonne partie des sites sont trop nouveaux ou n’ont pas fait la démarche du référencement pour être présent dans les bases des outils. Par exemple, certaines parties des sites des universités.
Il est courant désormais de consulter des pages dites " dynamiques " (.asp, .php, .pl...), c’est à dire créées par un script (perl, php, python...). Certaines pages sont générées par des scripts à partir des informations d’une (ou plusieurs) base(s) de données. Les spiders étant incapables de tester toutes les solutions, ces pages restent invisibles si on se contente des outils classiques. Les forums ne sont pas indexés.
Les pages d’un site peuvent être " interdites de référencement ". En utilisant un fichier "Robots.txt" (http://info.webcrawler.com/mak/projects/robots/faq.html), il est possible d’interdire le référencement de tout ou partie d’un site aux moteurs de recherche. Pensez à toutes les données confidentielles d’une entreprises (dans le cas d’un extranet par exemple).
L'information est mal indexée par le moteur. L'algorithme utilisé n'a pas été n'a pas jugé pertinente la page visée par-rapport à la requête.

Enfin, il faut ajouter à tout cela "les informations sur lesquelles on tombe en cliquant sur certaines bannières publicitaires; en naviguant souvent sur Internet; en tapant, intentionnellement, une fausse URL [Adresse d'un site Internet]"...

Le Web invisible correspond à l’ensemble des documents (textes, vidéos, images...) qui n’est pas indexé par les outils de recherche (moteurs, annuaires...). Ces données peuvent être soient de nature non indexable (animations), non référencées (volontairement ou non), ou dynamiques.

[Laurent Soron, "Le Web invisible, cet inconnu..."]

Généralités (quelques chiffres)

Moteurs de recherche indexent 800 000 sites et 750 000 millions d'exclus [2] ????
15 teractets d'informations [2]
180 millions d'images [2]
1.5 milliards de pages indexables [4]

En 1997 : 320 millions de pages
En Fev. 1999 [1] 800 millions de pages, 6000 milliards de caractères

Moteurs de recherche généraux

Alta Vista (http://www.altavista.com) (http://fr.altavista.com/) ;

150 millions de pages et 10 millions indexées par jour [2]
350 millions de pages [3] [4]

Excite (http://www.excite.com) (http://fr.excite.com/) ;

50 millions de pages et 3 millions par jour [2]
250 millions de pages [3]

Ecila (http://www.ecila.fr/)
Lokace (http://www.lokace.com/) ;
Voila (http://www.voila.fr/)
Yahoo (http://www.yahoo.com) (http://fr.yahoo.com/) ;
Northern Light (http://www.northernlight.com) ;

16% du web en 1999 [1]
120 millions de pages et 5 millions indexées par jour [2]
330 millions de pages [3]

InkTomi

HotBot (http://www.hotbot.com/) ;

34% du web en 1997 et 11% en 1999 [1]
110 millions de pages et 10 millions par jour [2] (par InkTomi [3] donc aussi iWon, NBCi)
500 millions [4]

Snap (http://www.snap.com) ;

Google (http://www.google.com) ;

602 Millions de pages (potentiel de 1,247 milliards) [3]

Searchopolis (http://www.searchopolis.com) ;
Infoseek (Go) (http://www.go.com/);

45 millions de pages [2]
50 millions de pages [3]

Lycos (http://www.lycos.com/) ;

50 millions de pages et 5 millions par jour [2]

Web crawler (http://) ;

2 millions de pages [2]

Ask Jeeves (http://www.askjeeves.com/) ;
Ditto (http://www.ditto.com) ;
GoTo (http://www.goto.com) ;
Web Top

500 millions de pages [3]

FAST (http://ftpsearch.lycos.com)

575 Millions de pages [3]

Méta-moteurs de recherche

Inference (http://www.infind.com) (http://www.infind.com/infind_fr/index.html) ;
moteurs de recherche - annuaires de recherche - francophones internationaux (http://www.acorus.fr/general/index.htm)
Savvy Search (http://www.savvysearch.com/) ;

Yahoo!; Direct Hit ; Lycos ; Inktomi ; GoTo.com

DogPile (http://dogpile.com/) ;
MetaCrawler (http://www.go2net.com/search.html) ;

DirectHit, Excite, Infoseek, LookSmart, Lycos, Internet Keywords

Alba36 (http://db.alba36.com/top/lang=FRZ) ;
the Big Hub (http://www.thebighub.com/) ;

GoTo.com; Sprinksby About; FindWhat; Kanoodle; RocketLinks; 7Search; Lycos; AltaVista; Infoseek;Yahoo
répertoire de 1500 BD spécialisées sur 300 catégorie.

ixquick (http://ixquick.com/fra/)

Ecila; AltaVista; C'est trouvé; Carrefour; Lokace; Lycos; NetScan; Nomade; EuroSeek; Excite; Francité; Répertoire Ouvert; Toile; Voila
Debriefing (http://www.debriefing.com/france/) ;

Outils spécialisés web invisible

Deja (http://www.deja.com/)
Octopus réservation d'avions en ligne (http://www.octopus.resa-en-ligne.com/)
Cora Research Paper Search (http://www.cora.justresearch.com/)
Annuaires

AnyWho (http://www.anywho.com)
SwitchBoard (http://www.switchboard.com/)
Phone Net UK (http://www.bt.com/phonenetuk/)

Beaucoup (http://www.beaucoup.com) : recherche d'une DB contenant une information particulière.
Lycos Invisible WebCatalog (http://dir.Lycos.com/Reference/Searchable_Databases/) sur + de 7000 sources de recherche. Plus d'une dizaine de thèmes et plus 380 millions de pages référencées et organisés.
Sherlock (Apple) (http://www.apple.com/sherlock/) [2]

Apple Donuts : plus de 400 plug-ins pour l'accès à des sites dynamiques ou des BD (http://www.apple-donuts.com)

Mata Hari - LexiBot! (http://www.thewebtools.com/)
Internet EZ Search (http://www.lycos.com/)
Pages de Gary Price :

Direct Search (http://gwis2.circ.gwu.edu/~gprice/direct.htm) ;
News Center (http://gwis2.circ.gwu.edu/~gprice/newscenter.htm) ;
Enregistrements audio et vidéo de news (http://gwis2.circ.gwu.edu/~gprice/audio.htm);

Speachbot engine (http://speechbot.research.compaq.com) (sons) ;
EDGAR, 10kwizard (http://www.tenkwizard.com/) : infos financières ;
Mercury Center (PricewaterhouceCooper) (http://wwdyn.mercurycenter.com/business/moneytree/) ;
(http://urfist.univ-lyon1.fr/gratuits.html) : Une référence dans les domaines de la santé et de la médecine. A voir aussi, des astuces pour interroger Altavista à propos des bases de données.
Invisible Web de Intelliseek (http://www.invisibleweb.com/) : Le site classique pour commencer une recherche dans ce domaine. Portail sur le web invisible.

BullsEye (http://www.intelliseek.com/prod/bullseye.htm) méta-moteur d'Intelliseek qui accède à Invisible Web

All-One-Search (http://www.allonesearch.com/) : "le plus ancien de ces outils de recherches en bases de données il vous permet de chercher à l'intérieur de différentes bases de données (en électonique ou informatique notamment) sinon c'est un croisement entre le moteur de recherche sur les prix de produits, les sources internet. Difficile à appréhender."
Argus Clearinghouse (http://www.clearinghouse.net/) : "le plus connu des outils du web". Défaut : pas de définition ou de résumé des bases de données.
Alpha search (http://www.calvin.edu/library/searreso/internet/as/) : un autre outil bien réalisé. Il est possible de préciser si on cherche une base de donnée, un document officiel ou un journal. (pas de recherche avancée.). Collection de sites spécialisés.
Site international des bibliothèques. (http://www.lights.com/webcats/)
Web Data (http://www.webdata.com/webdata.htm) : un outil qui référence de nombreuses bases de données. "Cet outil de recherche est bien pour identifier des bases de données grand public ou familial, il est moins performant pour les sujets scientifiques."

Webdata (http://ie4.webdata.com)

Education - Enseignement

Bubl Link (http://bubl.ac.uk/link/) : L'outil intègre des milliers de liens de bases de données mais aussi de sites fondamentaux. Un outil à avoir dans ses favoris. Selected Internet resources covering all academic subject areas
Infomine Multiple Database Search (http://infomine.ucr.edu/Main.html; http://infomine.ucr.edu/search.phtml) : un "délicieux et gigantesque bric à brac...". "Créé par l'Université de Californie il s'agit d'un travail intéressant et titanesque à avoir dans ses favoris.". Moteur de recherche académique, ressources scolaires, journaux et livres electroniques (méta-moteur)
Infobourg (http://www.infobourg.qc.ca/)

La librarians index de l'Université de Berkeley (http://lii.org/). Elle inclut "les listes de diffusion, les sources majeures, les encyclopédies et les dictionnaires" (peu pertinent sur les deux derniers).
The Internet Public Library (http://www.ipl.org)
Un répertoire de périodiques (http://www.publist.com/). L'intérêt principal de cet outil est que les sites sont bien classés avec une fiche technique et descriptive.
The Scout Report Signpost (http://www.signpost.org/signpost/) : site créé par l'Université du Wisconsin, la National Science Fundation et la Library du Congrés. "Très mauvais pour les sujets scientifiques mais très bon pour les sujets historiques".
Les signets de la BNF (http://www.bnf.fr/web-bnf/liens/index.htm)
CoAlliance (http://www.coalliance.org/) : un programme d'universités américaines regroupant leurs ressources documentaires. "Des ressources en bases de données, références d'articles et Newsletters". "Trop mal organisé sur ce sujet mais très bon pour localiser des journaux électroniques".

Electronic Journal Access (http://www.coalliance.org/ejournal)

NewJour (http://gort.ucsd.edu/newjour)
Répértoire des banques de données (http://www.adbs.fr)

http://www.adbs.fr/adbs/sitespro/lardy/outils.htm

Strategic Road (http://www.strategic-road.com) : ce site vous propose de réaliser vos recherches par thèmes.
The WWW Virtual Library (http://www.vlib.org)
Acess (http://www.access.gpo.gov/su_docs/aces/aaces002.html) BD en GPO
Inria (http://www.inria.fr/InfoWeb/)