Outils
et techniques
pour explorer le web invisible
Page construite à partir d'informations collectées
sur le Web à la mi-décembre 2000 dans le cadre du projet
Thot.
Les spiders ne sont pas capables d’indexer tous les éléments
qu’ils peuvent trouver. De fait, ils laissent de côté un grand
nombre de
documents :
-
Tout d’abord, tous les fichiers ne sont pas indexés : impossible
donc de trouver un document (de traitement de texte, tableur...), une animation
(Flash), un fichier Pdf... Seuls les fichiers musicaux (MP3, midi), images
(gif, jpg...) et documents au format HTML (bientôt ceux au format
XML) sont " correctement " indexés.
-
Les spiders n’indexent pas la totalité des sites qu’ils visitent
: ils choisissent quelques liens, et au mieux indexent un niveau de l’arborescence.
D’où l’importance des fameux " metatags " et de la page d’accueil...
De même les annuaires refusent plus de sites qu’ils n’en acceptent
(pour ne garder que les plus représentatifs). Si un site n’est pas
référencé et qu’aucun autre site ne pointe sur lui,
il est tout simplement introuvable....
-
Une bonne partie des sites sont trop nouveaux ou n’ont pas fait la démarche
du référencement pour être présent dans les
bases des outils. Par exemple, certaines parties des sites des universités.
-
Il est courant désormais de consulter des pages dites " dynamiques
" (.asp, .php, .pl...), c’est à dire créées par un
script (perl, php, python...). Certaines pages sont générées
par des scripts à partir des informations d’une (ou plusieurs) base(s)
de données. Les spiders étant incapables de tester toutes
les solutions, ces pages restent invisibles si on se contente des outils
classiques. Les forums ne sont pas indexés.
-
Les pages d’un site peuvent être " interdites de référencement
". En utilisant un fichier "Robots.txt" (http://info.webcrawler.com/mak/projects/robots/faq.html),
il est possible d’interdire le référencement de tout ou partie
d’un site aux moteurs de recherche. Pensez à toutes les données
confidentielles d’une entreprises (dans le cas d’un extranet par exemple).
-
L'information est mal indexée par le moteur. L'algorithme utilisé
n'a pas été n'a pas jugé pertinente la page visée
par-rapport à la requête.
Enfin, il faut ajouter à tout cela "les informations sur lesquelles
on tombe en cliquant sur certaines bannières publicitaires; en naviguant
souvent sur Internet; en tapant, intentionnellement, une fausse URL [Adresse
d'un site Internet]"...
Le Web invisible correspond à l’ensemble des documents (textes,
vidéos, images...) qui n’est pas indexé par les outils de recherche (moteurs, annuaires...). Ces données peuvent être
soient de nature non indexable (animations), non référencées (volontairement ou non), ou dynamiques.
Généralités (quelques chiffres)
Moteurs de recherche indexent 800 000 sites et 750 000 millions d'exclus
[2] ????
15 teractets d'informations [2]
180 millions d'images [2]
1.5 milliards de pages indexables [4]
En 1997 : 320 millions de pages
En Fev. 1999 [1] 800 millions de pages, 6000 milliards de caractères
Moteurs de recherche généraux
Méta-moteurs de recherche
Outils spécialisés web invisible
-
Deja (http://www.deja.com/)
-
Octopus réservation d'avions en ligne (http://www.octopus.resa-en-ligne.com/)
-
Cora Research Paper Search (http://www.cora.justresearch.com/)
-
Annuaires
-
Beaucoup (http://www.beaucoup.com)
: recherche d'une DB contenant une information particulière.
-
Lycos Invisible WebCatalog (http://dir.Lycos.com/Reference/Searchable_Databases/)
sur + de 7000 sources de recherche. Plus d'une dizaine de thèmes
et plus 380 millions de pages référencées et organisés.
-
Sherlock (Apple) (http://www.apple.com/sherlock/)
[2]
-
Mata Hari - LexiBot! (http://www.thewebtools.com/)
-
Internet EZ Search (http://www.lycos.com/)
-
Pages de Gary Price :
-
Speachbot engine (http://speechbot.research.compaq.com)
(sons) ;
-
EDGAR, 10kwizard (http://www.tenkwizard.com/)
: infos financières ;
-
Mercury Center (PricewaterhouceCooper) (http://wwdyn.mercurycenter.com/business/moneytree/)
;
-
(http://urfist.univ-lyon1.fr/gratuits.html)
: Une référence dans les domaines de la santé et de
la médecine. A voir aussi, des astuces pour interroger Altavista
à propos des bases de données.
-
Invisible Web de Intelliseek (http://www.invisibleweb.com/)
: Le site classique pour commencer une recherche dans ce domaine. Portail
sur le web invisible.
-
All-One-Search (http://www.allonesearch.com/)
: "le plus ancien de ces outils de recherches en bases de données
il vous permet de chercher à l'intérieur de différentes
bases de données (en électonique ou informatique notamment)
sinon c'est un croisement entre le moteur de recherche sur les prix de
produits, les sources internet. Difficile à appréhender."
-
Argus Clearinghouse (http://www.clearinghouse.net/)
: "le plus connu des outils du web". Défaut : pas de définition
ou de résumé des bases de données.
-
Alpha search (http://www.calvin.edu/library/searreso/internet/as/)
: un autre outil bien réalisé. Il est possible de préciser
si on cherche une base de donnée, un document officiel ou un journal.
(pas de recherche avancée.). Collection de sites spécialisés.
-
Site international des bibliothèques. (http://www.lights.com/webcats/)
-
Web Data (http://www.webdata.com/webdata.htm)
: un outil qui référence de nombreuses bases de données.
"Cet outil de recherche est bien pour identifier des bases de données
grand public ou familial, il est moins performant pour les sujets scientifiques."
-
Education - Enseignement
-
Bubl Link (http://bubl.ac.uk/link/)
: L'outil intègre des milliers de liens de bases de données
mais aussi de sites fondamentaux. Un outil à avoir dans ses favoris.
Selected Internet resources covering all academic subject areas
-
Infomine Multiple Database Search (http://infomine.ucr.edu/Main.html;
http://infomine.ucr.edu/search.phtml)
: un "délicieux et gigantesque bric à brac...". "Créé
par l'Université de Californie il s'agit d'un travail intéressant
et titanesque à avoir dans ses favoris.". Moteur de recherche académique,
ressources scolaires, journaux et livres electroniques (méta-moteur)
-
Infobourg (http://www.infobourg.qc.ca/)
-
La librarians index de l'Université de Berkeley (http://lii.org/).
Elle inclut "les listes de diffusion, les sources majeures, les encyclopédies
et les dictionnaires" (peu pertinent sur les deux derniers).
-
The Internet Public Library (http://www.ipl.org)
-
Un répertoire de périodiques (http://www.publist.com/).
L'intérêt principal de cet outil est que les sites sont bien
classés avec une fiche technique et descriptive.
-
The Scout Report Signpost (http://www.signpost.org/signpost/)
: site créé par l'Université du Wisconsin, la National
Science Fundation et la Library du Congrés. "Très mauvais
pour les sujets scientifiques mais très bon pour les sujets historiques".
-
Les signets de la BNF (http://www.bnf.fr/web-bnf/liens/index.htm)
-
CoAlliance (http://www.coalliance.org/)
: un programme d'universités américaines regroupant leurs
ressources documentaires. "Des ressources en bases de données, références
d'articles et Newsletters". "Trop mal organisé sur ce sujet mais
très bon pour localiser des journaux électroniques".
-
NewJour (http://gort.ucsd.edu/newjour)
-
Répértoire des banques de données (http://www.adbs.fr)
-
Strategic Road (http://www.strategic-road.com)
: ce site vous propose de réaliser vos recherches par thèmes.
-
The WWW Virtual Library (http://www.vlib.org)
-
Acess (http://www.access.gpo.gov/su_docs/aces/aaces002.html)
BD en GPO
-
Inria (http://www.inria.fr/InfoWeb/)
Bases de données
Env. 1000 bd spécialisées sur le web. [2]
Des explications sur le fonctionnement :
Divers :
Liens et Références principales
-
Lawrence and Giles, "Accessibility of Information on the Web", Nature,
Vol. 400, July 8, 1999, pp. 107-109.
-
K. Wiseman, "The
Invisible Web for Educators", (http://www3.dist214.k12.il.us/invisible/resources.html)
-
D. Sullivan, "Search Engine Sizes", SearchEngineWatch.com, November 8,
2000 (http://www.searchenginewatch.com)
-
Chris Sherman, "The invisible Web", http://websearch.about.com/internet/websearch/library/weekly/aa061199.htm
-
Béatrice FOENIX-RIOU, "800 MILLIONS DE PAGES WEB PEU INDEXEES PAR
LES MOTEURS", Netsources
- n19 (http://www.direct-way.com/netsource/n21.html)
-
Laurent Soron, "Le Web invisible,
cet inconnu...", http://lsoron.free.fr/dossiers/invis/invis.html
Page modifiée le 3 / 2 / 2003
Pour vos commentaires : Emmanuel.Desmontils@irin.univ-nantes.fr