Wikipedia est une encyclopédie communautaire bien connue et bien étudiée (surtout pour le domaine anglo-saxon). Dans le cadre de travaux de recherche sur l’édition sur des Wikis distribués et sémantique, nous avons effectué une petite analyse de Wikipédia en français du point de vue de l’édition (révisions). Cet article se propose de faire un retour sur cette étude au regard des travaux passés. En particulier, nous allons aborder le problème de la qualité des articles de l’encyclopédie.
Beaucoup de travaux ont déjà abordé la notion de qualité d’un article au regard, en particulier, du nombre de révisions et du nombre de contributeurs authentifiés (comme Priedhorsky et al. 2007 ou Wilkinson & Huberman 2007).
Parallèlement, Wikipédia a mis en place un processus de qualification des articles selon leur structure et leur contenu. Il propose deux classifications : « bon article » et « article de qualité ». Un article de qualité « doit raisonnablement se rapprocher de l’article parfait. Il doit faire honneur à Wikipédia par ses qualités intrinsèques, quel que soit le sujet traité. » (Wikipedia, http://fr.wikipedia.org/wiki/Wikipédia:Articles_de_qualité). La promotion a cette qualification est effectuée sur la base de discussions et de vote (http://fr.wikipedia.org/wiki/Wikipédia:Contenus_de_qualité/Règles). En cas de refus, un article peut être proposé comme « bon article » ou être refusé. Un bon article est un article « d’un bon niveau mais qui n’est pas encore suffisamment aboutis pour atteindre le niveau requis pour l’obtention du label « Article de qualité » », il « doit faire honneur à Wikipédia par ses qualités intrinsèques, quel que soit le sujet traité » (Wikipédia ; http://fr.wikipedia.org/wiki/Wikipédia:Bons_articles). Les critères à respecter sont moins rigoureux que pour la catégorie précédente (http://fr.wikipedia.org/wiki/Wikipédia:Bons_contenus/Règles).
Pour l’instant, la classification d’un article s’effectue sur demande du ou des auteurs. Il serait donc intéressant d’établir des indicateurs permettant de proposer (semi-)automatiquement des articles. Nous avons donc analysé quelques critères autour de Wikipedia en français. Une partie des résultats est présentée dans l’article « Wikipedia fr, quelques chiffres ». Cet article présente plusieurs critères d’analyse et, pour chacun, les 10 pages ayant la plus grande valeur. Ces critères sont :
- le nombre de révisions ;
- le nombre de contributeurs authentifiés.
Ces deux critères sont essentiels selon (Wilkinson & Huberman 2007) pour repérer un article de qualité. (Wilkinson & Huberman 2007) indiquent aussi qu’il y a une corrélation importante entre l’activité de la page de discussion associée et la qualité d’une article. Ce dernier critère n’a pas encore été évalué par notre étude. Lorsque l’on regarde les trois tableaux séparément (on ajout les articles les plus long), le premier constat est que les « bons articles » (25 parmi les 1330) et les « articles de qualité » (21 parmi les 882) ne sont pas nombreux par rapport aux 221 pages sélectionnées (respectivement 11,3% et 9,5%, soit au total 20,8% des pages).
La figure ci-dessous montre le liens entre les critères et la qualification de Wikipedia pour les 10 meilleures pages des deux critères revisions et contributeurs.
En dehors de la page du président de la république française, nous distinguons quatre groupes :
- un groupe (en violet) pour des pages où le nombre de révisions est important ; ce groupe contient les pages qualifiées de « bonnes pages » par Wikipedia ;
- un groupe (en orange) où les révisions sont un peu moindres et où les contributeurs sont nombreux (il ne contient « que » des articles de qualité) ;
- un groupe plus faible dans les deux domaines (en bleu clair) ;
- un groupe plus « neutre » (en vert) qui contient tout de même un article de qualité.
La figure ci-dessous présente les 221 articles encyclopédiques dans les mêmes conditions auxquels on a ajouté les articles les plus long.
Dans cette seconde figure, les articles de qualité sont des croix rouges et les bons articles des étoiles oranges et les autres sont des points bleus. Le nom de pages est retiré pour plus de lisibilité. Globalement, les droites de regression sont assez différentes entre les bon articles et les articles de qualité. De même, les zones privilégiées (zones colorées sur la figure sont assez caractéristiques).
En conclusion… pas grand chose de fiable évidemment : trop peu de données et pas d’étude statistique dans les règles. Cependant, les seuls critères d’édition et de contribution ne sont pas suffisants. Pour préciser un peu, il faudra associer à chaque page, le nombre de révisions des pages de discussion. A suivre…
NB : le projet qui nous a amené à faire cette petite étude ne concerne pas Wikipedia. Nous ne pousserons donc pas nos investigations plus loin pour le moment…
il faudrait tenir compte des habitudes de certains contributeurs, en effet pour augmenter le compteur d’éditions (c’est un peu une manière de bien se faire voir) certains ont recours à des trucs comme ne jamais utiliser la touche prévisualiser et faire une modif mineure puis publier. après sur l’analyse attention aux termes contributeur, derriere un contributeur il n’y a pas forcément une personne mais parfois une école, une entreprise, ou un groupe. ensuite certaines personnes ont plusieurs comptes d’autres utilisent plusieurs ip. par exemple un article où il y a 2 IP et 1 contributeurs peut avoir été écrit en fait par la même personne ou par trois personnes. quand on observe l’historique des contributions d’un meme contributeur on s’aperçoit que des comptes contribuent quasiment 24 H sur 24.
Je suis tout à faire d’accord. L’identification des « contributeurs » n’est pas évident. Il faudrait quasiment faire une analyse de style ! Il faudrait aussi arriver à typer les modifications (le vraies mineures, les fondamentales, etc.). Chose pas facile à faire… et je n’ai, pour l’instant, pas beaucoup de temps pour m’y intéresser. Un jour, peut-être…