SGI-Wikipedia : Grosse tête, petit bilan

Les personnalités dans Wikipedia EN: et leurs liens quand citées dans le même article. ©SGI

Un superordinateur SGI UV 2000 a importé dans sa méga mémoire tous les articles de la Wikipédia en anglais ; de quoi permettre au chercheur Kalev Leetaru, des analyses originales de Wikipédia et faire de la publicité commerciale pour les capacités de cette machine informatique dans l’exploration de grosses données (big data). Un ordinateur qui permettrait « de trouver des réponses aux problèmes les plus difficiles du monde ».

Cette fouille de données a été axée sur deux types de données tirées des articles :
* les dates
* les localisations géographiques
* les connexions entre articles (wikiliens et catégories?)
* La classification des articles en terme de sentiment négatif (guerres) ou positif

Analyse

Contrairement à des études précédentes, qui extrayaient dates et localisations à partir des rares informations de métadonnées ou d’infobox, les chercheurs ont cette fois utilisé des algorithmes pour récupérer dans le texte des articles toutes les mentions de date et localisation : 42 millions de dates (entre -1000 et 2012) et 80 millions de lieux, soit environ 19 localisations et 11 dates par article.

« La nature unidirectionnelle des connexions de Wikipedia, le manque de liens, et la distribution inégale de boîtes d’information font ressortir les limitations de l’exploration de métadonnées dans des collections telles que Wikipedia » — K. Leetaru.

L’extraction automatisée des dates me rappelle le marronnier de la wikification générale des dates. J’avais expliqué la semaine dernière qu’il était facile de programmer l’extraction (ou la wikification par des robots) de l’intégralité des dates dans les articles. Donc l’utilité des humains qui wikifient systématiquement les dates au prétexte d’aider les robots ou wikidata…

Mais bon, pour l’analyse SGI, rien de terrible. L’innovation de cette fouille réside essentiellement dans la rapidité du superordinateur, c’est à dire le traitement « en mémoire » (in memory) et en quasi temps réel, plutôt qu’en épluchant lentement tous les articles comme avec un vulgaire PC de bureau.

Représentations visuelles

La fouille a permis de réaliser une représentation visuelle entre les dates, localisation et connexions d’évènements historiques entre 1800-2011. Ça rappelle les visualisations « mondiales » de réseaux sociaux, très à la mode, très décoratives et généralement muettes… Néanmoins, là on voit bien la surreprésentation des articles concernant les États-Unis et l’Europe.

Avec les couleurs vert et rouge pour distinguer les évènements positif/négatifs. Une analyse des sentiments, sans explications ni exemples sur la méthode de cette classification manichéenne ; ça me semble très pipo et décoratif. La bataille de Normandie (Invasion of Normandy), est-elle verte ou rouge ?

Quoi d’autre ? Des images des connexions entre catégories, entre personnes, entre organisations, entre dates ; sans grand intérêt pour l’interprétation faute d’explications ou interactivité, avec toujours ce mystère des couleurs. Mais bon, ça ferait joli exposé au-dessus du canapé.

Des graphs, peut-être plus pertinents ou exploitables. Qui révèlent par exemple que Wikipédia se focalise sur les évènements majeurs et mondiaux (dingue!), et que le nombre d’articles croît au fil du temps (dingue!). D’autres trucs que j’ai survolé.

Conclusion : Beaucoup de bruit pour rien.

Sources :

Publicités

One Response to SGI-Wikipedia : Grosse tête, petit bilan

  1. Ping : Épisode 25 – Un wikitravel en Afripedia « Les échos d'en bas

Pondre un commentaire inspirer

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :