Reconnaitre les noms d’auteur (1)

Edmond Jurien de La Gravière, croquemitaine pour robot

Sur Wikipedia et dans les bases bibliographiques, les auteurs d’un ouvrage sont généralement regroupés et non distingués. Par exemple, sur l’article Henri François Potier de La Germondaye figure la référence bibliographique :

Jean-Luc Fray, Céline Pérol, L’historien en quête d’espaces, 2004, p. 410.

Pour un humain francophone de culture européenne ou québecoise, il est facile d’identifier deux auteurs distincts, et d’identifier leurs prénoms respectifs. L’information résultante pourrait s’écrire ainsi : prénom1 = Jean-Luc ; nom1= Fray ; prénom2=Céline ; nom2= Pérol.

Mais comment mon robot peut-il parvenir à distinguer individuellement chaque auteur, et distinguer les prénoms des noms ? Voilà un sacré défi… Première étape aujourd’hui, la reconnaissance de motifs et l’apprentissage automatique du robot.

N’ayez pas peur, c’est pas très compliqué.

Une première idée serait d’identifier des « motifs » typographiques (anglais: patterns) dans la présentation textuelle des auteurs. Dans l’exemple précédent, les deux noms d’auteurs sont écrits avec une première lettre en capitale et les deux auteurs sont séparés par une virgule.

Pour généraliser, j’ai écrit un algorithme qui distingue les « mots » (ou lemme) en différents motifs typographiques. Parmi ces motifs : les initiales (exemple : A.E.), le mot minuscule avec première lettre en capitale (Paul), le mot entièrement en majuscule (PAUL), mixte (Paul-Henri ou MacArthur), les groupes de chiffres (14322), chiffres avec tirets (1980-1992), la virgule, une ponctuation quelconque (!), etc.

Pour l’exemple « Jean-Luc Fray, Céline Pérol » l’algorithme détermine ainsi le motif « MIXED FIRSTCAP COMMA FIRSTCAP FIRSTCAP » c’est-à-dire en français « Motmixe Premièrelettrecapitale Virgule Premièrelettrecapitale Premièrelettrecapitale ».

Pour les curieux, voici des exemples concrets de motifs détectés  :

    [Pierre-Henri GRÉGOIRE] => MIXED ALLUPPER
    [Bob et Sophie] => FIRSTUPPER AND FIRSTUPPER
    [dir. A. Kinley.] => BIBABREV INITIAL FIRSTUPPER
    [henry Jr. MacAdams] => ALLLOWER INITIAL MIXED
    [Adams, David] => FIRSTUPPER VIRGULE FIRSTUPPER
    [Greg ; Paul] => FIRSTUPPER PUNCTUATION FIRSTUPPER
    [Paul L'Ardoise] => FIRSTUPPER MIXED
    [J. R. R. Tolkien] => INITIAL FIRSTUPPER
    [MARTIN (1930-1980)] => ALLUPPER PUNCTUATION DASHNUMBER PUNCTUATION
    [1234 mathieu12 123-1234-13] => ALLNUMBER WITHNUMBER DASHNUMBER
    [毛澤東 http://chinese.zh] => ALLLOWER URL

D’accord, mais quel intérêt ? Et bien… l’apprentissage automatique par le robot de nos principes humains de citation des auteurs !

Durant son travail, le robot va observer tous les noms d’auteur qui passent devant ses yeux. Or pour certains auteurs, les contributeurs de Wikipédia ont distingué très proprement les prénoms et noms à l’intérieur du modèle {{ouvrage}}. Le robot va donc pouvoir faire des statistiques, et comprendre quels sont les motifs les plus courants… ou pour simplifier, comprendre quels sont les motifs les plus « corrects ».

Ce fromage représente la fréquence des « motifs typographiques » pour des auteurs distincts, sur environ 1000 références bibliographiques distinguant nom et prénoms.

Avec 65%, la majorité des mentions de nom d’auteur est du type « FIRSTUPPER (Prénom) + FIRSTUPPER (Nom) » c’est à dire composée de deux mots, avec pour chacun de ces mots, la première lettre en capitale et le reste en minuscules. Par exemple, le nom d’auteur « Pierre Duval ». Conclusion évidente pour un humain, mais maintenant le robot le sait !

Conclusion

Avec ce système,  le robot peut apprendre tout seul à analyser les noms d’auteurs.  Au fur et à mesure de son apprentissage, il distinguera avec plus de précision les motifs des auteurs multiples (Duval, P. & Duchêne, M.), et parviendra peut-être à résoudre les cas les plus difficiles comme par exemple le nom « Jean Pierre Edmond Jurien de La Gravière ».

Ce système de reconnaissance des motifs et d’apprentissage automatique sera aussi utilisable pour la distinction des mentions bibliographiques « hors-modèle ». Par exemple, la distinction entre auteurs, titre de l’ouvrage, année d’édition, éditeurs, ISBN, etc.

Enfin d’autres systèmes d’analyse et d’apprentissage complèteront ce système de reconnaissance des motifs. Pour un autre jour…

Sources

Pour résoudre ce problème informatique et bibliographique, je me suis fortement inspiré des recherches actuelles du Cléo sur l’annotation automatique des références bibliographiques (en anglais), notamment les résultats expérimentaux 3 à 5 (voir) .

Merci Pwet-Pwet pour m’avoir fait découvrir cette mine d’idées.

Publicités

Pondre un commentaire inspirer

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :