Les filles sont comme des limaces : analyse du discours sexiste

Les filles sont comme des limaces — elles servent certainement à quelque chose, mais il est difficile d’imaginer à quoi. — Calvin

Photo : Peter van der Sluijs

Écho du buzz Internet à propos du sexisme dans la communauté geek, quelques discussions sont apparues parmi les contributeurs de Wikipédia à propos d’un (soit-disant) sexisme latent dans la communauté Wikipédia et d’un (prétendu) biais sexiste dans le traitement encyclopédique des articles.

Zou ! L’idée d’un outil d’analyse textuelle du sexisme me titille soudain. Un robot pour traquer le sexisme ? Un détecteur de discours pourri ? Un outil pour établir des graphiques colorées de la proportion de machos ? Il est permis de rêver !

État de lieux de l’analyse automatique du sexisme

Dans le domaine du traitement automatique du langage et particulièrement des textes, cet type d’applications est nommée « analyse d’opinion et sentiment ». Mais est-ce vraiment de l’opinion, le sexisme ? Analyse du discours ? Bon, l’approche sémantique, je suis pas fort : je cherche côté approche statistique…

Voisinage thématique (ou pas), j’ai croisé déjà des outils de prédiction du sexe et de l’âge de l’auteur d’un texte. Oui, les machines parviennent à prédire si un texte d’opinion personnelle (blog, tweet…) est écrit par un jeune homme, une femme adulte ou un vieux papy. Le genre d’outil à la mode dans le domaine marketing.

Techniquement, il est facile de constituer des corpus textuels relié au sexe/âge de leurs auteurs, à partir de donnée vérifiée (exemple : identité d’un journaliste connu) ou bien de déduction (prénom masculin, groupe féminin). On applique ensuite des techniques d’apprentissage automatique qui vont calculer la fréquence d’usage des expressions, leurs liens réciproques, et classifier tout ça. Au final, la machine parvient à prédire (estimer les probabilités) qu’un texte particulier ait été écrit par tel ou tel type d’auteur.

Par exemple, après avoir ingurgité du texte (apprentissage) la machine découvre toute seule que l’expression « LOL » ou « osef » révèle généralement un auteur jeune et que l’expression « De mon temps… » est plus fréquemment associée à un adulte ou une personne âgée.

Mais d’autres systèmes de prédictions sont peut-être plus proches de la problématique du discours sexiste : je pense par exemple à différents travaux sur l’analyse automatique des opinions politiques des tweets.

Bref, je commence lentement à me documenter…

Premier constat : il n’existe début 2013 aucun outil informatique dédié à l’analyse automatique du « sexisme » dans le discours, pour la langue anglaise ou française. Sans surprise, côté analyse automatique, pas de corpus textuel publié/annoté à propos du discours sexiste. Et je ne trouve aucun article de recherche à ce sujet. Ok, c’est intuitivement une identification certainement peu intéressante pour le marketing, la finance et la sécurité. Et les chercheurs étudiant le discours de la discrimination féminine sont plus certainement côté psycho/socio ou politique/littérature que dans des labos d’informatique ou linguistique.

Difficultés d’évaluation du sexisme

Seconde constat : la caractérisation du « discours sexiste » est extrêmement casse-gueule.

1. La notion de sexisme est vaste et floue, au sens d’une définition fluctuante selon les auteurs, les pays et cultures, les groupes sociaux, les sexes et générations.

D’après Wikipédia : Le sexisme est un terme apparu dans les années 1960 en parallèle avec l’essor du féminisme. Ce mot, calqué sur « racisme », a pour vocation de dénoncer les croyances, valeurs et attitudes fondées sur des modèles stéréotypés et intériorisés, bref, la construction genrée de la société. Le sexisme divise les rôles, habiletés, intérêts et comportements selon le sexe.

2. Même en se basant sur une définition fixée du sexisme (délimitation arbitraire), la perception (subjective) des connotations sexistes d’un texte sera très variable selon les individus.

Par conséquent, pour la constitution d’un corpus d’entrainement de la machine, l’annotation et l’évaluation de phrases par des humains sera TRÈS problématique et compliquée. Du moins, si on envisage de réaliser une annotation très sérieuse…

Troisième constat : le domaine du « sexisme dans le langage » me semble essentiellement l’objet d’études en sociologie et humanities (gender studies, courants américains). J’ai donc quelques appréhensions (et peu d’espoir) à fouiner parmi les travaux de recherche de ces domaines (proportion de charlatanisme, militantisme). Mais y’aura certainement quelques pistes. D’autres disciplines apporteront peut-être de l’eau à mon moulin, avec ce thème assez à la mode dans la société occidentale contemporaine : j’imagine la possibilité d’études en psychologie (cognitive) et éventuellement littérature.

Dernier constat : il semble indispensable d’éplucher des textes sexistes, haineux et misogynes. Un voyage (lecture) pas forcément réjouissant. C’est le motif principal de ma réticence à poursuivre mes recherches et bidouilles.

Mise en œuvre

Techniquement, les éléments fondamentaux pour la création d’un analyseur sont la constitution d’une masse de texte/phrases à étudier (corpus),  puis une évaluation humaine de ces textes (annotation), ensuite un apprentissage supervisé à partir du corpus annoté. Au final, l’analyseur permettrait (théoriquement) de révéler les passages sexistes, dans les discussions et les articles de Wikipédia, sur Twitter ou je ne sais où. Indispensable pour dénoncer le mal et agiter des camemberts. 🙂

Je ne suis pas complètement dupe de la naïveté de ce type d’analyse automatique. Il est illusoire d’espérer une correcte approximation du sens de phrases totalement décontextualisées (non reliées aux phrases précédentes, aux interventions précédentes sur un forum, au sujet du débat…) . De même, avec des sources textuelles variées (littérature, journaux, blogs…) les registres de langue et le contexte d’expression ne seront pas communs. Malgré ses imperfections et incapacités à saisir le sens, la machine permet souvent de discerner des aspects originaux et intéressants : c’est surtout à l’humain de rester prudent quand il interprète les résultats finaux.

Étape 1 : Je commence à lister des sources et rassembler de textes hypothétiquement sexistes. Si vous possédez des textes (numérisés) riches de connotations sexistes, merci de m’informer ! 

Étape 2 : Constitution d’un lexique : une liste de mots/verbes/expressions à fort potentiel sexiste en piochant dans mes lectures et générant des listes de synonymes : maternel*, couill*, mec… Voir liste de 1000 termes (pour racinisation).

Exemple : Considérons le mot « limace » inclus dans ce lexique.

Étape 3 : Cette liste initiale sera utilisée pour filtrer les textes et constituer un corpus de phrases « louches ».

Exemple : Toutes les phrases d’un texte comprenant « limace » sont catégorisées comme louches et regroupées pour une évaluation ultérieure.

Parmi les dialogues français de la bande dessinée Calvin et Hobbes le programme extrait ainsi la phrase « Les filles sont comme des limaces : elles servent certainement à quelque chose, mais il est difficile d’imaginer à quoi. »

Étape 4 : Les évaluations humaines des « phrases louches » génèreront d’autres mots pour cette liste, issus des phrases jugées sexistes (fréquence, modèle trigramme). Utilisation d’un système de crowdworking (microtravail) tel que crowcrafting.org (Pybossa) pour faciliter ces évaluations. Mais réflexion nécessaire sur comment délimiter le sexisme, présenter les questions au volontaire, analyser les profils/réponses du volontaire. Grosse difficulté, là.

Exemple : A propos de la phrase « Les filles sont comme les limaces… » plusieurs personnes volontaires répondent à la question « Cette phrase est-elle sexiste ? » en cliquant sur le bouton [Oui].

Résultat : Le but est de constituer un corpus annoté de phrases (sexiste/non sexiste), liées par l’utilisation d’un vocabulaire commun. Le lexique sera constitué de mots/verbes/expressions susceptibles d’avoir un sens sexiste (fille, mère, rose…) et permettra de filtrer les textes en sélectionnant les phrases louches.

Avec la phrase « les filles sont comme les limaces… » évaluée comme sexiste, l’ordinateur peut ensuite déterminer tout seul que l’expression « les filles sont comme » est souvent sexiste (82% ?). Ou bien qu’une phrase comportant « fille » et le verbe « servir à » a parfois une connotation sexiste.

Algorithmes et programmation

Pour le prétraitement, un robot spider qui épluchera les sites susceptibles de fournir du texte sexiste. Faut que j’adapte un algo de racinisation/désuffixation (stemming) du français pour interagir/générer la liste des termes louches (stemmes). Pour l’instant, je fais ça à la main.

Pas encore d’idée précise sur les méthodes mathématiques de modélisation et classification  à tester. Vraisemblablement, filtrage et pondération initiale avec le lexique de mots. Mon intuition vers les algos de fréquence inverse (Rochio, IF-IDF), modèle trigrammes, MMH ou dans du lourd SVM.

Pour débuter, je testerai d’abord la solution classique de classification  bayésienne naïve, à partir de mots (ou bigrammes, trigrammes).
A suivre…

Extrait de Calvin & Hobbes ©Watterson

Extrait de Calvin et Hobbes ©Watterson

Suzie : Je vois que tu as ramené un gant aujourd’hui. Tu t’étais inscrit à l’activité de baseball ?
Calvin : Ouais, me le rappelle pas ! T’es chanceuse, les filles n’ont pas à participer à ces absurdités. Si une fille n’a pas envie de faire du sport, c’est bon !
Calvin : Mais si un gars ne passe pas son après-midi à courir après une stupide balle, il est appelé une mauviette ! Vous les filles, vous avez la belle vie !
Suzie : D’un autre côté, les garçons n’ont pas à passer toute leur vie avec 10 kilos à perdre.
Calvin : Et si vous faites pas de sport, vous n’avez pas à faire des publicités de bière !

Sources glanées pas forcément intéressantes :

  • + Research in Sexism: Some Studies of Children’s Reading Material, Tibbetts, Sylvia Lee, 1979, lien
  • + On the Classification of Sexual Discrimination in English lien
  • Women and Men Speaking: Frameworks for Analysis, 1981 lien
  • Post-feminist text analysis, 2007, lien
  • Making Gender Relevant: Conversation Analysis and Gender Categories in Interaction
  • Discourse & Society March 2001 12: 217-244, lien
  • Education for sexism: A theoretical analysis of the sex/gender bias in education, Bronwyn Davies, 2007,
  • Sentiment analysis of blogs by combining lexical knowledge with text classification lien
Publicités

Pondre un commentaire inspirer

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :