Analyser des données textuelles grâce à l’IA, c’est pas sorcier !

Qu'est ce que ça donne quand Cobb analyse Harry Potter ?

Analyser des données textuelles grâce à l’IA, c’est pas sorcier !

Le Natural Language Processing (NLP) est une branche de l’IA qui permet de comprendre et de traiter le langage humain. Mais que peut-on réellement attendre d’une intelligence artificielle lorsqu’il s’agit d’analyser des données textuelles ? Pour le savoir, nous avons demandé à Cobb, l’IA de Cobbaï, de se plonger dans les romans d’Harry Potter.

Immersion sémantique dans le monde des sorciers


Avant de demander à Cobb d’analyser la saga tout entière, nous lui avons fait lire le tome 1 dans sa version originale : Harry Potter and the Philosopher's Stone. En comprenant le choix des mots employés, Cobb parvient à déterminer le contexte de l’histoire. Puis, en construisant cette compréhension, il assimile le sens des différentes phrases ainsi que les concepts qui s’y rapportent.


Dans un second temps, l’IA présente une liste de mots qu’elle juge représentative de ces concepts. L’interprétation de chaque terme les uns par rapport aux autres révèle les thématiques abordées tout au long du livre. Voici le résultat de ce premier test en image.




analyse sémantique d’Harry Potter à l’école des sorciers




Cobb relève dix thématiques principales dans ce premier opus. Sans surprise, le prénom de notre sorcier préféré fait partie des mots les plus représentés. Quand on analyse ces données textuelles, on comprend qu’elles font référence à un passage de l’histoire (la recherche de la pierre philosophale, topic 7) ou à un sujet important (la famille de moldus de Harry, topic 10).

En observant le contenu des thèmes 1, 2, 4 et 6, on pourrait croire que notre intelligence artificielle s’est laissée distraire par des mots usuels (head, eyes, hear, sit, face, front). Pourtant, l’omniprésence du champ lexical de la description est plutôt fidèle au contenu de ce premier tome, puisque son objectif est de plonger les jeunes lecteurs dans un nouvel univers. C’est pourquoi le texte est composé de nombreuses descriptions simples de personnages (visages, émotions, parties du corps) et d’endroits dans lesquels ils évoluent (pièce à vivre, grande salle, couloirs).

Toutefois, lorsque Cobb parvient à faire abstraction de cet aspect linguistique, 12 nouvelles thématiques sont mises en lumière. Pour interpréter ces statistiques, un comité de fans d’Harry Potter a été réuni.




analyses des sujets abordés dans Harry Potter à l’école des sorciers



Vers une analyse des données textuelles plus poussée


Pour savoir ce que Cobb pense de l’œuvre dans son ensemble, nous lui avons fait lire les 7 volumes dans leur version originale. Une fois de plus, et sans entraînement préalable, notre IA parvient à mettre en avant 12 thèmes importants dans le récit des jeunes sorciers.






analyse des données textuelles dans la saga Harry Potter





L’analyse textuelle réalisée par notre intelligence artificielle permet également d’obtenir quelques indications sur le succès de cette histoire. Rappelons que le premier tome est paru en 1997, tandis que le dernier n’est sorti qu’en 2007. Dix ans se sont donc écoulés entre la publication du premier et du septième livre de la saga. Cela signifie que les lecteurs qui avaient une dizaine d’années au moment de sa parution ont grandi en même temps qu’Harry et ses amis.

Par ailleurs, cette méthode nous apprend que J.K Rowling aborde des sujets de plus en plus adultes au fil de l’histoire. Dans ces derniers romans, le caractère enchanteur du monde de la magie laisse place à des problématiques plus matures telles que la mort, la ségrégation entre les moldus et les sorciers ou encore l’affrontement entre les forces du bien et du mal.

Plus l’histoire avance, plus le jeune Harry grandit et se trouve confronté à des choix complexes dans un univers plus sombre. La preuve en image.




exemples d’évolutions sémantiques dans les romans Harry Potter


🐹 Découvrez l’évolution de la compréhension du langage par l’IA depuis sa création


L’intelligence artificielle de Cobbaï est bel et bien capable d’analyser des données textuelles. Pour accroître la performance de Cobb dans le domaine de la sorcellerie, il faudrait lui faire lire des corpus entiers d’ouvrages à ce sujet. Plus une IA apprend à maîtriser les codes d’un milieu, plus ses analyses sont raffinées. Et la bonne nouvelle, c’est que Cobb est capable de transférer cette compétence à l’analyse de verbatim client dans de nombreuses industries (aéronautique, médicale, spatiale, navale, automobile, bancaire, etc.). Qu’attendez-vous pour l’adopter ?





10 points pour Cobbaï