Analyse textuelle des oeuvres
#1
Comment le savent certains, je suis en dernière année d'école d'ingénieur en Informatique. Durant un TP d'analyse textuelle, je me suis amusé à comparer les stats de deux oeuvres hébergées sur Littéraction.fr.
On observe qu'il y a bien une corrélation entre qualité littéraire et classement pour le Yaztromo (du moins en prenant les deux extrêmes).
Voici le copier/coller du rapport que j'ai rédigé:

Citation :Pour ce TP, nous avons choisi deux textes issus du site Littéraction.fr (il héberge plus de 200 livres interactifs, appelés également livres dont on est le héros). Les œuvres analysées s’intitulent Transomnie et La Montagne Interdite. La première a reçu le premier prix d’un concours internet (le Yaztromo d’Or), tandis que la seconde avait terminée dernière.

Nous allions donc pouvoir vérifier que le nombre de formes et d’hapax est bien supérieur pour Transomnie…
Rompons dès à présent le suspens, cela a été le cas : bien que Transomnie contienne 30447 occurrences (nombre total de mots) contre 46413 pour La Montagne interdite, le nombre de mots différents (ou formes) est de 5057 pour la première et de 3794 pour la seconde ! De même, le nombre d’hapax (mots utilisés une seule fois dans le texte) est de 2781 pour Transomnie et de 1673 pour la Montagne interdite. Ces valeurs, souvent gages de qualité littéraires quand elles sont élevées, vont donc dans le sens du classement des deux œuvres lors du concours.

Concernant la loi de Zipf, nous pouvons observer via les graphes qu’elle est bien vérifiée.

Il n’est pas surprenant que le mot le plus fréquent dans les deux textes soit « Vous », car il s’agit de livres interactifs, où le lecteur est interpelé et invité à faire des choix, par exemple « Si vous suivez Élaine à l'intérieur de l'église, rendez-vous au 23 ; si vous rejoignez votre compagne afin de la protéger, allez au 62. ». (Nous avons exclu les numéros de paragraphes et de pages pour éviter de retrouver ces derniers dans les mots les plus fréquents.) On retrouve ensuite des prépositions comme « de » et il faut aller bien plus bas dans les fichiers de résultat pour trouver des mots concernant le fond de l’œuvre, tels que ses acteurs principaux (« Sonia » pour Transomnie).


Vous trouverez en pièce jointe de ce poste le code du programme permettant de calculer certaines caractéristiques du texte (sous réserve d'avoir Python d'installé ainsi qu'une de ses librairies), et les résultats détaillés des deux oeuvres.

EDIT
PS: désolé d'avoir choisi La montagne interdite pour l'opposer à Transomnie, mais il fallait bien choisir une AVH.

PPS: je ne pense pas m'amuser à calculer les caractéristique de chaque texte sur littéraction.fr : même si la procédure est automatisée (on peut lancer le programme pour traiter autant de fichiers que nécessaires), il faut quand même créer des fichiers textes contenant chacun une oeuvre, et il y a un léger temps de calcul. Par ailleurs, il est évident que ces mesures sont grossières et ne peuvent à elles seules mesurer la qualité littéraire des oeuvres (et encore moins en apprécier l'aspect ludique). Il n'est pas besoin de tester pour se douter de la forte probabilité qu'en comparant des AVHs proches dans le classement, on perdre toute corrélation entre les valeurs calculées et le nombre de points reçus. C'est donc plus pour le fun (et si ça peut servir à certains tant mieux), que je partage ce code et ses résultats.

PPPS: Le programme nécessite d'avoir le langage Python installé sur sa machine : http://www.python.org/download/ (prendre la version "Python 2.7.3 Windows Installer (Windows binary -- does not include source)" )


Pièces jointes
.zip   Analyse_textuelle_litteraction.zip (Taille : 440,25 Ko / Téléchargements : 16)
[Image: litteraction5.png]Littéraction.fr
Le site de livres-jeux dont VOUS êtes l'auteur !
Répondre
#2
oui, mais est-ce que les 2 aVHs avaient un nombre comparable de § ?
Car cela joue sur le nombre d'hapax.
Répondre
#3
100 pour Transmonie et 400 pour la montagne interdite.
Répondre
#4
Plutôt que le nombre de paragraphes, il vaut mieux regarder le nombre total de mots. Or le nombre d'occurences est le nombre de mots, et Transomnie en contient nettement moins, d'où la phrase :
Citation :bien que Transomnie contienne 30447 occurrences contre 46413 pour La Montagne interdite, le nombre de mots différents (ou formes) est de 5057 pour la première et de 3794 pour la seconde !
[Image: litteraction5.png]Littéraction.fr
Le site de livres-jeux dont VOUS êtes l'auteur !
Répondre
#5
C'est peut être un gage de qualité d'écriture mais c'est vrai que cela ne veut pas forcement dire que ce sera une bonne avh plaisante à lire / jouer.
Répondre
#6
La qualité littéraire jouant un rôle dans le côté agréable de la lecture, il est logique qu'un texte de "haute volée" ait plus de chance de nous captiver qu'un texte moyen. C'est juste une évidence, je ne vois donc pas vraiment quel est l'intérêt de vouloir quantifier la chose...
Répondre
#7
Bah, la curiosité ? C'est une raison en soit, non ?
La violence n'est pas la bonne réponse !
La violence est la question. La bonne réponse est "oui".
Répondre
#8
Je ne vois pas vraiment où est la curiosité quand il s'agit juste de vérifier qu'un modèle corrobore une réalité qu'on connaît déjà...
Répondre
#9
Ben vérifier que le modèle corrobore la réalité, justement.
La violence n'est pas la bonne réponse !
La violence est la question. La bonne réponse est "oui".
Répondre
#10
corrobore, corrobore... Corps au bord de quoi d'abord ??





JeSors
сыграем !
Répondre
#11
Si l'objet était de créer ce modèle, ou de l'ajuster ou réajuster, puis de vérifier qu'il fonctionne et/ou fonctionne mieux, alors oui on pourrait parler de curiosité, d'envie de savoir si ça marche/marche mieux ou ne marche pas.
Mais l'objet ici est une application standard d'un modèle qui n'est plus en phase de test mais bien établi. Il n'y a donc aucun suspens sur le résultat final, on sait à l'avance qu'il fonctionne et que donc la réalité sera bien corroborée, car on sait très bien que les textes de haute qualité littéraire ont en moyenne plus de chance de captiver que les autres.

On en revient donc à ma question de l'intérêt de vouloir quantifier la chose? Ce peut être une indication pour les auteurs, une manière de mesurer leur "niveau littéraire" comme un test de QI peut mesurer un "niveau d'intelligence". Mais dans ce cas il faudrait lancer une étude étendue à tous les auteurs et toutes les œuvres pour voir si le niveau augmente ou reste stable. Et c'est forcément le temps qui manque. Donc cet intérêt-là ne pourra pas aboutir. J'essaie d'en trouver d'autres, mais je ne vois pas...
Répondre
#12
Je l'ai dit moi-même, ces indices ont assez peu d'intérêt (du moins ce sont des grands classiques de l'analyse textuelle). Néanmoins, ils n'ont jamais été appliqués à des livres-jeux : la montagne interdite contient de nombreux mots qui lui sont propres, notamment des noms de sorts, qui pouvaient modifier la donne.

Par ailleurs, le programme peut toujours intéresser des auteurs curieux et amateurs de statistiques.

A la limite je vais peut-être appliquer le programme sur toutes les AVHs du yaz 2012, pour le fun...


C'est fait, voici quelques stats concernant les AVHs du Yaz 2013. Les valeurs intéressantes sont évidemment les valeurs relatives (remarque sur le vocabulaire employé : "occurrences" est le nombre de mots total, "formes" donne le nombre de mots différents et hapax le nombre de mots "rares", cad apparaissant une seule fois dans le texte), puisqu'on peut ensuite les comparer. On observe que les valeurs de Quand souffle la tempête sont nettement inférieures aux deux autres AVH primées : sa variété moyenne des mots ne l'a pas empêchée d'être bien écrite, et surtout d'être originale. On remarque qu'Emergence s'en tire pas mal aussi, mais cela est sans doute dû en partie au fait que j'ai dû utiliser un vocabulaire particulier : celui des fourmis.
Enfin, il faut aussi se souvenir que plus une AVH est longue, plus le nombre de formes et d'hapax aura tendance à ralentir, d'où la relative faiblesse des scores relatifs des Trois villages et de l'Ecume des temps. A contrario, plus l'AVH est courte, plus les formes et les hapax relatifs seront élevés (j'ai eu 23% et 14% pour chienlit sur chienlit, qui ne fait que 50§ et 17000 mots, et on a 21% et 12% pour les gemmes de l'infinie, qui ne fait que 10000 mots).

Quand souffle la tempête
**********Richesse de vocabulaire**************
occurences : 32436
formes : 4036
hapax : 1653

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 12.442965
hapax : 5.096189

Les noyés
**********Richesse de vocabulaire**************
occurences : 25318
formes : 4473
hapax : 2490

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 17.667272
hapax : 9.834900

Chrysalide
**********Richesse de vocabulaire**************
occurences : 24112
formes : 3979
hapax : 2270

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 16.502157
hapax : 9.414399

Trois villages
**********Richesse de vocabulaire**************
occurences : 76063
formes : 8284
hapax : 4216

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 10.890972
hapax : 5.542774

Emergence
**********Richesse de vocabulaire**************
occurences : 26198
formes : 4204
hapax : 2292

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 16.047026
hapax : 8.748759

Ecume des temps
**********Richesse de vocabulaire**************
occurences : 76672
formes : 9013
hapax : 4831

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 11.755269
hapax : 6.300866

Ombre du phénix
**********Richesse de vocabulaire**************
occurences : 77184
formes : 7402
hapax : 3418

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 9.590070
hapax : 4.428379

Dans les Montagnes de Sifflemort
**********Richesse de vocabulaire**************
occurences : 30316
formes : 4387
hapax : 2300

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 14.470906
hapax : 7.586753

Les gemmes de l'infini
**********Richesse de vocabulaire**************
occurences : 9572
formes : 2039
hapax : 1226

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 21.301713
hapax : 12.808191
[Image: litteraction5.png]Littéraction.fr
Le site de livres-jeux dont VOUS êtes l'auteur !
Répondre
#13
C'est génial ce truc. En fait, ça permet plus de mesurer la qualité de l'écrivain (aspect littéraire) que l'aspect ludique ou même bonne ou mauvaise AVH.
T'as essayé avec une AVH de Gwalmich' ? ça devrait inverser certains chiffres, je pense lol
сыграем !
Répondre
#14
Gwalchmei explose littéralement les records, passant la barre des 20% pour les formes et des 10% pour les hapax, alors que ses AVH sont d'une taille comparable à celle des Noyés ou d'Emergence :

Chroniques de la Geste 1 – Aube des Tempêtes
**********Richesse de vocabulaire**************
occurences : 28262
formes : 5985
hapax : 3538

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 21.176845
hapax : 12.518576

Celui qui Hurle
**********Richesse de vocabulaire**************
occurences : 24997
formes : 5764
hapax : 3683

**********Richesse de vocabulaire rapportée au nombre d'occurences **************
formes : 23.058767
hapax : 14.733768
[Image: litteraction5.png]Littéraction.fr
Le site de livres-jeux dont VOUS êtes l'auteur !
Répondre
#15
Toungue 
Encore une victoire de bibi !! (^^)/
сыграем !
Répondre




Utilisateur(s) parcourant ce sujet : 10 visiteur(s)