01/03/2013, 20:01
Comment le savent certains, je suis en dernière année d'école d'ingénieur en Informatique. Durant un TP d'analyse textuelle, je me suis amusé à comparer les stats de deux oeuvres hébergées sur Littéraction.fr.
On observe qu'il y a bien une corrélation entre qualité littéraire et classement pour le Yaztromo (du moins en prenant les deux extrêmes).
Voici le copier/coller du rapport que j'ai rédigé:
Vous trouverez en pièce jointe de ce poste le code du programme permettant de calculer certaines caractéristiques du texte (sous réserve d'avoir Python d'installé ainsi qu'une de ses librairies), et les résultats détaillés des deux oeuvres.
EDIT
PS: désolé d'avoir choisi La montagne interdite pour l'opposer à Transomnie, mais il fallait bien choisir une AVH.
PPS: je ne pense pas m'amuser à calculer les caractéristique de chaque texte sur littéraction.fr : même si la procédure est automatisée (on peut lancer le programme pour traiter autant de fichiers que nécessaires), il faut quand même créer des fichiers textes contenant chacun une oeuvre, et il y a un léger temps de calcul. Par ailleurs, il est évident que ces mesures sont grossières et ne peuvent à elles seules mesurer la qualité littéraire des oeuvres (et encore moins en apprécier l'aspect ludique). Il n'est pas besoin de tester pour se douter de la forte probabilité qu'en comparant des AVHs proches dans le classement, on perdre toute corrélation entre les valeurs calculées et le nombre de points reçus. C'est donc plus pour le fun (et si ça peut servir à certains tant mieux), que je partage ce code et ses résultats.
PPPS: Le programme nécessite d'avoir le langage Python installé sur sa machine : http://www.python.org/download/ (prendre la version "Python 2.7.3 Windows Installer (Windows binary -- does not include source)" )
On observe qu'il y a bien une corrélation entre qualité littéraire et classement pour le Yaztromo (du moins en prenant les deux extrêmes).
Voici le copier/coller du rapport que j'ai rédigé:
Citation :Pour ce TP, nous avons choisi deux textes issus du site Littéraction.fr (il héberge plus de 200 livres interactifs, appelés également livres dont on est le héros). Les œuvres analysées s’intitulent Transomnie et La Montagne Interdite. La première a reçu le premier prix d’un concours internet (le Yaztromo d’Or), tandis que la seconde avait terminée dernière.
Nous allions donc pouvoir vérifier que le nombre de formes et d’hapax est bien supérieur pour Transomnie…
Rompons dès à présent le suspens, cela a été le cas : bien que Transomnie contienne 30447 occurrences (nombre total de mots) contre 46413 pour La Montagne interdite, le nombre de mots différents (ou formes) est de 5057 pour la première et de 3794 pour la seconde ! De même, le nombre d’hapax (mots utilisés une seule fois dans le texte) est de 2781 pour Transomnie et de 1673 pour la Montagne interdite. Ces valeurs, souvent gages de qualité littéraires quand elles sont élevées, vont donc dans le sens du classement des deux œuvres lors du concours.
Concernant la loi de Zipf, nous pouvons observer via les graphes qu’elle est bien vérifiée.
Il n’est pas surprenant que le mot le plus fréquent dans les deux textes soit « Vous », car il s’agit de livres interactifs, où le lecteur est interpelé et invité à faire des choix, par exemple « Si vous suivez Élaine à l'intérieur de l'église, rendez-vous au 23 ; si vous rejoignez votre compagne afin de la protéger, allez au 62. ». (Nous avons exclu les numéros de paragraphes et de pages pour éviter de retrouver ces derniers dans les mots les plus fréquents.) On retrouve ensuite des prépositions comme « de » et il faut aller bien plus bas dans les fichiers de résultat pour trouver des mots concernant le fond de l’œuvre, tels que ses acteurs principaux (« Sonia » pour Transomnie).
Vous trouverez en pièce jointe de ce poste le code du programme permettant de calculer certaines caractéristiques du texte (sous réserve d'avoir Python d'installé ainsi qu'une de ses librairies), et les résultats détaillés des deux oeuvres.
EDIT
PS: désolé d'avoir choisi La montagne interdite pour l'opposer à Transomnie, mais il fallait bien choisir une AVH.
PPS: je ne pense pas m'amuser à calculer les caractéristique de chaque texte sur littéraction.fr : même si la procédure est automatisée (on peut lancer le programme pour traiter autant de fichiers que nécessaires), il faut quand même créer des fichiers textes contenant chacun une oeuvre, et il y a un léger temps de calcul. Par ailleurs, il est évident que ces mesures sont grossières et ne peuvent à elles seules mesurer la qualité littéraire des oeuvres (et encore moins en apprécier l'aspect ludique). Il n'est pas besoin de tester pour se douter de la forte probabilité qu'en comparant des AVHs proches dans le classement, on perdre toute corrélation entre les valeurs calculées et le nombre de points reçus. C'est donc plus pour le fun (et si ça peut servir à certains tant mieux), que je partage ce code et ses résultats.
PPPS: Le programme nécessite d'avoir le langage Python installé sur sa machine : http://www.python.org/download/ (prendre la version "Python 2.7.3 Windows Installer (Windows binary -- does not include source)" )