08/03/2025, 16:06
Indépendammant de l'intérêt de l'IA, je voudrais juste préciser quelques points sur son fonctionnement.
L'IA c'est essentiellement une méthode statistique visant, à partir d'un panel de données d'entrée à reproduire quelque chose qui ressemble à ce panel.
On adonc besoin d'abord échantillon pour l'entraîner. Disons qu'on prend dix oeuvres de Balzac. Le réseau de neurons va essayer de construire une "distance" par rapport à cet échantillon.
Ensuite il va produire des textes, à partir d'un certain nombre de contraintes ("écris-moi un roman de Balzac sur les drag-queens") de telle sorte que ce qu'il produit minimise la distance à son échantillon tout en respectant la contrainte de parler des "drag-queen". Pour être sûr que l'IA n'est pas surentraînée on va en fait comparer le résultat à un échantillon d'oeuvres de Balzac plus large que l'échantillon initial (pour caricaturer, si vous avez seulement Eugénie Grandet dans l'échantillon de départ vous risquez d'obtenir "Eugénie Grandet chez les drag queen"). Pourquoi on ne prend pas directement toutes les oeuvres de Balzac ? Parce que ça coûte cher. C'est comme un sondage, on n'interroge pas toute la population et on espère que c'est représentatif.
Je caricature, je ne prétends pas être un expert mais l'idée est là. Bref au final vous obtenez une oeuvre type Balzac.
Maintenant si vous voulez savoir si cette oeuvre a été obtenue par IA. Vous faites une autre IA en lui fournissant des oeuvres produites par IA et d'autres produites par un être humain et vous l'entraînez pour discriminer entre les deux. Problème: les IA génératives ont justement été conçues pour faire en sorte qu'il soit très difficile de distinguer les oeuvres de l'échantillon et les oeuvres produites par l'IA. Donc l'IA de "contrôle" doit être plus performante qu l'IA générative de départ. Sinon comment va-t-elle saoir si Eugénie Grandet a été produite par un être humain ou une IA puisque l'IA écrit comme Balzac ? A ce stade je ne suis pas sûr que lesIA de contrôle disposent d'une puissance équivalente aux IA génératives sur lesquelles on déverse des milliards d'investissement. En revanche si on part du principe que les IA génératives sont entraînées sur des textes de "qualité", sans faute d'orthographe, sans erreur de syntaxe, et même probablement avec des tournures plus soutenues que la moyenne, l'IA de contrôle sera capable de discriminer certaines choses: si vous lui donnez la liste de courses de Mme Michu ou le poème écrit en CP par votre fille, il est très probable qu'il aura que ça n'a pas été produit par une IA.
Donc j'ai un énorme doute sur la confiance qu'on peut avoir dans une IA supposée détecter l'intervention d'une autre IA en textuel. D'autant plu que si ça arrive ce n'est probablement pas tout le texte qui est produit par l'IA mais plutôt une correction de l'écriture. Mais bon je veux bien que quelqu'un de plus compétent arrive à me convaincre du contraire.
L'IA c'est essentiellement une méthode statistique visant, à partir d'un panel de données d'entrée à reproduire quelque chose qui ressemble à ce panel.
On adonc besoin d'abord échantillon pour l'entraîner. Disons qu'on prend dix oeuvres de Balzac. Le réseau de neurons va essayer de construire une "distance" par rapport à cet échantillon.
Ensuite il va produire des textes, à partir d'un certain nombre de contraintes ("écris-moi un roman de Balzac sur les drag-queens") de telle sorte que ce qu'il produit minimise la distance à son échantillon tout en respectant la contrainte de parler des "drag-queen". Pour être sûr que l'IA n'est pas surentraînée on va en fait comparer le résultat à un échantillon d'oeuvres de Balzac plus large que l'échantillon initial (pour caricaturer, si vous avez seulement Eugénie Grandet dans l'échantillon de départ vous risquez d'obtenir "Eugénie Grandet chez les drag queen"). Pourquoi on ne prend pas directement toutes les oeuvres de Balzac ? Parce que ça coûte cher. C'est comme un sondage, on n'interroge pas toute la population et on espère que c'est représentatif.
Je caricature, je ne prétends pas être un expert mais l'idée est là. Bref au final vous obtenez une oeuvre type Balzac.
Maintenant si vous voulez savoir si cette oeuvre a été obtenue par IA. Vous faites une autre IA en lui fournissant des oeuvres produites par IA et d'autres produites par un être humain et vous l'entraînez pour discriminer entre les deux. Problème: les IA génératives ont justement été conçues pour faire en sorte qu'il soit très difficile de distinguer les oeuvres de l'échantillon et les oeuvres produites par l'IA. Donc l'IA de "contrôle" doit être plus performante qu l'IA générative de départ. Sinon comment va-t-elle saoir si Eugénie Grandet a été produite par un être humain ou une IA puisque l'IA écrit comme Balzac ? A ce stade je ne suis pas sûr que lesIA de contrôle disposent d'une puissance équivalente aux IA génératives sur lesquelles on déverse des milliards d'investissement. En revanche si on part du principe que les IA génératives sont entraînées sur des textes de "qualité", sans faute d'orthographe, sans erreur de syntaxe, et même probablement avec des tournures plus soutenues que la moyenne, l'IA de contrôle sera capable de discriminer certaines choses: si vous lui donnez la liste de courses de Mme Michu ou le poème écrit en CP par votre fille, il est très probable qu'il aura que ça n'a pas été produit par une IA.
Donc j'ai un énorme doute sur la confiance qu'on peut avoir dans une IA supposée détecter l'intervention d'une autre IA en textuel. D'autant plu que si ça arrive ce n'est probablement pas tout le texte qui est produit par l'IA mais plutôt une correction de l'écriture. Mais bon je veux bien que quelqu'un de plus compétent arrive à me convaincre du contraire.