16/06/2022, 18:48
— 'tain, ch'uis en train d'me rendre compte que j'suis une buse en typomachin !
— Mouai, t'as raison, reste concentré sur l'orthographe. Ça sera déjà bien ...
— N’empêche, j'me demande comment les passages UTF-8 , latin1_swedish_ci, vers Word2007 et autre "parser" vont mouliner tout ça. Ça sent les erreurs Unicode plein nez.
— Moi, une fois, j'ai importé un texte d'ici à partir d'un OTD vers un simple formulaire richtext. C'est jamais passé ! Il utilisait des guillemets qui n'avaient pas d'équivalent ! Encodés en 3bytes !
— T'as filtré ?
— Ben ouai. Obligé, pas d'autres solutions qu'un filtre à l'eau de javel. S'il y en a un qui l'a fait, tu peux être sûr qu'un autre le fera. Tu veux voir le code qui permet de dégager tous les caractères folkloriques ? Tiens regarde, du glyphosate typographique :
Je comprends bien que la typo, c'est important.
Malgré tout, peut-être pourriez-vous faire part d'un minimum vital ? Pointer le commun qui vous irrite ?
Disons, les majuscules accentuées ?
Les grands tirets 0151 pour les dialogues ?
— Mouai, t'as raison, reste concentré sur l'orthographe. Ça sera déjà bien ...
— N’empêche, j'me demande comment les passages UTF-8 , latin1_swedish_ci, vers Word2007 et autre "parser" vont mouliner tout ça. Ça sent les erreurs Unicode plein nez.
— Moi, une fois, j'ai importé un texte d'ici à partir d'un OTD vers un simple formulaire richtext. C'est jamais passé ! Il utilisait des guillemets qui n'avaient pas d'équivalent ! Encodés en 3bytes !
— T'as filtré ?
— Ben ouai. Obligé, pas d'autres solutions qu'un filtre à l'eau de javel. S'il y en a un qui l'a fait, tu peux être sûr qu'un autre le fera. Tu veux voir le code qui permet de dégager tous les caractères folkloriques ? Tiens regarde, du glyphosate typographique :
Code :
$regex = <<<'END'
/
(
(?: [\x00-\x7F] # single-byte sequences 0xxxxxxx
| [\xC0-\xDF][\x80-\xBF] # double-byte sequences 110xxxxx 10xxxxxx
| [\xE0-\xEF][\x80-\xBF]{2} # triple-byte sequences 1110xxxx 10xxxxxx * 2
| [\xF0-\xF7][\x80-\xBF]{3} # quadruple-byte sequence 11110xxx 10xxxxxx * 3
){1,100} # ...one or more times
)
| ( [\x80-\xBF] ) # invalid byte in range 10000000 - 10111111
| ( [\xC0-\xFF] ) # invalid byte in range 11000000 - 11111111
/x
END;
Je comprends bien que la typo, c'est important.
Malgré tout, peut-être pourriez-vous faire part d'un minimum vital ? Pointer le commun qui vous irrite ?
Disons, les majuscules accentuées ?
Les grands tirets 0151 pour les dialogues ?
https://www.quefaitesvous.com