Hoe automatisch tekstbestand encoding detecteren?
Er zijn veel platte tekst bestanden die werden gecodeerd in verschillende karaktersets.
Ik wil ze allemaal omzetten naar UTF-8, maar voordat ik iconv start, moet ik de originele encoding weten. De meeste browsers hebben een Auto Detect
optie in encodings, maar ik kan die tekst bestanden niet een voor een controleren omdat het er te veel zijn.
Alleen als ik de oorspronkelijke codering weet, kan ik de teksten met iconv -f DETECTED_CHARSET -t utf-8
omzetten.
Is er een hulpprogramma om de codering van platte tekst bestanden te detecteren? Het hoeft NIET 100% perfect te zijn, het maakt me niet uit als er 100 bestanden verkeerd gecodeerd zijn in 1.000.000 bestanden.