Jak automatycznie wykryć kodowanie pliku tekstowego?
Istnieje wiele zwykłych plików tekstowych, które zostały zakodowane w różnych zestawach znaków.
Chcę je wszystkie przekonwertować do UTF-8, ale przed uruchomieniem iconv, muszę znać ich oryginalne kodowanie. Większość przeglądarek ma opcję Auto Detect
w kodowaniach, jednak nie mogę sprawdzić tych plików tekstowych jeden po drugim, ponieważ jest ich zbyt wiele.
Tylko znając oryginalne kodowanie, mogę konwertować teksty przez iconv -f DETECTED_CHARSET -t utf-8
.
Czy istnieje jakieś narzędzie do wykrywania kodowania zwykłych plików tekstowych? Nie musi być w 100% doskonały, nie przeszkadza mi to, że w 1 000 000 plików jest 100 plików źle przekonwertowanych.