Linux - как определить кодировку файла и как переконвертировать файл в UTF-8 или Windows-1251

Материал из Wiki - Iphoster - the best ever hosting and support. 2005 - 2024
Перейти к:навигация, поиск

Linux - как определить кодировку файла и как переконвертировать файл в UTF-8 или Windows-1251

Для определения и перекодировки файла будем использовать утилиту enca


Для установки на CentOS 6-7 используем команду:

# yum install enca -y

Для определения кодировки файла используем команду:

# enca -L russian vote.tpl
MS-Windows code page 1251
 LF line terminators

Для перекодировки файла в UTF-8 используем команду:

# enconv -L russian vote.tpl -x utf8

Проверяем результат:

# enca -L russian vote.tpl
Universal transformation format 8 bits; UTF-8


Все поддерживаемые кодировки можно посмотреть командой:

# enca -l charsets
7bit ASCII characters
ISO 8859-2 standard; ISO Latin 2
 ISO 8859-4 standard; Latin 4
ISO 8859-5 standard; ISO Cyrillic
ISO 8859-13 standard; ISO Baltic; Latin 7
ISO 8859-16 standard 
MS-Windows code page 1125
MS-Windows code page 1250
MS-Windows code page 1251
MS-Windows code page 1257; WinBaltRim
IBM/MS code page 852; PC (DOS) Latin 2
IBM/MS code page 855
IBM/MS code page 775
IBM/MS code page 866
ISO-IR-179; Baltic
Kamenicky encoding; KEYBCS2
Macintosh Central European 
Macintosh Cyrillic
ECMA Cyrillic; ECMA-113
KOI8-CS2 code (`T602')
KOI8-R Cyrillic
KOI8-U Cyrillic
KOI8-Unified Cyrillic
(La)TeX control sequences
Universal character set 2 bytes; UCS-2; BMP
Universal character set 4 bytes; UCS-4; ISO-10646
Universal transformation format 7 bits; UTF-7
Universal transformation format 8 bits; UTF-8
Cork encoding; T1
Simplified Chinese National Standard; GB2312
Traditional Chinese Industrial Standard; Big5
HZ encoded GB2312