22.3. 字符集支持

22.3.1. 被支持的字符集
22.3.2. 设置字符集
22.3.3. 服务器和客户端之间的自动字符集转换
22.3.4. 可用的字符集转换
22.3.5. 进一步阅读

LightDB里面的字符集支持你能够以各种字符集存储文本,包括单字节字符集,比如 ISO 8859 系列,以及多字节字符集 ,比如EUC(扩展 Unix 编码 Extended Unix Code)、UTF-8 和 Mule 内部编码。所有被支持的字符集都可以被客户端透明地使用,但少数只能在服务器上使用(即作为一种服务器方编码)。默认的字符集是在使用 lt_initdb初始化你的LightDB数据库实例时选择的。在你创建一个数据库时可以重载它,因此你可能会有多个数据库并且每一个使用不同的字符集。

但是,一个重要的限制是每个数据库的字符集必须和数据库的LC_CTYPE (字符分类)和LC_COLLATE (字符串排序顺序)设置兼容。对于 CPOSIX环境,任何字符集都是允许的, 但是对于其他libc提供的环境只有一种字符集可以正确工作。 如果您配置了ICU支持,则ICU提供的区域设置可用于大多数服务器端编码, 但不能用于所有服务器端编码。

22.3.1. 被支持的字符集

Table 22.1显示了LightDB中可用的字符集。

Table 22.1. LightDB Character Sets

名称描述语言是否服务器端?ICU?字节/​字符别名
BIG5Big Five繁体中文1–2WIN950, Windows950
EUC_CN扩展UNIX编码-中国简体中文1–3 
EUC_JP扩展UNIX编码-日本日文1–3 
EUC_JIS_2004扩展UNIX编码-日本, JIS X 0213日文1–3 
EUC_KR扩展UNIX编码-韩国韩文1–3 
EUC_TW扩展UNIX编码-台湾繁体中文,台湾话1–3 
GB18030国家标准中文1–4 
GBK扩展国家标准简体中文1–2WIN936, Windows936
ISO_8859_5ISO 8859-5, ECMA 113拉丁语/西里尔语1 
ISO_8859_6ISO 8859-6, ECMA 114拉丁语/阿拉伯语1 
ISO_8859_7ISO 8859-7, ECMA 118拉丁语/希腊语1 
ISO_8859_8ISO 8859-8, ECMA 121拉丁语/希伯来语1 
JOHABJOHAB韩语1–3 
KOI8RKOI8-R西里尔语(俄语)1KOI8
KOI8UKOI8-U西里尔语(乌克兰语)1 
LATIN1ISO 8859-1, ECMA 94西欧1ISO88591
LATIN2ISO 8859-2, ECMA 94中欧1ISO88592
LATIN3ISO 8859-3, ECMA 94南欧1ISO88593
LATIN4ISO 8859-4, ECMA 94北欧1ISO88594
LATIN5ISO 8859-9, ECMA 128土耳其语1ISO88599
LATIN6ISO 8859-10, ECMA 144日耳曼语1ISO885910
LATIN7ISO 8859-13波罗的海1ISO885913
LATIN8ISO 8859-14凯尔特语1ISO885914
LATIN9ISO 8859-15带欧罗巴和口音的LATIN11ISO885915
LATIN10ISO 8859-16, ASRO SR 14111罗马尼亚语1ISO885916
MULE_INTERNALMule内部编码多语种编辑器1–4 
SJISShift JIS日语1–2Mskanji, ShiftJIS, WIN932, Windows932
SHIFT_JIS_2004Shift JIS, JIS X 0213日语1–2 
SQL_ASCII未指定(见文本)任意1 
UHC统一韩语编码韩语1–2WIN949, Windows949
UTF8Unicode, 8-bit所有1–4Unicode
WIN866Windows CP866西里尔语1ALT
WIN874Windows CP874泰语1 
WIN1250Windows CP1250中欧1 
WIN1251Windows CP1251西里尔语1WIN
WIN1252Windows CP1252西欧1 
WIN1253Windows CP1253希腊语1 
WIN1254Windows CP1254土耳其语1 
WIN1255Windows CP1255希伯来语1 
WIN1256Windows CP1256阿拉伯语1 
WIN1257Windows CP1257波罗的海1 
WIN1258Windows CP1258越南语1ABC, TCVN, TCVN5712, VSCII

并非所有的客户端API都支持上面列出的字符集。比如,LightDB的JDBC 驱动就不支持MULE_INTERNALLATIN6LATIN8LATIN10

SQL_ASCII设置与其他设置表现得相当不同。 如果服务器字符集是SQL_ASCII,服务器把字节值0–127根据 ASCII标准解释,而字节值128–255则当作无法解析的字符。 如果设置为SQL_ASCII,就不会有编码转换。因此,这个设置基本不是用来声明所使用的指定编码, 因为这个声明会忽略编码。 在大多数情况下,如果你使用了任何非ASCII数据,那么使用 SQL_ASCII设置都是不明智的,因为LightDB将无法帮助你转换或者校验非ASCII字符。

LightDB支持的GB18030标准是2022版。如果在GBK/GB18030编码中含有0x40-0x7E这些特殊值,则不可以使用这些汉字去命名database、schema、relation和column。

22.3.2. 设置字符集

lt_initdb为一个LightDB实例定义缺省的字符集(编码)。比如:

lt_initdb -E EUC_JP

把缺省字符集设置为EUC_JP(用于日文的扩展Unix 编码)。如果你喜欢用长选项字符串,你可以用--encoding代替-E。 如果没有给出-E或者--encoding选项,lt_initdb会尝试基于指定的或者默认的区域判断要使用的合适编码。

你可以在数据库创建时指定一个非默认编码,提供的编码应和选择的区域兼容:

createdb -E EUC_KR -T template0 --lc-collate=ko_KR.euckr --lc-ctype=ko_KR.euckr korean

将创建一个使用EUC_KR字符集和ko_KR区域的名为korean的数据库。 另外一种实现方法是使用 SQL 命令:

CREATE DATABASE korean WITH ENCODING 'EUC_KR' LC_COLLATE='ko_KR.euckr' LC_CTYPE='ko_KR.euckr' TEMPLATE=template0;

注意上述命令指定拷贝template0数据库。在拷贝任何其他数据库时,不能更改从源数据库得来的编码和区域设置,因为这可能会导致破坏数据。详见Section 21.3

数据库的编码存储在系统目录pg_database中。你可以使用ltsql -l选项或者\l命令来查看。

$ ltsql -l
                                         List of databases
   Name    |  Owner   | Encoding  |  Collation  |    Ctype    |          Access Privileges          
-----------+----------+-----------+-------------+-------------+-------------------------------------
 clocaledb | hlinnaka | SQL_ASCII | C           | C           | 
 englishdb | hlinnaka | UTF8      | en_GB.UTF8  | en_GB.UTF8  | 
 japanese  | hlinnaka | UTF8      | ja_JP.UTF8  | ja_JP.UTF8  | 
 korean    | hlinnaka | EUC_KR    | ko_KR.euckr | ko_KR.euckr | 
 postgres  | hlinnaka | UTF8      | fi_FI.UTF8  | fi_FI.UTF8  | 
 template0 | hlinnaka | UTF8      | fi_FI.UTF8  | fi_FI.UTF8  | {=c/hlinnaka,hlinnaka=CTc/hlinnaka}
 template1 | hlinnaka | UTF8      | fi_FI.UTF8  | fi_FI.UTF8  | {=c/hlinnaka,hlinnaka=CTc/hlinnaka}
(7 rows)

Important

在大部分现代操作系统上,LightDB可以判断LC_CTYPE设置意味着哪一种字符集,并且它强制只有匹配的数据库编码被使用。在老的系统上你需要自己负责确保所使用的编码就是你所选择的区域所期望的。在这里的一个错误很可能导致区域依赖的操作产生奇怪的行为,例如排序。

即使LC_CTYPE不是CPOSIX时,LightDB将允许超级用户使用SQL_ASCII编码创建数据库。正如前文所述,SQL_ASCII并不强制存储在数据库中的数据具有任何特定的编码,并且这样这种选择存在着区域依赖的不正当行为的风险。使用这种设置组合的做法已经被废弃,并且在某天将被完全禁止。

22.3.3. 服务器和客户端之间的自动字符集转换

LightDB支持一些编码在服务器和前端之间的自动编码集转换,用于许多字符集的组合(Section 22.3.4 显示了一些)。

要想启用自动字符集转换功能,你必须告诉LightDB你想在客户端使用的字符集(编码)。你可以用好几种方法来完成:

  • ltsql里的\encoding命令。\encoding允许你动态修改客户端编码。比如,把编码改变为SJIS,键入:

    \encoding SJIS
    

  • libpqSection 32.10)中提供函数控制客户端编码。

  • 使用SET client_encoding TO。 可以使用这个SQL命令设置客户端编码:

    SET CLIENT_ENCODING TO 'value';
    

    你还可以把标准SQL语法里的SET NAMES用于这个目的:

    SET NAMES 'value';
    

    要查询当前客户端编码:

    SHOW client_encoding;
    

    要返回到缺省编码:

    RESET client_encoding;
    

  • 使用LTCLIENTENCODING。如果在客户端的环境里定义了LTCLIENTENCODING环境变量, 那么在与服务器进行了连接后将自动选择客户端编码(这个设置随后可以用上文提到的任何其他方法重载)。

  • 使用client_encoding配置变量。如果client_encoding变量被设置, 那么在与服务器建立了连接之后,这个客户端编码将备自动选定(这个设置随后可以用上文提到的其他方法重载)。

假如无法进行一个特定字符的转换 — 假如你选的服务器编码是EUC_JP而 客户端是LATIN1,那么有些日文字符不能转换成LATIN1 — 将会报告一个错误。

如果客户端字符集定义成了SQL_ASCII,那么编码转换会被禁用, 不管服务器的字符集是什么都一样。 (但是,如果服务器的字符集不是 SQL_ASCII,服务器仍将检查传入数据是否对该编码有效;所以最终的效果是客户端字符集和服务器的字符集是一样的。 和服务器一样,除非你的工作环境全部是 ASCII 数据, 否则使用SQL_ASCII是不明智的。

22.3.4. 可用的字符集转换

LightDB 允许在pg_conversion系统目录中列出的转换函数里面的任何两个字符集之间进行转换。 LightDB 带了一些预定义的转换,概括在Table 22.2中,并在Table 22.3中显示更详细的信息。 你可以使用 SQL 命令CREATE CONVERSION建立一个新的转换。(要用于自动的客户端/服务器转换,该字符集组合的转换必须标记为default

Table 22.2. 内置客户端/服务器字符集转换

服务器字符集可用的客户端字符集
BIG5不支持作为服务器编码
EUC_CNEUC_CN, MULE_INTERNAL, UTF8
EUC_JPEUC_JP, MULE_INTERNAL, SJIS, UTF8
EUC_JIS_2004EUC_JIS_2004, SHIFT_JIS_2004, UTF8
EUC_KREUC_KR, MULE_INTERNAL, UTF8
EUC_TWEUC_TW, BIG5, MULE_INTERNAL, UTF8
GB18030GB18030, UTF8
GBKGBK, UTF8
ISO_8859_5ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866, WIN1251
ISO_8859_6ISO_8859_6, UTF8
ISO_8859_7ISO_8859_7, UTF8
ISO_8859_8ISO_8859_8, UTF8
JOHAB不支持作为服务器编码
KOI8RKOI8R, ISO_8859_5, MULE_INTERNAL, UTF8, WIN866, WIN1251
KOI8UKOI8U, UTF8
LATIN1LATIN1, MULE_INTERNAL, UTF8
LATIN2LATIN2, MULE_INTERNAL, UTF8, WIN1250
LATIN3LATIN3, MULE_INTERNAL, UTF8
LATIN4LATIN4, MULE_INTERNAL, UTF8
LATIN5LATIN5, UTF8
LATIN6LATIN6, UTF8
LATIN7LATIN7, UTF8
LATIN8LATIN8, UTF8
LATIN9LATIN9, UTF8
LATIN10LATIN10, UTF8
MULE_INTERNALMULE_INTERNAL, BIG5, EUC_CN, EUC_JP, EUC_KR, EUC_TW, ISO_8859_5, KOI8R, LATIN1LATIN4, SJIS, WIN866, WIN1250, WIN1251
SJIS不支持作为服务器编码
SHIFT_JIS_2004不支持作为服务器编码
SQL_ASCII任何 (没有转换将被执行)
UHC不支持作为服务器编码
UTF8全部支持的编码
WIN866WIN866, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN1251
WIN874WIN874, UTF8
WIN1250WIN1250, LATIN2, MULE_INTERNAL, UTF8
WIN1251WIN1251, ISO_8859_5, KOI8R, MULE_INTERNAL, UTF8, WIN866
WIN1252WIN1252, UTF8
WIN1253WIN1253, UTF8
WIN1254WIN1254, UTF8
WIN1255WIN1255, UTF8
WIN1256WIN1256, UTF8
WIN1257WIN1257, UTF8
WIN1258WIN1258, UTF8

Table 22.3. 所有内置字符集转换

Conversion Name [a] 源编码目标编码
big5_to_euc_twBIG5EUC_TW
big5_to_micBIG5MULE_INTERNAL
big5_to_utf8BIG5UTF8
euc_cn_to_micEUC_CNMULE_INTERNAL
euc_cn_to_utf8EUC_CNUTF8
euc_jp_to_micEUC_JPMULE_INTERNAL
euc_jp_to_sjisEUC_JPSJIS
euc_jp_to_utf8EUC_JPUTF8
euc_kr_to_micEUC_KRMULE_INTERNAL
euc_kr_to_utf8EUC_KRUTF8
euc_tw_to_big5EUC_TWBIG5
euc_tw_to_micEUC_TWMULE_INTERNAL
euc_tw_to_utf8EUC_TWUTF8
gb18030_to_utf8GB18030UTF8
gbk_to_utf8GBKUTF8
iso_8859_10_to_utf8LATIN6UTF8
iso_8859_13_to_utf8LATIN7UTF8
iso_8859_14_to_utf8LATIN8UTF8
iso_8859_15_to_utf8LATIN9UTF8
iso_8859_16_to_utf8LATIN10UTF8
iso_8859_1_to_micLATIN1MULE_INTERNAL
iso_8859_1_to_utf8LATIN1UTF8
iso_8859_2_to_micLATIN2MULE_INTERNAL
iso_8859_2_to_utf8LATIN2UTF8
iso_8859_2_to_windows_1250LATIN2WIN1250
iso_8859_3_to_micLATIN3MULE_INTERNAL
iso_8859_3_to_utf8LATIN3UTF8
iso_8859_4_to_micLATIN4MULE_INTERNAL
iso_8859_4_to_utf8LATIN4UTF8
iso_8859_5_to_koi8_rISO_8859_5KOI8R
iso_8859_5_to_micISO_8859_5MULE_INTERNAL
iso_8859_5_to_utf8ISO_8859_5UTF8
iso_8859_5_to_windows_1251ISO_8859_5WIN1251
iso_8859_5_to_windows_866ISO_8859_5WIN866
iso_8859_6_to_utf8ISO_8859_6UTF8
iso_8859_7_to_utf8ISO_8859_7UTF8
iso_8859_8_to_utf8ISO_8859_8UTF8
iso_8859_9_to_utf8LATIN5UTF8
johab_to_utf8JOHABUTF8
koi8_r_to_iso_8859_5KOI8RISO_8859_5
koi8_r_to_micKOI8RMULE_INTERNAL
koi8_r_to_utf8KOI8RUTF8
koi8_r_to_windows_1251KOI8RWIN1251
koi8_r_to_windows_866KOI8RWIN866
koi8_u_to_utf8KOI8UUTF8
mic_to_big5MULE_INTERNALBIG5
mic_to_euc_cnMULE_INTERNALEUC_CN
mic_to_euc_jpMULE_INTERNALEUC_JP
mic_to_euc_krMULE_INTERNALEUC_KR
mic_to_euc_twMULE_INTERNALEUC_TW
mic_to_iso_8859_1MULE_INTERNALLATIN1
mic_to_iso_8859_2MULE_INTERNALLATIN2
mic_to_iso_8859_3MULE_INTERNALLATIN3
mic_to_iso_8859_4MULE_INTERNALLATIN4
mic_to_iso_8859_5MULE_INTERNALISO_8859_5
mic_to_koi8_rMULE_INTERNALKOI8R
mic_to_sjisMULE_INTERNALSJIS
mic_to_windows_1250MULE_INTERNALWIN1250
mic_to_windows_1251MULE_INTERNALWIN1251
mic_to_windows_866MULE_INTERNALWIN866
sjis_to_euc_jpSJISEUC_JP
sjis_to_micSJISMULE_INTERNAL
sjis_to_utf8SJISUTF8
windows_1258_to_utf8WIN1258UTF8
uhc_to_utf8UHCUTF8
utf8_to_big5UTF8BIG5
utf8_to_euc_cnUTF8EUC_CN
utf8_to_euc_jpUTF8EUC_JP
utf8_to_euc_krUTF8EUC_KR
utf8_to_euc_twUTF8EUC_TW
utf8_to_gb18030UTF8GB18030
utf8_to_gbkUTF8GBK
utf8_to_iso_8859_1UTF8LATIN1
utf8_to_iso_8859_10UTF8LATIN6
utf8_to_iso_8859_13UTF8LATIN7
utf8_to_iso_8859_14UTF8LATIN8
utf8_to_iso_8859_15UTF8LATIN9
utf8_to_iso_8859_16UTF8LATIN10
utf8_to_iso_8859_2UTF8LATIN2
utf8_to_iso_8859_3UTF8LATIN3
utf8_to_iso_8859_4UTF8LATIN4
utf8_to_iso_8859_5UTF8ISO_8859_5
utf8_to_iso_8859_6UTF8ISO_8859_6
utf8_to_iso_8859_7UTF8ISO_8859_7
utf8_to_iso_8859_8UTF8ISO_8859_8
utf8_to_iso_8859_9UTF8LATIN5
utf8_to_johabUTF8JOHAB
utf8_to_koi8_rUTF8KOI8R
utf8_to_koi8_uUTF8KOI8U
utf8_to_sjisUTF8SJIS
utf8_to_windows_1258UTF8WIN1258
utf8_to_uhcUTF8UHC
utf8_to_windows_1250UTF8WIN1250
utf8_to_windows_1251UTF8WIN1251
utf8_to_windows_1252UTF8WIN1252
utf8_to_windows_1253UTF8WIN1253
utf8_to_windows_1254UTF8WIN1254
utf8_to_windows_1255UTF8WIN1255
utf8_to_windows_1256UTF8WIN1256
utf8_to_windows_1257UTF8WIN1257
utf8_to_windows_866UTF8WIN866
utf8_to_windows_874UTF8WIN874
windows_1250_to_iso_8859_2WIN1250LATIN2
windows_1250_to_micWIN1250MULE_INTERNAL
windows_1250_to_utf8WIN1250UTF8
windows_1251_to_iso_8859_5WIN1251ISO_8859_5
windows_1251_to_koi8_rWIN1251KOI8R
windows_1251_to_micWIN1251MULE_INTERNAL
windows_1251_to_utf8WIN1251UTF8
windows_1251_to_windows_866WIN1251WIN866
windows_1252_to_utf8WIN1252UTF8
windows_1256_to_utf8WIN1256UTF8
windows_866_to_iso_8859_5WIN866ISO_8859_5
windows_866_to_koi8_rWIN866KOI8R
windows_866_to_micWIN866MULE_INTERNAL
windows_866_to_utf8WIN866UTF8
windows_866_to_windows_1251WIN866WIN
windows_874_to_utf8WIN874UTF8
euc_jis_2004_to_utf8EUC_JIS_2004UTF8
utf8_to_euc_jis_2004UTF8EUC_JIS_2004
shift_jis_2004_to_utf8SHIFT_JIS_2004UTF8
utf8_to_shift_jis_2004UTF8SHIFT_JIS_2004
euc_jis_2004_to_shift_jis_2004EUC_JIS_2004SHIFT_JIS_2004
shift_jis_2004_to_euc_jis_2004SHIFT_JIS_2004EUC_JIS_2004

[a] 转换名称遵循标准命名模式:源编码的正式名称,所有非字母数字字符都替换为下划线,后跟_to_,后跟类似处理目标编码名称。 因此,这些名称有时会偏离Table 22.1中显示的自定义编码名。


22.3.5. 进一步阅读

下面是学习各种类型的编码系统的好资源。

CJKV Information Processing: Chinese, Japanese, Korean & Vietnamese Computing

包含对EUC_JPEUC_CNEUC_KREUC_TW的详细解释。

https://www.unicode.org/

Unicode联盟的网站。

RFC 3629

UTF-8 (8-bit UCS/Unicode转换格式)在这里定义。