跨越国境的汉字

2020-03-29 孙耀珠 杂谈

我身边的同学们大都只懂汉语和英语,聊天时偶尔会发现他们对日本、韩国、朝鲜和越南的汉字使用知之甚少。比如有人见到汉字就觉得是汉语,但实际上日韩朝越都在以自己的方式使用着汉字,比如很难说「大変面白」「本当上手」也算是规范汉语,虽然这些字我们都认识。

另一个常见的误解是:为什么 Matsumoto Yukihiro 被翻译成了松本行弘?为什么 Jang Won-young 被翻译成了张员瑛?首先要意识到英语不是日韩的母语,因此上面的罗马字也只是音译。实际上 Matz 的姓名本来就是汉字「松本行弘」,只是这四个字都用了日语训读,导致中日读音大相径庭。而韩国的情况更麻烦一点,因为他们现在几乎不用汉字了,所以姓名里的谚文对应哪个汉字要么靠猜要么询问本人。张员瑛的原名是「장원영」,一开始大家猜测其对应的汉字是「張元英」,不过很遗憾猜错了,后来官方宣布她的姓名汉字是「張員瑛」。当然日本人名也有要猜的时候,比如说「松山ケンイチ」「石原さとみ」(也都猜错过,哈哈哈哈)。不过如今对汉字如此执着的也只有中国了,日韩互译对方人名的时候并不会追溯到汉字,而是简单粗暴地使用音译:松本行弘在韩语里就叫 마츠모토 유키히로,张员瑛在日语里就叫 チャン・ウォニョン。

我去日本交流的时候,遇到的第一个难题就是我的名字在日本应该怎么叫。在登记在留卡的时候,外国人的姓名默认都用拉丁字母,也就是我护照上的拼音「SUN YAOZHU」。不过之后在办学籍或者银行账户的时候,还需要提供振假名,也就是姓名的读法,于是士大夫擅作主张照着拼音帮我填上了「スン・ヤオズ」……其实日本对于姓名的读法是相当宽容的,完全遵照名从主人的原则,像「村山彩希」的名字念作「ゆいり」这种毫无根据的读法也不会提出异议。只是给我起的这个振假名发音过于奇怪,以及这读法跟汉字脱钩让我有点不爽。后来我自己使用的读法都是「ソン・ヨウジュ」,是我姓名的汉字在日语中的音读,这也是日本对中国人名的正统处理方式。

上面提到的音读与训读是汉字文化圈特有的读音现象,以日语为例,所谓音读就是保留汉字传入日本时的汉语读音(包括吴音、汉音、唐音等),而所谓训读就是用日本固有词汇的读音来念同义的汉字。换句话说,音读词都是以中国为源头的汉语词(不过后来日本也发明了相当多的和制汉语并回流了中国),训读词都是借用汉字表记的和语词。比如「人」字,在单独出现时用训读 ひと,这是日本固有的和语词,而在汉语词「人間にんげん」中读吴音、「人類じんるい」中读汉音。不仅如此,日语词汇中还有好多和汉混血儿,比如「湯桶ゆとう」前训读后音读,相反地「重箱じゅうばこ」前音读后训读,所以很多生僻词不注音的话日本人也是不会念的。现代韩语在这方面就简单得多,原则上汉字一字一音(都是音读),其固有词不用汉字只用谚文表记;而越南语的汉字也几乎都读汉越音(即音读),极少有训读现象。

书写系统

过去,中日朝越等国都有用文言文作为书面语言,因此各国受过高等教育的文人都能跨越语言障碍进行笔谈。然而随着各国语言文字的演进,文言文已全面被白话文所取代,并且中国和日本各自简化了汉字,韩朝和越南渐渐废止了汉字,东亚汉字文化圈的联系已大不如从前了。下面先引用一张来自维基百科的图片来形象地展示一下汉字文化圈内存在的书写系统(黑色为汉语词、绿色为固有词、蓝色为外来词):

日语不仅读法复杂,其书写系统也相当复杂,有汉字(漢字)、平假名(ひらがな)、片假名(カタカナ)三套体系,假名只表音不表意,各有约五十音。汉字是从中国舶来的自不必说,而平假名和片假名则由汉字草书和偏旁演变而来,他们分别扮演不同的角色:汉字多用来表记实词、平假名多用来表记虚词,片假名多用来表记外来语。虽然日语中的汉字也完全可以被读音所对应的假名取代,但为了视觉上方便断句以及消除同音词的歧义,大多数人还是用汉字写实词的。

而朝鲜半岛过去跟日本相仿,是汉谚混写的,但朝鲜从 1948 年完全废除了汉字,而韩国也从上世纪末开始渐渐停止了汉字的使用,现在几乎只使用谚文。谚文在韩国现称韩字(한글),是一套非常有意思的表音系统,其诞生时间很晚,直到 15 世纪才发明出来。谚文由声母、韵母和韵尾三部分拼成,譬如 한 的声母是 ㅎ (h)、韵母是 ㅏ (a)、韵尾是 ㄴ (n),合起来就是 han。得益于这种模块化的组合方式,谚文理论上可以拼装出 19×21×28 = 11172 种音节,信息密度远高于其他表音文字。

在 19 世纪中叶越南被法国占领之前,越南语也是主要使用汉字的,他们把源自中国的汉字称为儒字,把汉语词称为汉越词。不过儒字并不能准确记录越南的固有词汇,于是他们基于儒字发明了喃字(𡨸喃)。这些字大部分都是形声字,譬如「𡨸chữ」,它借了「trữ」的音和「tự」的意。这种为本土语言造字的现象有点像粤语字,「哋」「啲」等字在汉语官话中也没有,但在粤语地区广泛使用。然而后来在法属印度支那时期,越南语的罗马化方案渐渐流行起来,并于 20 世纪中叶越南独立后取代了儒字和喃字成为越南唯一官方文字,被称为国语字(chữ quốc ngữ)。

各地汉字

正如前面所介绍,日本仍在广泛使用汉字,韩国、朝鲜和越南曾经使用过汉字,而中国大陆、港澳、台湾、新加坡目前以汉语为官方语言,当然也在用汉字,那么各地汉字长得一样吗?答案是否定的。这个问题既涉及到汉字简化,也涉及到字形标准,甚至还涉及到日本当用汉字的问题。

中国最早推行汉字简化是在国民政府时期,中华民国教育部于 1935 年公布《第一批简体字表》,共计 324 字,但因考试院院长戴季陶坚决反对,最终未能实行。第二个尝试简化汉字的是日本,1946 年日本内阁发布了《当用汉字表》,共计 1850 字,其中一百余字采用新字体,也就是简化汉字。不过这份《当用汉字表》后来在 1981 年被《常用汉字表》所取代,2010 年最新版本共收录 2136 字,其中三百余字采用新字体,另外《人名用汉字表》和《表外汉字字体表》亦引入了一些新字体。中华人民共和国成立后,文字改革委员会重启了汉字简化工作,并于 1955 年发表了《汉字简化方案(草案)》,次年国务院通过决议确立了其规范汉字的地位,后来又于 1964 年推出了改进版本《简化字总表》。1977 年,文字改革委员会发表《第二次汉字简化方案(草案)》,尝试进一步简化汉字,不过最终遭到废止。因此,中国最新的汉字规范 2013 年《通用规范汉字表》仍沿用第一次汉字简化方案,共简化了 2461 字。新加坡则于 1969 年推出过自己的《简体字表》,但 1976 年开始完全转用中国的简化方案。

综上所述,中国大陆和新加坡采用同一套汉字简化方案,而日本用自己的新字体,剩下的港澳台韩朝越都没有官方推行汉字简化。中日两国的简化方案,既有简化相同的「國/国」,也有简化不同的「譯/译/訳」,既有中国简化日本没简的「東/东」,也有日本简化中国没简的「假/仮」,不过总体来说中国比日本简化了更多汉字。另外有一个跟繁简相近的概念是异体字,也就是长期存在的读音和意思相同、但字形不同的汉字。不同的地区会选择不同的异体字作为正字,譬如中国大陆以「够」为正字而港台以「夠」为正字,香港用「裏」而台湾用「裡」等等。日本还有一个更复杂的情况是《当用汉字表》引起的同音假借现象:1946 年的《当用汉字表》将出版物的汉字使用限制在了最常用的 1850 字内,致使大量表外汉字需要用同音汉字进行替代。日本国语审议会为此发表了《同音汉字转写》的报告供出版业参考,譬如「綜合」转写为「総合」、「智慧」转写为「知恵」等等。虽然当用汉字的限制已于 1981 年废除,但大量日语词汇的用字已经不可逆转地改变了。

各国的印刷字形标准也不尽相同。举前面那张图中的「圈」为例,这里中国大陆和台湾字形基本相同,除了台湾将捺改成了点,日本字形则把下边的「㔾」改成了「己」并且捺会贯穿上面一横,而韩国字形上边不是「丷」而是「ハ」。韩国字形与传统的康熙字典体最为接近,而中国大陆和台湾则有成文的新字形标准——《印刷通用汉字字形表》《常用国字标准字体表》,各有各的不同。

罗马字

对于西方人来说,汉字已经是极大的障碍了。不仅如此,日语使用假名、韩语使用谚文,没背过字母表的人根本无法认读它们。因此日语和韩语都有各自的罗马化(拉丁字母转写)方案,就像汉语拼音和越南国语字一样。上面提到的 Matsumoto Yukihiro 和 Jang Won-young 就分别是 まつもと ゆきひろ 和 장원영 的罗马字。日韩的罗马字方案有很多种,日语常用的是平文式罗马字训令式罗马字,而韩语常用的是文观部2000年式马科恩-赖肖尔表记法

日语平文式和训令式的主要区别在于 し/しゃ/じ/じゃ、ち/ちゃ/ぢ/ぢゃ、つ/づ、ふ 相关的表记,平文式记为 shi/sha/ji/ja、chi/cha/ji/ja、tsu/zu、fu,而训令式记为 si/sya/zi/zya、ti/tya/di/dya、tu/du、hu。换句话说,平文式更接近真实读音,而训令式更加规则。因此,虽然训令式是 ISO 3602 标准,但日常生活中还是平文式用得更多。

韩语文观部式和马赖式的主要区别在于元音 ㅓ、ㅕ、ㅝ、ㅡ、ㅢ 和辅音 ㄱ、ㄷ、ㅂ、ㅈ、ㅉ 用在声母时的表记,文观部式记为 eo、yeo、wo、eu、ui 和 g、d、b、j、jj,而马赖式记为 ŏ、yŏ、wŏ、ŭ、ŭi 和 k、t、p、ch、tch。目前韩国主要使用文观部式,朝鲜主要使用马赖式,但韩朝日常转写时并不严格遵循这些,譬如「張員瑛장원영」的 Jang Won-young 和「金正恩김정은」的 Kim Jong-un 均不是两种方案的任何一种。

这里顺便提一下汉语的罗马化方案,其中我们最熟悉的当然是已经成为 ISO 7098 标准的汉语拼音,然而汉语拼音在港澳台并不通行。首先,台湾跟中国大陆最不同的是他们使用注音符号(ㄅㄆㄇㄈ)而非拉丁字母来给汉字注音,所以台湾人并没有在课堂上学过如何拼注罗马拼音。台湾政府早期采用过国语罗马字注音符号第二式,陈水扁时代则推行过通用拼音,马英九时代又开始推行汉语拼音,而民众大多基于威妥玛拼音来拼写自己的名字。威妥玛拼音早在 19 世纪中叶由英国驻华公使发明,相对比较符合英语使用者的习惯,譬如台北(Taipei)、台中(Taichung)、高雄(Kaohsiung)等都约定俗成地使用了威妥玛拼音,而没有遵循任何时期的政府规范。以威妥玛拼音为基础的邮政式拼音在中国大陆也留下了深远的影响,譬如北京(Peking)、苏州(Soochow)等,北大、苏大的英文名用的就是这套邮政式拼音。香港亦有数套粤语拼音方案并行,人名和地名一般使用香港政府粤语拼音,而香港语言学学会则在推行粤拼以求统一教育界的粤语拼音使用。

输入法

输入法也是汉字文化圈的特产,因为西方国家通过调整键盘布局就能键入各种表音文字,常用语言只有汉字才非得要输入法才能键入。因为中国大陆一般使用拼音输入法、台湾一般用注音输入法,所以我一直很好奇香港人是不是会用粤拼输入法。后来发现粤拼在粤语地区仍不普及,香港人一般用仓颉输入法或其简化版本速成输入法,都属于字形输入法。

日韩本身也有自己的键盘布局,用来快捷地键入假名和谚文。但对于我们用 QWERTY 键盘的外国人来说,就只能学习罗马字输入法了。macOS 自带的日语输入法还好,能兼容平文式和训令式罗马字,但韩语输入法就相当令人迷惑了。macOS 列出的韩语键盘共有五种:2-Set、3-Set、390 Sebulshik、工振厅罗马字GongjinCheong Romaja、HNC 罗马字。前三个对应的是三种不同的韩语键盘布局,这里就不深究了,我也不吐槽苹果标新立异地把 Sebeolsik 拼成 Sebulshik 是什么心态了。后面两个明显是我们需要的罗马字输入法,但问题来了:这里的工振厅和 HNC 都是啥呢?

调查一番可以发现,工振厅是已于 1996 年撤销的韩国工业振兴厅,HNC 是韩国办公软件公司 Hancom (Haansoft)。从现存资料来看,工振厅并没有发布过罗马字方案,但经过我抽丝剥茧地考证,终于发现有韩国媒体报道过工振厅参与了韩朝双方关于 ISO/TR 11941:1996 的谈判,不过双方并没有就最终草案达成一致(正因如此韩语罗马字尚无国际标准可循)。所以我认为工振厅罗马字就是指这份已撤回的国际标准草案的韩方版本,其与韩国现行的文观部罗马字的比较可以参见这份报告或者这篇文章。而 HNC 罗马字指的是 Hancom 的旧式罗马字方案,其辅音部分跟工振厅罗马字相同,但复合元音的罗马字是由基本元音直接相加而成,具体差异见下表(y/i 两个字母可以互相替换):

 
工振 eu eo yeo ae yae e ye wa wae oe weo we wi yi
HNC w e ye ai yai ei yei oa oai oi ue uei ui wi

字符编码

最后简单聊聊汉字文化圈的字符编码,管中窥豹地看看 Unicode 的汉字编码遇到了怎样的困难。在 Unicode 以前,西方世界最常用的字符集标准是 ISO/IEC 8859,它将 ASCII 从 7-bit 扩展到了 8-bit,定义了 15 种变体服务于以欧洲为主的常用表音文字。但这样的单字节编码显然是不够存放汉字的,于是东亚各国基于可变长的 EUC 编码各自制定了自己的字符集。

中国大陆的字符集标准经历了 GB 2312、GBK、GB 18030 三个阶段,现行的 GB 18030 单字节兼容 ASCII、双字节兼容 GBK、四字节则映射到了其余的 Unicode 码位;台湾的业界标准则是双字节的 Big5,香港则在此基础上制定了香港增补字符集。而日韩朝三国也有各自的工业标准 JIS X 0208、KS X 1001、KPS 9566,收录了本国所需的汉字以及假名或是谚文等,越南则有 TCVN 5773 收录喃字、TCVN 6056 收录儒字。看到这么多眼花缭乱的字符集标准,Unicode 的最大难题就是如何把各国标准中相同的汉字合并起来。因为 Unicode 也是国际标准 ISO/IEC 10646,所以国际标准化组织旗下有一个表意文字小组(ISO/IEC JTC1/SC2/WG2/IRG)来专门负责各国汉字的统一工作,现任召集人是香港理工大学的陆勤教授。

Unicode 的汉字部分被称为中日韩统一表意文字,而统一各国汉字的工作被称为认同。表意文字小组的工作曾有两项基本原则:汉字认同原则和字源分离原则。在汉字认同原则下,起源相同、字形相似的汉字会被赋予相同的码位,其不同字形则交由异体字选择器处理,或是由符合各地标准的字体自行渲染。而在字源分离原则下,如果某列为字源的字符集收录了同一汉字的不同字形,则 Unicode 也同时收录它们,以便与原字符集一一对应。这两项原则的本质对立导致了一些自相矛盾的决定,譬如「U+6236」「U+6237」「U+6238」有三个码位,而「U+623F」却只有一个。字源分离原则破坏了 Unicode 只对字而不对字形进行编码的大方针,因此如今已经不再遵循了。这项旷日持久的汉字认同工作还衍生了 Unihan 数据库,为每一个收录的汉字提供了在各国字源中的编码、各国字典中的索引、各地区的读音、英语释义、相关异体字等等,为汉字的国际标准化作出了巨大的贡献。