“简体繁体变换”闹出笑话如何补救?


“简体繁体变换”闹出笑话如何补救?

农历己丑年将至,1月15日凤凰网视频主页上推出了一个红红火火的海报:

 

    竟然把天干地支纪年的“己丑” 错成了“己醜”!

凤凰网属于香港电视媒体,所以按照香港的规矩使用繁体字;然而“醜”的简体字固然是“丑”,但这“丑”字却不一定就是“醜”啊!听到许多人纷纷议论和嘲笑:“连基本常识‘干支’也搞错,这文化素养丢到哪儿去啦?”

     亏得眼明心亮脑灵手快的“东方文化西边语”在当天半夜发现并立即(于1月16日00:02)揭示了这个出奇的大错(笑话)——

“己丑未至,凤凰先露了个‘醜’,说得(的)是凤凰网上把农历己丑年错写成了‘己醜’,有图为证”云云。

     好在不久凤凰网的编辑也认识到了,据说在24小时内赶紧把“己醜”改正为“己丑”——

(两图引自翟华:东方文化西方语)

 

      这印证了“君子之过也,如日月之蚀”,犯了错误人皆见之,一旦改正了,人皆喜之。总比那“死不认错、死不改过”的混混儿强得多了去啦。

      不过,本博要说句公道话,这也难怪“凤凰网视频主页”推出海报的工作人员,而实在是“简体繁体变换字表”惹的祸。

      由此产生的笑话经常出现,搞笑跌眼镜还不算大事,糟糕的是会造成误解、带来损害。

       例如——

      “王后” 可以理解为国王的正妻,也可以转写为“王後(国王之後)”;

     “春光里” 可以理解为里弄地名,也可以转写为“春光裏(春季裏面)”;

      “三公里”(距离)有时竟然被转写为“三公裏”(三个公爵裏面);

     “脏器” 可以转写为“髒器——肮脏的器具”,也可以转写为“臟器——内脏”;

     “白发生”可以转写为“白髮生(辛弃疾词:可怜白髮生)——生了白髮”,也可以转写为“白發生——白白地發生了”;

     “征调” 可以理解为对于物品资财的“征zheng调”,也可以转写为古典音乐的“徵zhi调”;

     有人居然把“宫商角徵zhi羽”误读成“宫商角征zheng羽”;

    “干!干!”可以转写为“乾(阴平声)!乾!乾!”(喝酒乾杯),也可以转写为“干(去声)!干!干!”(干事情、干革命);甚至有人把“扭转乾qian坤”转写为“干坤”、念成“扭转干gan坤”;

     瞧,多么可笑又可气!

     再请看下面一段文字——

   “泥土松,松树动,松子轻松,掉在泥土中”,单纯利用编码一一转换方式来进行转写的繁体结果,通常就是:“泥土松,松樹動,松子輕松掉在泥土中”;

    而实际上应该是“泥土鬆,松樹動,松子輕鬆掉在泥土中”。

    [简体字“松”,在繁体中文里面对应两个繁体字形:一是“鬆”字作“紧”的反义词;一是“松”字,作义素包含在“松树”一词中。]

……这些笑话层出不穷,都是“简体繁体变换”惹的事(甚至惹出乱子)。

繁体和简体的字形差异造成很大困难

      众所周知,中华人民共和国推行了半个世纪的簡化字,台湾和香港至今并没有采用。“繁体字”是中国大陆对传统汉字字体的称呼,这个称呼在香港、澳门等地区也较常使用;而在台湾被称作“正体字”。按中国官方的分类,简化字是规范汉字,繁体字则属于非规范汉字。联合国等国际组织、以及新加坡、马来西亚等随同中华人民共和国采用简化字。

     在中文电脑技术中,中国大陆和港台采用不同的“字符集”:简体中文则通常使用国标码字符集或其扩充版本,国家标准扩展码 (GBK) 等由中国政府正式颁发的字符集;中国大陆的繁体中文通常使用 BIG5 编码以及台湾省官方发布的 CNS14649字符集。

      通常把中国大陆的中文用户叫做“简体中文用户”,把中国香港及台湾地区的中文用户叫做“繁体中文用户”。

      对中华人民共和国《现代汉语通用字表》内的7千多个通用字,和台湾地区的《常用国字标准字体表》(繁体字)进行字形比较的结果是:两表所收相同的字有4786个,字形不同(即中国大陆使用简化字、香港和台湾地区使用繁体字)的有1474字,约占总表的三分之一(31 %)!

      再有,《简化字总表》第一表里面的350个简化字(不作简化偏旁用)里面,字形相差甚远、看不出关联性的字,如“出[齣]”(一出昆曲和一齣昆曲)、“丛[叢]”(花丛和花叢)等有90多个,约占此表的四分之一(25.7%)!

      此外,对于古典文献的阅读者和研究者说来,古籍印刷的繁体字本跟简体字本在字形上的显著差异,也实在令人头疼。例如简体字《后汉书》跟古字—繁体字《後漢書》三个字竟然完全不同了!

     可见,字形差异是“简体中文用户”和“繁体中文用户”在阅读中文内容时感觉困难的根本原因。

“简体繁体编码转换”的方式亟待改进!

     目前解决的办法就是通过“简体繁体变换字表”加以“繁简编码转换”。

    然而这单纯利用编码转换方式来进行“简体繁体变换”,通常是“一个简体对一个繁体”变换,而实际上往往出现“一对多”或“多对一”的复杂情况;在有不同的意义和不同的“上下文”的时候,所变换的字形应该不一样的。

    这就产生的上面所述的繁体字“醜”的简体字是“丑”、而“丑”用作干支的时候却不是“醜”仍是“丑”的一对二的情况。

    这些情况不在少数,屡见不鲜。

    根本原因在于:简体繁体并非一一对应的!具体的复杂情况,只有各别处理,而绝不能简单按照“一一对应”地进行简体繁体互换!

   “一个简体对多个繁体”的简化字,例如“云”,在表示“古汉语动词、助词(例:‘人云亦云’、‘岁云暮也’)”时,才对应繁体字形“云”;在其它义项中(如云雾、云雨、风云、云中君)则对应繁体字形“雲”。

    又如“面”字,在表示“食物、粉末”义时,对应的繁体字形是“麵”(麵粉、白麵、莜麦麵);在表示其它义项时,对应繁体字形“面”(面子、表面、面面俱到);

    再如“适”字,在作古代人名用字时,对应繁体字形“适”(如南宫适,但“胡适、胡适之”应该转为胡適、胡適之,因为他取名采用了“適者生存”的典故),在其它义项则对应繁体字形“適”(合適、適可而止、適者生存)。

    简体字“发”字,在表示动词义(如“发生”)及量词义(如“一发炮弹”)时对应繁体字形“發”;在表示“头发、发肤”之义时,对应繁体字形“髮”。

    简体字“胡”,在“胡子”、“络腮胡”这一义项中对应繁体字形“鬍”;在“胡涂”这一义项中对应繁体字形“糊”;在“胡同”这一双音词中对应繁体字“衚衕”;在其它义项则对应繁体字形“胡”。

    又如:“卜”对应两个繁体字形“蔔”和“卜”,它只在出现于“萝卜”一词时才对应繁体字形“蔔”,其它情况都对应繁体字形“卜”。

     再如:“秋”和“千”都只在“秋千”一词中分别对应繁体字形“鞦”和“韆”;在其它义项,则仍对应繁体字形“秋(秋天)”和“千(千百)”。

……

      回忆30年前国家有关负责部门召集会议,讨论制定“简体繁体变换字表”的时候,王选老师和我曾多次提出:必须根据“繁体简体并非一一对应”的实际情况,依其特殊性(如上下文语境)各别解决“编码转换”方式,就是要分类分层次地区别对待;不应该简单采取“繁体简体一一对应”的变换字表。可惜,我们的意见没有得到应有的重视。以至于后来经常闹出笑话来,引发简体繁体汉字转换的误会、误解。于是,多年以前我们就开始跟从周有光先生做了“现代汉字学”的一些探讨,并希望理论结合实践,好好解决中文信息处理的“简体繁体转换”问题。

 

【附录】 许多情况下,繁简并不一一对应。不对应的情况有多少?严重到什么程度呢?

我们可以看一下——

    据汉字学家统计【费锦昌.海峡两岸现行汉字字形的比较分析.语言文字应用.19931期】,在《现代汉语通用字表》所收录的七个多个通用字中,有121组繁简字并不一一对应

    其中,有107个简化字属于“一简对多繁”即一个简化字对应多个繁体字形的情况,它们是:

板 淀 丰 脏 后 胡 回 漓 须 帘 千 秋 松 咸 苏 郁 御 愿

芸 沄 致 朱 团 辟 卜 沈 虫 担 党 谷 柜 坏 几 家 价 据

适 蜡 腊 万 宁 朴 仆 胜 术 体 叶 吁 与 摆 当 发 汇 获

尽 历 弥 纤 表 才 丑 范 姜 困 霉 面 蔑 云 制 准 厂 广

别 冲 种 斗 划 系 卷 累 蒙 曲 确 舍 台 涂 旋 佣 症 恶

 复 饥 卤 签 坛 只 钟 药 出 刮 冬 里 向 筑 岳 借 伙 。

    “一繁对多简”即一个繁体字对应多个简化字形的情况共有14组,分别是:

    “讎(仇/雠)、兒(儿/兒)、乾(干/乾)、閤(合/閤)、夥(伙/夥)、藉(借/藉)、剋(克/剋)、瞭(了/瞭)、麼(么/麽)、蘋(苹/蘋)、餘(余/馀)、摺(折/摺)、徵(征/徵)、著(着/著)”,

           表1.简-繁的一对多                 表2.繁-简的一对多

简体字

繁体字

 

繁体字

简体字

發(出發)

髮(頭髮)

着(沿着)

著(著作)

板(老闆)

板(木板)

干(干燥)

乾(乾坤)

別(告別)

別(彆扭)

征(长征)

徵(徵羽)

 

    按不同词性对应不同字形的繁简字,它们的特点在于在作不同词性用时,对应不同的简化字形或者繁体字形。下面是8个“一简对多繁”的简化字,分别是“脏、斗、累、舍、旋、佣、仆、准”。

    下表举例说明它们在不同词性对应不同繁体字形的情况【冯霞:香港《语文建设通讯》87期】

 

简化字

不同的词性

对应的繁体字形

例词

形容词

肮脏

名词

内脏

动词

舍弃

名词

房舍

动词

仆倒

名词

仆人

动词

准许

名词、介词、形容词、副词

准确