如何粗略地区分简体还是繁体？

xuchunyang · 2017 年9 月 13 日 10:01

我给 BYVoid 的简繁转换工具 OpenCC 做了一个 Emacs 接口，一个感觉蛮有用的功能是根据输入的文字，自动提示转换的方向，即简至繁还是繁至简。大家有了解如何实现吗？

(guess-simplified-chinese "这是简体字")
     => t

(guess-simplified-chinese "這是繁體字")
     => nil

twlz0ne · 2017 年9 月 13 日 13:55

不是每个字都有简/繁两种写法，所以不好判断。

除非认为一段文字中，包含繁体字，即所有字都是繁体字。但是又不能排除一段文字它本身就是简繁两种文体相互引用。

其实中日韩越都共享一个字符集，有重叠的部分。

erStern · 2017 年9 月 14 日 00:26

我认为还是提供至少两种选择，最终由用户确定吧。默认的可以是繁至简。

不仅是用户数量多寡的问题。因为简繁并不是一一对应的关系，而大多是一简对多繁。比如著名的「干」字，对应的就有「幹、乾、干」三种字形和意义，孔乙己老先生曰过的，茴香的茴字有四种写法不能忘。但把「并州」强制转为「並州」就不对了，岳爷爷的名字也不能写作「嶽飛」。

举个栗子，RIME输入法的词库都是默认繁体的，输出的简体也是由内置的OpenCC进行转换的结果，这样可以最大限度避免简繁不一一对应带来的讹误。

我支持默认繁 -> 简，方便有相反需求的用户修改配置就行了。