如何粗略地区分简体还是繁体?

我给 BYVoid 的简繁转换工具 OpenCC 做了一个 Emacs 接口,一个感觉蛮有用的功能是根据输入的文字,自动提示转换的方向,即简至繁还是繁至简。大家有了解如何实现吗?

(guess-simplified-chinese "这是简体字")
     => t

(guess-simplified-chinese "這是繁體字")
     => nil
1 个赞

不是每个字都有简/繁两种写法,所以不好判断。

除非认为一段文字中,包含繁体字,即所有字都是繁体字。但是又不能排除一段文字它本身就是简繁两种文体相互引用。

其实中日韩越都共享一个字符集,有重叠的部分。

我认为还是提供至少两种选择,最终由用户确定吧。默认的可以是繁至简。

不仅是用户数量多寡的问题。因为简繁并不是一一对应的关系,而大多是一简对多繁。比如著名的「干」字,对应的就有「幹、乾、干」三种字形和意义,孔乙己老先生曰过的,茴香的茴字有四种写法不能忘。但把「并州」强制转为「並州」就不对了,岳爷爷的名字也不能写作「嶽飛」。

举个栗子,RIME输入法的词库都是默认繁体的,输出的简体也是由内置的OpenCC进行转换的结果,这样可以最大限度避免简繁不一一对应带来的讹误。

我支持默认 繁 -> 简,方便有相反需求的用户修改配置就行了。