自荐:兼容 emt.el 的跨平台中文分词模块

在 MacOS 上提供了中文分词。Windows 上 WinRT API 和跨平台的 ICU 也支持分词,于是我搓了个兼容的模块:

安装方式参照 emt,但用我提供的 dll/so/dylib 替换原项目的 libEMT.dylib

欢迎大家使用。

6 个赞

跨平台是指 macOS 也支持吗?

支持。但分词库并非 emt 原作者用到的 NLTokenizer,而是 ICU。你可以自己比较两种库的效果好坏。

已经装上了,感觉非常好,分词算法比较精确

目前最强的中文分词算法是 hanlp,可惜部署起来非常麻烦

很好用,感谢分享。

这里的 libewt-aarch64.dylib 和 libewt-intel.dylib 什么区别啊,我 macos 用第一个?

你是 M系列 Apple Silicon 芯片的电脑,还是老的 Intel 芯片电脑?

前者选上面的,后者选下面的

1 个赞

繁體字也能分詞嗎?

我試驗了兩個 API,認爲 WinRT API 對繁體字支持甚差,而 ICU 對繁體字分詞的支持優於簡體字。建議采用後者。

1 个赞

一般在什么场景下会需要使用到中文分词?我能想到的只有光标双击的时候选中单词,不知道还有哪些其他的用法吗。

和用到英文分词的场景差不多。对我来说,需要比逐字移动光标更快的时候就会逐词移动。

英文分词?英文不就是用空格分开的单词吗。还是你说的是在英文排版中一个单词拆开用 hypen 连接的那种。

是的,我的意思是英文分词功能对英语母语者有什么用,汉语分词就对我有什么用。

1 个赞

我还想到一个,在一些推荐算法中,需要对大量的文本进行中文分词,然后提取关键词进行分类。

不错,明天测试下windows 下的效果