在 MacOS 上提供了中文分词。Windows 上 WinRT API 和跨平台的 ICU 也支持分词,于是我搓了个兼容的模块:
安装方式参照 emt,但用我提供的 dll/so/dylib 替换原项目的 libEMT.dylib。
欢迎大家使用。
在 MacOS 上提供了中文分词。Windows 上 WinRT API 和跨平台的 ICU 也支持分词,于是我搓了个兼容的模块:
安装方式参照 emt,但用我提供的 dll/so/dylib 替换原项目的 libEMT.dylib。
欢迎大家使用。
跨平台是指 macOS 也支持吗?
支持。但分词库并非 emt 原作者用到的 NLTokenizer,而是 ICU。你可以自己比较两种库的效果好坏。
已经装上了,感觉非常好,分词算法比较精确
目前最强的中文分词算法是 hanlp,可惜部署起来非常麻烦
很好用,感谢分享。
你是 M系列 Apple Silicon 芯片的电脑,还是老的 Intel 芯片电脑?
前者选上面的,后者选下面的
繁體字也能分詞嗎?
我試驗了兩個 API,認爲 WinRT API 對繁體字支持甚差,而 ICU 對繁體字分詞的支持優於簡體字。建議采用後者。
一般在什么场景下会需要使用到中文分词?我能想到的只有光标双击的时候选中单词,不知道还有哪些其他的用法吗。
和用到英文分词的场景差不多。对我来说,需要比逐字移动光标更快的时候就会逐词移动。
英文分词?英文不就是用空格分开的单词吗。还是你说的是在英文排版中一个单词拆开用 hypen 连接的那种。
是的,我的意思是英文分词功能对英语母语者有什么用,汉语分词就对我有什么用。
我还想到一个,在一些推荐算法中,需要对大量的文本进行中文分词,然后提取关键词进行分类。
不错,明天测试下windows 下的效果