[WIP] OCR with Emacs and Org-mode

fuxialexander · 2018 年12 月 8 日 13:39

一个想法，先在这占个坑接下来慢慢实现一个函数，在往org mode插入图片的时候调用 GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) 来做文字识别，并将识别出的文字放到图片后的quote block里感觉应该不是很难

manateelazycat · 2018 年12 月 8 日 15:12

OCR 技术的关键步骤:

因为中文字体的原因, 每个字体的笔画和渲染都不一样, 所以需要针对某个字体进行识别训练, 才能把某个字体的文字识别提升到 98% 的准确率以上.

上面是我开发网易词典Linux版屏幕取词的经验, 如果你不放大图片处理, 得到的文字识别率惨不忍睹.

fuxialexander · 2018 年12 月 8 日 20:05

哇有经验就是不一样完全没考虑到这个问题谢谢指点～

sujikinen · 2018 年12 月 9 日 01:21

推荐个这个repo

有HTTP接口，实现起来比较快

就是速度有点慢

jimx · 2018 年12 月 9 日 12:32

之前正好玩过一会这个chineseocr，试着实现了一下接口，每次调用的时候把光标处的前一张图片发到服务端做识别然后把结果插入到图片后面的quote block中，效果如下：

在cpu上做OCR确实很慢，一次要十多秒，换成用cuda之后基本上可以瞬间出结果，唯一的问题就是配置服务端太麻烦了。代码放在了https://gist.github.com/Jimx-/4702dce72586f4e56177b20e7768f649

fuxialexander · 2018 年12 月 10 日 13:10

哇没想到CPU会很慢这个问题。。

zhouchongzxc · 2018 年12 月 10 日 13:50

云供应商都有接口的

stardiviner · 2019 年2 月 25 日 01:22