一个想法,先在这占个坑 接下来慢慢实现 一个函数,在往org mode插入图片的时候调用 GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) 来做文字识别,并将识别出的文字放到图片后的quote block里 感觉应该不是很难
3 个赞
OCR 技术的关键步骤:
- 先截图
- 放大4倍以上
- 图片黑白化
- 锐化处理, 获得清晰的文字边缘
- OCR 库识别处理后的大图, 得到识别文字
因为中文字体的原因, 每个字体的笔画和渲染都不一样, 所以需要针对某个字体进行识别训练, 才能把某个字体的文字识别提升到 98% 的准确率以上.
上面是我开发网易词典Linux版屏幕取词的经验, 如果你不放大图片处理, 得到的文字识别率惨不忍睹.
10 个赞
哇有经验就是不一样 完全没考虑到这个问题 谢谢指点~
之前正好玩过一会这个chineseocr,试着实现了一下接口,每次调用的时候把光标处的前一张图片发到服务端做识别然后把结果插入到图片后面的quote block中,效果如下:
在cpu上做OCR确实很慢,一次要十多秒,换成用cuda之后基本上可以瞬间出结果,唯一的问题就是配置服务端太麻烦了。代码放在了https://gist.github.com/Jimx-/4702dce72586f4e56177b20e7768f649
5 个赞
哇没想到CPU会很慢这个问题。。
云供应商都有接口的