emacs阅读PDF的新思路

我之前折腾过pdf-tools看文献,也看了些工作流,感觉配置起来太伤脑。 后来,看到yibie老哥的org-zettel-ref-mode中带了一个pdf、epub等转换成org的脚本,我当时转换了一下,感觉很有意思,配合上各种org插件,很多pdf转换后都能用emacs读了。 当然还有不少复杂的pdf处理起来比较困难,所以我开始关注各种大模型转换pdf文件的。 最近几天折腾了一下,发现了两个可以用于转换pdf成markdown的工具,分别是 https://github.com/opendatalab/MinerU/https://github.com/VikParuchuri/marker。 转换成markdown之后,其实就可以直接在emacs里读了,进一步用pandoc转换成org能实现更多的功能。

对于数学公式比较多,特别是正文部分有很多数学符号的,推荐使用MinerU,转换后的latex用xenops实时渲染,效果很不错。弱点是表格转换出来是html格式,要处理一下。

不含公式的文章文献书籍,用marker效果就比较好了,拆出来的图片编号清楚,特别是表格的转换效果很好。原文加粗的字体也都被加粗了

4 个赞

愿意发一个 PR 到 org-zettel-ref-mode 吗?之前忙于实现 org-supertag,顾不上 org-zettel-ref-mode。我也测试了 MinerU,但在苹果上运行的效率较慢(我是 M1 Pro),所以没有整合。

这两个工具都规模比较大,不好装,又依赖显卡 而且变动更新频繁,老哥别麻烦自己

脚本可以处理设置系统环境的问题。

要嵌入mineru的话我看了一下,一个是html表格转换md,这个好处理。

还有一个问题,mineru输出目录的文件特别多,要根据md里的图片引用过滤图片文件,并根据输出的json来重命名图片文件(默认文件名是hash值)。 我看看我能不能搞定,能搞定的话给你来个PR。

感谢,你太强了!