emacs阅读PDF的新思路

changephilip · 2024 年12 月 21 日 05:29

我之前折腾过pdf-tools看文献，也看了些工作流，感觉配置起来太伤脑。后来，看到yibie老哥的org-zettel-ref-mode中带了一个pdf、epub等转换成org的脚本，我当时转换了一下，感觉很有意思，配合上各种org插件，很多pdf转换后都能用emacs读了。当然还有不少复杂的pdf处理起来比较困难，所以我开始关注各种大模型转换pdf文件的。最近几天折腾了一下，发现了两个可以用于转换pdf成markdown的工具，分别是 https://github.com/opendatalab/MinerU/和https://github.com/VikParuchuri/marker。转换成markdown之后，其实就可以直接在emacs里读了，进一步用pandoc转换成org能实现更多的功能。

对于数学公式比较多，特别是正文部分有很多数学符号的，推荐使用MinerU，转换后的latex用xenops实时渲染，效果很不错。弱点是表格转换出来是html格式，要处理一下。

不含公式的文章文献书籍，用marker效果就比较好了，拆出来的图片编号清楚，特别是表格的转换效果很好。原文加粗的字体也都被加粗了

yibie · 2024 年12 月 21 日 05:59

愿意发一个 PR 到 org-zettel-ref-mode 吗？之前忙于实现 org-supertag，顾不上 org-zettel-ref-mode。我也测试了 MinerU，但在苹果上运行的效率较慢（我是 M1 Pro），所以没有整合。

changephilip · 2024 年12 月 21 日 06:15

这两个工具都规模比较大，不好装，又依赖显卡而且变动更新频繁，老哥别麻烦自己

yibie · 2024 年12 月 21 日 06:27

脚本可以处理设置系统环境的问题。

changephilip · 2024 年12 月 23 日 02:00

要嵌入mineru的话我看了一下，一个是html表格转换md，这个好处理。

还有一个问题，mineru输出目录的文件特别多，要根据md里的图片引用过滤图片文件，并根据输出的json来重命名图片文件（默认文件名是hash值）。我看看我能不能搞定，能搞定的话给你来个PR。

yibie · 2024 年12 月 23 日 02:05

感谢，你太强了！