我之前折腾过pdf-tools看文献,也看了些工作流,感觉配置起来太伤脑。 后来,看到yibie老哥的org-zettel-ref-mode中带了一个pdf、epub等转换成org的脚本,我当时转换了一下,感觉很有意思,配合上各种org插件,很多pdf转换后都能用emacs读了。 当然还有不少复杂的pdf处理起来比较困难,所以我开始关注各种大模型转换pdf文件的。 最近几天折腾了一下,发现了两个可以用于转换pdf成markdown的工具,分别是 https://github.com/opendatalab/MinerU/和https://github.com/VikParuchuri/marker。 转换成markdown之后,其实就可以直接在emacs里读了,进一步用pandoc转换成org能实现更多的功能。
对于数学公式比较多,特别是正文部分有很多数学符号的,推荐使用MinerU,转换后的latex用xenops实时渲染,效果很不错。弱点是表格转换出来是html格式,要处理一下。
不含公式的文章文献书籍,用marker效果就比较好了,拆出来的图片编号清楚,特别是表格的转换效果很好。原文加粗的字体也都被加粗了