现在有没有哪个大语言模型 (LLM) 产品能支持对几百个文献进行分析？

Tokubara · 2024 年11 月 13 日 14:32

写论文时，我明明知道一个结论，想要为这个结论找引用，这件事，让我太痛苦了（比如刚才，一个结论我找了 1 个小时 10 分钟，目前都还没找到出处）。一个结论，我知道我在好几个文献都看到过，就是想不起来是哪句话。我想问有没有大语言模型产品，比如 chatgpt, claude 之类的，能让我存入几百个文献，之后我能随时提问，LLM 帮我定位这个结论出现在哪些文献的什么位置？那就太爽了。

Nasy · 2024 年11 月 14 日 00:28

这个叫做RAG

TomoeMami · 2024 年11 月 14 日 01:18

https://sspai.com/post/84945

junmoxiao · 2024 年11 月 14 日 02:32

用 gpt_academic
不过你要求几百个文件，应该没有直接支持这么长token的。
可以取巧，比如你提供某个结论，问ai，某个论文里面有没有，然后实现自动化遍历所有论文

zhangjunphy · 2024 年11 月 14 日 03:11

单独 LLM 做不到这些, 需要有些架构做调度和索引. 另外索引过程会用掉挺多 token 的, 最好是找个便宜的 LLM 或者本地跑.

感觉上这个差不多满足要求, 不过我没用过 GitHub - Future-House/paper-qa: High accuracy RAG for answering questions from scientific documents with citations

LdBeth · 2024 年11 月 14 日 19:53

相关话题

Nasy · 2024 年11 月 14 日 21:38

不知道哪儿有已经成熟的，但这个就叫做RAG，可以到处找一找，比如：

Tokubara · 2024 年11 月 15 日 06:12

我不做大模型，所以问的问题可能离谱，我想问有没有可能我用这些文献做个小规模的训练呢(这是不是 fine-tune)？

Nasy · 2024 年11 月 15 日 13:05

是 fine-tuning，可以做。但效果不一定有你想象中好

yibie · 2024 年11 月 16 日 13:42

统统上传到 Google 的 notebookLM 就好了