现在有没有哪个大语言模型 (LLM) 产品能支持对几百个文献进行分析?

写论文时,我明明知道一个结论,想要为这个结论找引用,这件事,让我太痛苦了(比如刚才,一个结论我找了 1 个小时 10 分钟,目前都还没找到出处)。一个结论,我知道我在好几个文献都看到过,就是想不起来是哪句话。我想问有没有大语言模型产品,比如 chatgpt, claude 之类的,能让我存入几百个文献,之后我能随时提问,LLM 帮我定位这个结论出现在哪些文献的什么位置? 那就太爽了。

这个叫做RAG

2 个赞

https://sspai.com/post/84945

1 个赞

用 gpt_academic
不过你要求几百个文件,应该没有直接支持这么长token的。
可以取巧,比如你提供某个结论,问ai,某个论文里面有没有,然后实现自动化遍历所有论文

单独 LLM 做不到这些, 需要有些架构做调度和索引. 另外索引过程会用掉挺多 token 的, 最好是找个便宜的 LLM 或者本地跑.

感觉上这个差不多满足要求, 不过我没用过 :expressionless: GitHub - Future-House/paper-qa: High accuracy RAG for answering questions from scientific documents with citations

相关话题

不知道哪儿有已经成熟的,但这个就叫做RAG,可以到处找一找,比如:

1 个赞

我不做大模型,所以问的问题可能离谱, 我想问有没有可能我用这些文献做个小规模的训练呢(这是不是 fine-tune)?

是 fine-tuning,可以做。但效果不一定有你想象中好