gptel 折腾完免费大模型API后,发现回答质量远不如官网,问题出在哪?

今年,大模型AI的回答质量有目共睹,感觉再不用起来就要OUT了。

在网页上同时打开多个模型进行比较实在麻烦,于是我花了周末一天时间,折腾了一套在Emacs里完全免费使用大模型API的方案。

我的折腾方案

  • 资源 :利用国内外厂商(豆包、GLM、Gemini、Groq)赠送的大量免费Token。
  • 架构 :用 LiteLLM 统一多个模型的API,再通过 gptel 调用这个统一接口。

一番操作后,所有模型都成功接通,能在Emacs里愉快对话了。

遇到的问题:API vs 官方产品

然而,我很快发现一个巨大的落差:大模型API的回答质量,远不如官方网页产品。

API的回答显得“干巴巴”,缺少了官方产品那种“博学、聪明、懂搜索”的感觉。

原因分析

我琢磨了一下,官网产品调用的可能不是一个单纯的模型,而是一整套系统工程。而API则默认跳过了这些“增值服务”:

  1. 联网搜索 :自动触发多轮搜索,抓取并汇总网页信息。
  2. 提示词增强 :自动在用户问题前加上数百字的系统级提示词(System Prompt),优化提问。
  3. 长文本处理 :自动对历史对话进行总结和压缩,让模型“记性”更好。
  4. 思维链(CoT) :强制模型先进行一步步思考,再给出最终答案。

我的困惑与求解

所以,大家是如何解决这个问题的?

仅靠调整 system message 只能稍微缓和,但差距依然明显。很多时候,API的回答显得不太聪明,还不如直接打开网页用官方产品。

希望有深入研究的大佬能指点迷津,共同探讨一下如何弥补这中间的差距。我先抛砖引玉了!

1 个赞

你可以去用用 claude 和 codex,就知道差距在哪里了。另外付费的 api 不划算相较于官方套餐。

3 个赞

目前只用claude code ide.el + CC

litellm 版本多少?之前有一个版本被注入攻击了

另外一般好像都说 api 反而比网页对话好,意思是还不如?实在不行可以网页 2api, 有一些工具可以干这个事情的

简单用AI问了一下:

根据最新的安全情报(2026年3月24日发生),LiteLLM 遭遇了严重的供应链攻击。这不是普通的“注入攻击”(Prompt Injection),而是恶意代码注入

请立即检查你的版本号:

  • :warning: 极度危险版本:1.82.71.82.8
    • 现象:这两个版本包含了恶意后门。
    • 风险:它们会自动搜寻并上传你电脑上的所有环境变量(API Keys)、SSH 密钥、AWS/GCP/Azure 凭证以及 Kubernetes 配置到黑客服务器。
    • 特殊点1.82.8 版本含有一个 .pth 文件,这意味着只要你启动任何 Python 程序(即使不 import litellm),恶意代码都会运行。
  • :white_check_mark: 安全版本:1.82.6 及以下
    • 目前认为 1.82.6 是被污染前的最后一个纯净版本。

我用pip show litellm看了,是1.82.4,安全。

1 个赞

想要回答质量好:

  • 用最新的第一梯队的模型(最新的模型训练数据更新)
  • 对于相对复杂的问题开启 reasoning (可能要设置传参才能生效,具体看 API 文档怎么写的)

—-

gptel 确实缺少一个好用的联网搜索的功能,虽然可以通过 tools 给 gptel 集成联网搜索能力,但怎么搜,搜什么也要花时间调。

相比之下,我平时用 Kagi Assisant,模型是 Kimi 2.5,它会基于问题自己去搜索相关内容,再思考后给出回答,回答质量还可以,更关键的是回答内容里有很多引用链接,这些链接也很有帮助。

对回答问题来说,模型能力有影响,但第一梯队的模型回答不会差距特别大,我认为更重要的是能够合理的调用网络搜索功能。比较好的形态像是 Perplexity、Kagi Assistant 这类吧。

—-

即便 gptel 调用 API 回答质量还不够好,也可以考虑用它来处理一些简单任务,例如借助 gptel-rewrite 格式化文本、处理一些重复的文字操作、编写 git commit message。

1 个赞

这一点的确是。由于豆包API是每个模型送50万Token,所以,我拿最新旗舰模型 doubao-seed-20-pro 和 doubao-pro-32k 对比一下,差别还是挺大的。

Kagi Assisant是按月订阅付费。Kimi 2.5 网页和Kagi Assisant的体验接近,但网页版防刷限流(高峰慢、频繁长对话会提示休息),我昨日好像也没咋用,几个小时内使用的频度也不高,就被提示休息了。

没错,能否联网问答质量是不一样的。还有联网后的资料要精简提纯一下,否则很耗费token。

恩简单任务还是可以的。复杂创造性的问答,裸体不联网的模型API几乎没啥用,车轱辘话,煞有介事地,又好气又好笑。

现在的网页版模型大部分都带一些简单的 agentic 的能力了,能多次工具调用 web search 反复查询结果,再给你答案,这样自然回答质量要高很多。你可以用一些自带联网的模型,比如 gemini 就有自带 web search 的版本。但是不给 AI websearch 工具的话,效果也会好一些吧。

不妨体验一下 Kagi Assistant,订阅 5 美元的那档应该就可以用了,之后不想用退订就好。

它的优势是,每次提问基本都会进行网络搜索,而有的模型的 web 页面,即使开启了网络搜索,也只会在模型觉得需要的时候,或者你主动给链接的时候才搜索;

其次 Kagi Assistant 搜索的内容,会基于你平时使用 Kagi Search 的偏好进行搜索,优先从那些我标记权重高的网站获取信息(例如 GitHub、StackOverflow、Reddit),减少从权重低的网站获取信息,搜索质量会更好一些。

顺带一提,Kagi Assistant 也提供了 API,也可以集成到 gptel 里,但我没用过,不知道质量如何。


除了 Kagi Assistant ,5 美元你还可以体验到 Kagi Search、Kagi Translate。甚至有种赚到了的感觉,Kagi 要是能给我点推广费就好了

顺便分享一些我的使用经验:

加个 websearch 的 tool 试试呢?我日常用感觉没啥问题。不过我一般就当搜索引擎来用

lobechat-desktop 这个工具在本地实现了ai agent的功能,但是我总是觉得太慢,而且干什么都要llm参与,看他自己生成的文档也不能直接看,感觉有点封装过度