大家都在用 AI 代理编程吗,来聊聊各家 AI 模型的使用体验

,

我个人目前的AI代理编程经历是,大量使用 Claude Sonnet 4.5 ,少量尝试过 GLM4.6 、DeepSeek Chat 、ChatGPT Codex 。

以上所有模型都是通过 Claude 命令行工具来进行的。以及,我个人采用“半自动化”的方式使用 AI 模型,除了一些临时工具型项目,多数项目我都是时刻盯着 AI 的产出,实时审查代码,并且在大部分重要节点手动确认和修正模型思路。基本上我让模型做的工作都是我确信可以自己手动完成的,AI 真正只作为辅助工具而非思路主导。

到目前为止,我个人综合体验是 Claude Sonnet 4.5 > DeepSeek Chat > GLM 4.6 > Codex 。

这其中最拉胯的就是 Codex 。我在外网论坛上不止一次看到有人吹 Codex 多么多么好,然后前两天我的 Claude 每周额度用完了,就开通 ChatGPT Plus 尝试了一下,结果把我的代码搞的一团糟(谢天谢地,Claude 命令行有 /rewind 这个神器让我可以还原代码)。不管是直接使用 Codex 命令行工具,还是用一些第三方工具将其代理到 Claude CLI ,使用体验都比 Claude 本身差远了,甚至远远不如 GLM 和 DeepSeek 。我现在严重怀疑网络上那些吹捧的账号都是被充值了的。还有那些基准测试榜单也不是很靠谱。

另外一个有意思的地方是国产大模型确实很不错,之前看外网不少人推崇 GLM ,我还将信将疑,后来开通账号实际用了一下,发现差不多能追上 Claude Sonnet 4.5 了,虽然偶尔会犯一些小错误,总体来说作为一个替代还是可以的。后来我还充值 DeepSeek 试用了一下,体验上似乎比 GLM 还稳定一些。

不过国产模型有个缺点,就是 token 消耗似乎特别快。虽然 Claude 有 5 小时限制和每周数额限制,但是我感觉在相同 token 消耗量的情况下 Claude 能完成很多工作,而国产模型不知道是不是因为没有时间限制,感觉没用多久,充值的钱很快就用光了。

而且在使用过程中观察 token 的消耗量,我发现 DeepSeek 就是简单扫描文件夹和分析一下功能就消耗了 10 万 token ,这也太夸张了,没聊几个来回就开始要自动压缩会话了,总觉得哪里出了问题,使用 Claude 官方模型似乎没看到这么高的消耗量。

那么各位的 AI 使用体验是怎样的,有没有性价比更好模型推荐来试试。

我 codex 充了会员,CC 用的 Claude Sonnet 4.5 的 API,体感 codex 还是可以的(除了慢,起码比国产的在我的场景强多了)

1 个赞

能大概说说你的使用方式吗,我看 codex 启动时会询问用户是否开启确认行为,我第一次用的时候没太注意选择了“无需确认”,结果它就一股脑的执行各种操作不用我参与,然后犯错了就越错越远。不过后来我开启了需要手动确认,实际产出也没有多好。

我怀疑这可能还是跟个人的使用习惯有关,是不是 vibe coding 的人更喜欢用 codex ,因为可以丢在那儿不管,只看结果,不用关心过程。

日常 Debug,写代码都会先问问,举个例子最近在看 gaia2 的榜单,代码见(~7w)

遇到了下述问题

通过 are-benchmark run 生成的轨迹再重新 judge 时会存在下面的报错,请帮我看看是为什么
  are-benchmark judge --trace_dump_format hf --dataset ./debug/ --hf-config search -a default --provider local --model litellm_proxy/gemini-2.5-pro --limit 1 --log-level DEBUG
  2025-11-13 17:34:05,548 - MainThread - ERROR - are.simulation.multi_scenario_runner - Scenario scenario_universe_29_5co0p6 failed with exception: 'CabApp'

gpt-5-codex medium 开了 full-auto mode,在工作了 25 分钟,执行了 83 次工具,给出了正确的结果,你可以试试 cc(git clone 代码,然后粘贴上面问题)

codex有codex-cli可以用, 效果蛮好的, 写较小的代码库, 程序一次跑通的机会蛮高. 我还没用试过claude命令行来用codex.

对于leetcode的hard题目codex能轻松应对. claude基本只能对付medium题

在很大的code base上, 我不清楚哪个更好.

可能跟国内服务器宽带流量费贵有关?海外服务器似乎好多都是不限流量的,因为网站流量非常低,我把按带宽计费改成按流量计费以后,发现真的很难算账,有时候充个5块钱就能一直用很久才提示我可用额度不足,但充个10元又管不了多久就开始说可用额度不足