kholin
2025 年11 月 13 日 03:10
1
我个人目前的AI代理编程经历是,大量使用 Claude Sonnet 4.5 ,少量尝试过 GLM4.6 、DeepSeek Chat 、ChatGPT Codex 。
以上所有模型都是通过 Claude 命令行工具来进行的。以及,我个人采用“半自动化”的方式使用 AI 模型,除了一些临时工具型项目,多数项目我都是时刻盯着 AI 的产出,实时审查代码,并且在大部分重要节点手动确认和修正模型思路。基本上我让模型做的工作都是我确信可以自己手动完成的,AI 真正只作为辅助工具而非思路主导。
到目前为止,我个人综合体验是 Claude Sonnet 4.5 > DeepSeek Chat > GLM 4.6 > Codex 。
这其中最拉胯的就是 Codex 。我在外网论坛上不止一次看到有人吹 Codex 多么多么好,然后前两天我的 Claude 每周额度用完了,就开通 ChatGPT Plus 尝试了一下,结果把我的代码搞的一团糟(谢天谢地,Claude 命令行有 /rewind 这个神器让我可以还原代码)。不管是直接使用 Codex 命令行工具,还是用一些第三方工具将其代理到 Claude CLI ,使用体验都比 Claude 本身差远了,甚至远远不如 GLM 和 DeepSeek 。我现在严重怀疑网络上那些吹捧的账号都是被充值了的。还有那些基准测试榜单也不是很靠谱。
另外一个有意思的地方是国产大模型确实很不错,之前看外网不少人推崇 GLM ,我还将信将疑,后来开通账号实际用了一下,发现差不多能追上 Claude Sonnet 4.5 了,虽然偶尔会犯一些小错误,总体来说作为一个替代还是可以的。后来我还充值 DeepSeek 试用了一下,体验上似乎比 GLM 还稳定一些。
不过国产模型有个缺点,就是 token 消耗似乎特别快。虽然 Claude 有 5 小时限制和每周数额限制,但是我感觉在相同 token 消耗量的情况下 Claude 能完成很多工作,而国产模型不知道是不是因为没有时间限制,感觉没用多久,充值的钱很快就用光了。
而且在使用过程中观察 token 的消耗量,我发现 DeepSeek 就是简单扫描文件夹和分析一下功能就消耗了 10 万 token ,这也太夸张了,没聊几个来回就开始要自动压缩会话了,总觉得哪里出了问题,使用 Claude 官方模型似乎没看到这么高的消耗量。
那么各位的 AI 使用体验是怎样的,有没有性价比更好模型推荐来试试。
我 codex 充了会员,CC 用的 Claude Sonnet 4.5 的 API,体感 codex 还是可以的(除了慢,起码比国产的在我的场景强多了)
1 个赞
kholin
2025 年11 月 13 日 03:49
3
能大概说说你的使用方式吗,我看 codex 启动时会询问用户是否开启确认行为,我第一次用的时候没太注意选择了“无需确认”,结果它就一股脑的执行各种操作不用我参与,然后犯错了就越错越远。不过后来我开启了需要手动确认,实际产出也没有多好。
我怀疑这可能还是跟个人的使用习惯有关,是不是 vibe coding 的人更喜欢用 codex ,因为可以丢在那儿不管,只看结果,不用关心过程。
日常 Debug,写代码都会先问问,举个例子最近在看 gaia2 的榜单,代码见(~7w)
Meta Agents Research Environments is a comprehensive platform designed to evaluate AI agents in dynamic, realistic scenarios. Unlike static benchmarks, this platform introduces evolving environments where agents must adapt their strategies as new information becomes available, mirroring real-world challenges.
遇到了下述问题
通过 are-benchmark run 生成的轨迹再重新 judge 时会存在下面的报错,请帮我看看是为什么
are-benchmark judge --trace_dump_format hf --dataset ./debug/ --hf-config search -a default --provider local --model litellm_proxy/gemini-2.5-pro --limit 1 --log-level DEBUG
2025-11-13 17:34:05,548 - MainThread - ERROR - are.simulation.multi_scenario_runner - Scenario scenario_universe_29_5co0p6 failed with exception: 'CabApp'
gpt-5-codex medium 开了 full-auto mode,在工作了 25 分钟,执行了 83 次工具,给出了正确的结果,你可以试试 cc(git clone 代码,然后粘贴上面问题)
tninja
2025 年11 月 14 日 05:11
5
codex有codex-cli可以用, 效果蛮好的, 写较小的代码库, 程序一次跑通的机会蛮高. 我还没用试过claude命令行来用codex.
对于leetcode的hard题目codex能轻松应对. claude基本只能对付medium题
在很大的code base上, 我不清楚哪个更好.
wsug
2025 年11 月 14 日 05:44
6
可能跟国内服务器宽带流量费贵有关?海外服务器似乎好多都是不限流量的,因为网站流量非常低,我把按带宽计费改成按流量计费以后,发现真的很难算账,有时候充个5块钱就能一直用很久才提示我可用额度不足,但充个10元又管不了多久就开始说可用额度不足了