Deepseek 的问题就是推理有点太慢了,可能和国内公司被卡脖子用不了很好的 GPU 有关系。有条件注册外网账号的话、可以试一下用 groq 的 llama 3.1,完全免费,而且速度极快,每秒 300+ tokens,但是高峰期限流。国内和美国有12小时时差,因此可以错峰出行。此外也可以考虑 fireworks 的 llama 模型,速度很快;每秒 100+ tokens,而且价格也非常便宜(72b 模型每百万 token 0.9刀,405b 模型每百万token 3刀)
还有一个选项就是 deepinfra 的 Qwen2.5,deepinfra 的推理速度要明显比 fireworks 和 groq 慢一些,所以不建议在 deepinfra 上用 llama。但是可以用国产的 qwen 模型如果有兴趣的话。也很便宜,每百万 token 0.35 刀。