使用 claude, gemini, gpt 等 LLM 来进行 AI 补全 ( copilot, codeium的不完全替代品)

milan-glacier · 2024 年8 月 6 日 04:57

今天使用了 groq 非常惊喜，llama 3.1 70b 的模型能够达到 300+ token 每秒的输出速度比 gpt4o-mini 和 gemini-flash 还快。这样的速度已经完全可以将 request timeout 设置为 1s 来做自动补全了，而且 70b 的模型尺寸也是达到了一个中杯的量级，在理解能力，代码完成能力上要比 10b 以下的小模型强不少。最重要的是，目前还是免费免费！