Emigo: 复刻 Cursor - Aidermacs精神续作

diff 也搞定了

用 udiff 格式优化了应该也没有问题。毕竟cursor 用的也是类似 udiff 的。

这是我以前保存的 cursor 介绍他们的 diff 格式的文章。现在这个文章被删掉找不到了。希望这个对设计 prompt 有帮助!

emigo 相对于 aider 先进的地方在于当AI发现需要啥文件的时候, 会自动发文件源码给AI, 不会像 aider 那样烦人的问用户发送源码。

emigo 得益于 python-bridge 的架构设计, 没有终端输出这一层, 开发速度非常快。

@MatthewZMD 把 diff review 开发完成以后, 就可以直接玩了。

我去看了下cline的代码,他们也用sesrch replace,不知道是不是因为search replace对幻觉的抗性更高呢

neovim avante 的思路应该是相似的

个人认为能自动发文件给AI是好用的关键,不过目前是怎么实现的呢?
github copilot的话是先对代码库建立索引。然后实现了基于自然语言进行语义化搜索的功能。他拿到用户输入后会分析要搜索哪些代码,然后借助前面的功能进行搜索。

对,就是这样

1 个赞

目前主要是实现了agent功能。会考虑实现cursor的tab不

tab这种交给补全插件吧,emigo主要还是实现agent mode

cursor补全比较好的地方,其他补全插件都做不到,而且也不是一个思路
1 能预测下一个位置,自动跳转
2 能批量补全或者修改(修改这个对效率提升太明显了)

也可以主动发文件么? 比如发代码之外的文档。这个文档可能并不在代码目录中。自动的话,可能找不到。

大规模重写了prompt和agent逻辑,以cline为基础实现了tooluse了,目前有9个tool。

image

示例:

User:
Rewrite warning for README

Assistant:
I help rewrite the warning in the README.md file. First, I examine the current README contents to understand what warning needs to be rewritten.

<read_file>
<path>README.md</path>
</read_file>
Assistant:
I rewrite the warning section under "Development Status" to be more clear and professional. Here my proposed change:

<replace_in_file>
<path>README.md</path>
<diff>
<<<<<<< SEARCH
## Development Status
This project is under active daily development. Please note:
- APIs and configurations may change without notice
- New features may introduce temporary instability
- Documentation may lag behind implementation

Your feedback and contributions are highly valued to help improve Emigo!
=======
## Development Status
Emigo is currently in beta development. Please be aware of these important considerations:
- Breaking changes may occur in API interfaces and configuration options
- Some features may be experimental and could exhibit instability
- Documentation updates may temporarily lag behind new functionality

We welcome bug reports, feature requests, and contributions to help shape Emigo future!
>>>>>>> REPLACE
</diff>
</replace_in_file>
Assistant:
<attempt_completion>
<result>
The warning in README.md has been updated with a more professional and clear development status message. The new version:
- Explicitly states the beta status
- Uses more precise technical language
- Maintains a positive tone while setting appropriate expectations
- Encourages community participation
</result>
</attempt_completion>


--- Completion Attempt ---
The warning in README.md has been updated with a more professional and clear development status message. The new version:
- Explicitly states the beta status
- Uses more precise technical language
- Maintains a positive tone while setting appropriate expectations
- Encourages community participation
--- End Completion ---

Emigo> 

还有一些bug,持续迭代中。

会有的,现在项目还在高强度迭代。

7 个赞

你说的 next edit prediction 模式的补全,可以尝试一下使用 gtpel-aibo 的 gptel-aibo-summon 功能。gptel-aibo-summon 实际上是使用类似 agent 模式让 AI 改代码的 prompt 也就是 search-replace 格式与 AI 交互。

需要注意,根据作者本人的使用体验,目前该命令需要配合 3.7-sonnet 来使用才能有较好的生成质量。3.7-sonnet 的生成速度较慢,价格也较贵。gemini-2.0-flash (非 lite 版本),生成质量不佳。

我在以前的一个帖子中提到过 cursor tab 的核心竞争力在于私有模型+专门的 inference stack。这点开源软件调公开的 API 很难竞争。开源软件 zed 发布了他们自己专门训练的一个模型,但是他们作为商业公司,也部署了封闭的 inference stack。

具体的可以参考 cursor 的服务商 fireworks 发布的这篇文章:How Cursor built Fast Apply using the Speculative Decoding API

简单来说,类似 cursor tab 的功能之所以能够做到补全多处位置+预测下一个光标位置,其实就是因为模型生成出了你的光标附近的一整个临域的完整的代码,包括原封不变一点都不需要改的代码,以及需要修改的代码。模型将一直输出,直到给出一个 token <cursor_position> 为止。当模型输出了这个 token 以后,编辑器将 AI 生成的大块代码和当前的代码文件进行对比生成 ghost text 或者 diff,并找到光标的位置。

根据这个任务的模式,你也可以想象得到,这个对模型的生成速度要求极高。cursor 的私有模型达到了 1000+ token/s 的速度。目前开放可供调用的最快的不算笨的模型 gemini-2.0-flash (非 lite)仅有 170-180 token/s。

170-180 token/s 如果仅用来补全当前光标处的代码,那么 AI 仅需要生成新的代码,那么速度是够的。但是如果需要 AI 生成完整的代码,就不够了。此外,gemini-flash 未经过微调数据集训练的话,生成的质量效果也未知。

2 个赞

用gpt-4o-mini之类的模型呢,生成速度非常快了,也便宜,我平时都是挂沉浸式翻译 (github copilot最新发布的补全模型就是基于gpt-4o-mini做的)

4o-mini 一方面是不够聪明 (8b 模型),另一方面是其实不够快。openrouter 上可以看到所有的模型的速度。4o-mini 没有 2.0-flash 快。这种复杂指令如果不是聪明的模型,就得用数据集微调。

github copilot最新发布的补全模型就是基于gpt-4o-mini做的

他们用了微调数据集再加上 inference stack 是自己的。

1 个赞

补充下Speculative Decoding相关信息

Cline的agentic flow真的很不错,但是太费tokens了哎

对SEARCH/REPLACE做了个fuzzy match的功能,这样如果LLM少输出一两个字就不会陷入循环了,大家可以测试反馈一下,这是Aider Cline都没有的功能。

4 个赞