AI 编程工具 Cursor 升级 Tab 模型
AI编程工具Cursor宣布对其代码自动补全系统Tab模型进行重大升级。此次升级聚焦于减少低质量建议,显著提升准确性。据Cursor称,新模型提供的建议数量比旧版减少21%,但接受率提高了28%。
为解决此前模型存在的问题,Cursor最初考虑训练单独模型预测建议接受度,参考2022年GitHub Copilot相关研究,采用逻辑回归过滤技术。但Cursor期望更通用机制,最终利用强化学习中的策略梯度方法,使模型因建议被接受获奖励,被拒则受惩罚。该方法需“在线策略”数据,Cursor通过每日多次向用户部署新检查点,并依据最新交互快速重新训练模型来实现。
Cursor希望实现不只是事后过滤失败建议,而是让主模型本身在建议生成阶段就尽量避免“坏建议”。他们用policy gradient方法来训练Tab模型,让模型在做出建议vs不建议的决策上,最大化一个定义好的reward函数。这个reward重在:
- 鼓励建议被接受(accept suggestions)
- 惩罚建议被拒绝
- 不建议(show nothing)在模型判断不确定或建议被低接收率预计的情况下也给予中性或某种 reward。
举例来说,如果模型估计建议被接受的机会至少 25%,显示建议会有正 reward;如果低于,则建议不被显示以避免 negative reward。
目前,Tab模型在平台上响应用户每一次操作,每日处理超4亿次请求。业内对此次升级反响积极,有OpenAI工程师称赞Cursor在前沿技术规模化应用方面的领先尝试。
今年6月,Cursor母公司Anysphere融资9亿美元,估值达99亿美元,并推出高端订阅计划,同时平台更新了自动代码审查等功能。
