Introduction
Composer series 是 cursor 推出的一个针对 agentic software engineering 的代码大模型系列,包括Composer (Cursor Research, 2025), Composer 1.5 (Cursor Research, 2026), Composer 2(Research et al., 2026) Composer 2.5(Cursor Research, 2026b) 四个版本。
下面是不同版本模型在 Cursor 推出的私有 benchmark CursorBench 上的表现。
可以看到,Compoer 2.5 已经接近于 Claude Opus 4.7 (Claude, 2026) 的表现。
- Claude. (2026). Opus 4.7. https://www.anthropic.com/claude/opus
- Cursor Research. (2025). Composer: Building a fast frontier model with RL. https://cursor.com/blog/composer
- Cursor Research. (2026a). Introducing Composer 1.5. https://cursor.com/blog/composer-1-5
- Cursor Research. (2026b). Introducing Composer 2.5. https://cursor.com/en-US/blog/composer-2-5
- Research, C., :, Chan, A., Shalaby, A., Wettig, A., Sanger, A., Zhai, A., Ajay, A., Nair, A., Snell, C., Lu, C., Shen, C., Jia, E., Cassano, F., Liu, H., Chen, H., Wildermuth, H., Jackson, J., Li, J., … Zhang, Z. (2026). Composer 2 Technical Report. https://arxiv.org/abs/2603.24477
Composer
Composer (Cursor Research, 2025) 是一个针对 software engineering 的 agent model.
在架构上,Composer 是一个基于 MoE 架构的大语言模型。
在 RL 训练时,作者通过奖励设立来提高模型选择工具的效率以及并行调用工具的能力。
在 Infra 上,作者构建了基于 Pytorch 和 Ray 的 training framework, 来支持 asynchronous RL 训练。 作者还是用了 MXFP8 MoE kernel, EP, Hybrid Sharded Data Parallelism (HSDP) 来提高训练效率。
- Cursor Research. (2025). Composer: Building a fast frontier model with RL. https://cursor.com/blog/composer
Composer 1.5
Composer 1.5 (Cursor Research, 2026) 相比与 Composer 在 RL 训练阶段使用了 的算力,这个算力超过了 pre-trained model所使用的计算量。
作者还使用了 self-summarization 来让模型在到达context limit时,自主产生一份当前状态与进度的总结。
- Cursor Research. (2026). Introducing Composer 1.5. https://cursor.com/blog/composer-1-5
Composer2
Composer2 (Research et al., 2026) 是 Cursor 发布的第一个带有技术报告的模型。 作者详细介绍了训练策略与 infra 的优化。
- Research, C., :, Chan, A., Shalaby, A., Wettig, A., Sanger, A., Zhai, A., Ajay, A., Nair, A., Snell, C., Lu, C., Shen, C., Jia, E., Cassano, F., Liu, H., Chen, H., Wildermuth, H., Jackson, J., Li, J., … Zhang, Z. (2026). Composer 2 Technical Report. https://arxiv.org/abs/2603.24477
Composer2.5
Composer 2.5 (Cursor Research, 2026) 在 Composer2 的基础上做了如下改进:
- 扩大训练规模
- 构建更复杂的 RL 环境
- 引入新的学习方法
- 改进 Composer
作者还改进了模型在 communication style 以及 effort calibration 等方面的行为
算法上,作者提到了 credit assignment 问题,为了解决这个这个问题,作者采用了 targeted textual feedback 策略,一个 on policy distillation方法 (Shenfeld et al., 2026; Zhao et al., 2026).
其具体做法就是,在上下文中加入一些提示,然后将使用带有提示的prompt作为输入的model作为teacher model, 使用原始prompt作为输入的model作为student model进行 on policy distillation,
通过这个方法我们可以提供更加dense的training signal.
数据上,Composer 2.5还是用了比 Composer 2 多25倍的合成任务数据。
训练上,作者使用了 Muon (Jordan et al., 2024) 优化器,但是对于较大的矩阵,直接进行正交花是非常慢的,因此,作者进行了针对性优化:
- 针对 attention, 作者在每个 attention head 上分别进行正交化
- 针对 MoE, 作者对每个 expert 分别进行正交化
由于parallelism, 不同模块权重可能分布在不同GPU上,Newton-Schulz算法必须使用完整矩阵,因此作者设计了一套pipeline来进行计算:
- batch: 把形状一样的small tensots集中起来
- all-to-all: 把不同GPU上的专家权重汇总得到一个完整的矩阵
- compute: 执行Newton-Schulz算法
- all-to-all dispatch: 分发专家权重
在infra上,作者使用了HSDP, HSDP 针对 FSDP (Y. Zhao et al., 2023) 进行了优化,针对不同的模块使用了不同的策略:
- 对于non-expert weights, 由于每个token计算都需要加载,因此作者将其限制在一个node或者一个rack上,来减少通信开销
- 对于expert weights, 由于 MoE 稀疏激活的性质,作者使用了更大的expert sharding mesh 来提高计算效率
最终,作者使用了 CP=2, EP=8 的训练配置。现在专家和非专家是解耦的,我们可以复用统一批GPU (8 GPUs):
- 对于非专家权重,这 8 GPUs 可以分解为 DP4 CP2, 通信只在2 GPU上进行
- 对于专家权重,这 8GPUs 可以分解为 DP1 EP8, 来减少优化器的计算和显存压力。
price (per 1M tokens)
| Model Variant | Input | Output | Cache Write | Cache Read | Notes |
|---|---|---|---|---|---|
| Composer 2.5 | $0.50 | $2.50 | - | $0.2 | Standard pricing |
| Composer 2.5 (Fast, default) | $3.00 | $15.00 | - | $0.5 | Same intelligence, faster speed, lower cost |
- Cursor Research. (2026). Introducing Composer 2.5. https://cursor.com/en-US/blog/composer-2-5
- Jordan, K., Jin, Y., Boza, V., You, J., Cesista, F., Newhouse, L., & Bernstein, J. (2024). Muon: An optimizer for hidden layers in neural networks. https://kellerjordan.github.io/posts/muon/
- Shenfeld, I., Damani, M., Hübotter, J., & Agrawal, P. (2026). Self-Distillation Enables Continual Learning. https://arxiv.org/abs/2601.19897
- Zhao, S., Xie, Z., Liu, M., Huang, J., Pang, G., Chen, F., & Grover, A. (2026). Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models. https://arxiv.org/abs/2601.18734
- Zhao, Y., Gu, A., Varma, R., Luo, L., Huang, C.-C., Xu, M., Wright, L., Shojanazeri, H., Ott, M., Shleifer, S., Desmaison, A., Balioglu, C., Damania, P., Nguyen, B., Chauhan, G., Hao, Y., Mathews, A., & Li, S. (2023). PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel. https://arxiv.org/abs/2304.11277