Overview of Composer series

Author

Updated

May, 19, 2026

PDF

Introduction

Composer series 是 cursor 推出的一个针对 agentic software engineering 的代码大模型系列,包括Composer (Cursor Research, 2025), Composer 1.5 (Cursor Research, 2026), Composer 2(Research et al., 2026) Composer 2.5(Cursor Research, 2026b) 四个版本。

下面是不同版本模型在 Cursor 推出的私有 benchmark CursorBench 上的表现。

Composer Series — CursorBench Performance

可以看到,Compoer 2.5 已经接近于 Claude Opus 4.7 (Claude, 2026) 的表现。

  1. Claude. (2026). Opus 4.7. https://www.anthropic.com/claude/opus
  2. Cursor Research. (2025). Composer: Building a fast frontier model with RL. https://cursor.com/blog/composer
  3. Cursor Research. (2026a). Introducing Composer 1.5. https://cursor.com/blog/composer-1-5
  4. Cursor Research. (2026b). Introducing Composer 2.5. https://cursor.com/en-US/blog/composer-2-5
  5. Research, C., :, Chan, A., Shalaby, A., Wettig, A., Sanger, A., Zhai, A., Ajay, A., Nair, A., Snell, C., Lu, C., Shen, C., Jia, E., Cassano, F., Liu, H., Chen, H., Wildermuth, H., Jackson, J., Li, J., … Zhang, Z. (2026). Composer 2 Technical Report. https://arxiv.org/abs/2603.24477

Composer

Composer (Cursor Research, 2025) 是一个针对 software engineering 的 agent model.

在架构上,Composer 是一个基于 MoE 架构的大语言模型。

在 RL 训练时,作者通过奖励设立来提高模型选择工具的效率以及并行调用工具的能力。

在 Infra 上,作者构建了基于 Pytorch 和 Ray 的 training framework, 来支持 asynchronous RL 训练。 作者还是用了 MXFP8 MoE kernel, EP, Hybrid Sharded Data Parallelism (HSDP) 来提高训练效率。

  1. Cursor Research. (2025). Composer: Building a fast frontier model with RL. https://cursor.com/blog/composer

Composer 1.5

Composer 1.5 (Cursor Research, 2026) 相比与 Composer 在 RL 训练阶段使用了 20×20\times 的算力,这个算力超过了 pre-trained model所使用的计算量。

作者还使用了 self-summarization 来让模型在到达context limit时,自主产生一份当前状态与进度的总结。

  1. Cursor Research. (2026). Introducing Composer 1.5. https://cursor.com/blog/composer-1-5

Composer2

Composer2 (Research et al., 2026) 是 Cursor 发布的第一个带有技术报告的模型。 作者详细介绍了训练策略与 infra 的优化。

  1. Research, C., :, Chan, A., Shalaby, A., Wettig, A., Sanger, A., Zhai, A., Ajay, A., Nair, A., Snell, C., Lu, C., Shen, C., Jia, E., Cassano, F., Liu, H., Chen, H., Wildermuth, H., Jackson, J., Li, J., … Zhang, Z. (2026). Composer 2 Technical Report. https://arxiv.org/abs/2603.24477

Composer2.5

Composer 2.5 (Cursor Research, 2026)Composer2 的基础上做了如下改进:

作者还改进了模型在 communication style 以及 effort calibration 等方面的行为

Credit Assignment

算法上,作者提到了 credit assignment 问题,为了解决这个这个问题,作者采用了 targeted textual feedback 策略,一个 on policy distillation方法 (Shenfeld et al., 2026; Zhao et al., 2026). 其具体做法就是,在上下文中加入一些提示,然后将使用带有提示的prompt作为输入的model作为teacher model, 使用原始prompt作为输入的model作为student model进行 on policy distillation, 通过这个方法我们可以提供更加dense的training signal.

数据上,Composer 2.5还是用了比 Composer 2 多25倍的合成任务数据。

训练上,作者使用了 Muon (Jordan et al., 2024) 优化器,但是对于较大的矩阵,直接进行正交花是非常慢的,因此,作者进行了针对性优化:

由于parallelism, 不同模块权重可能分布在不同GPU上,Newton-Schulz算法必须使用完整矩阵,因此作者设计了一套pipeline来进行计算:

  1. batch: 把形状一样的small tensots集中起来
  2. all-to-all: 把不同GPU上的专家权重汇总得到一个完整的矩阵
  3. compute: 执行Newton-Schulz算法
  4. all-to-all dispatch: 分发专家权重

在infra上,作者使用了HSDP, HSDP 针对 FSDP (Y. Zhao et al., 2023) 进行了优化,针对不同的模块使用了不同的策略:

最终,作者使用了 CP=2, EP=8 的训练配置。现在专家和非专家是解耦的,我们可以复用统一批GPU (8 GPUs):

price (per 1M tokens)

Model VariantInputOutputCache WriteCache ReadNotes
Composer 2.5$0.50$2.50-$0.2Standard pricing
Composer 2.5 (Fast, default)$3.00$15.00-$0.5Same intelligence, faster speed, lower cost
  1. Cursor Research. (2026). Introducing Composer 2.5. https://cursor.com/en-US/blog/composer-2-5
  2. Jordan, K., Jin, Y., Boza, V., You, J., Cesista, F., Newhouse, L., & Bernstein, J. (2024). Muon: An optimizer for hidden layers in neural networks. https://kellerjordan.github.io/posts/muon/
  3. Shenfeld, I., Damani, M., Hübotter, J., & Agrawal, P. (2026). Self-Distillation Enables Continual Learning. https://arxiv.org/abs/2601.19897
  4. Zhao, S., Xie, Z., Liu, M., Huang, J., Pang, G., Chen, F., & Grover, A. (2026). Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models. https://arxiv.org/abs/2601.18734
  5. Zhao, Y., Gu, A., Varma, R., Luo, L., Huang, C.-C., Xu, M., Wright, L., Shojanazeri, H., Ott, M., Shleifer, S., Desmaison, A., Balioglu, C., Damania, P., Nguyen, B., Chauhan, G., Hao, Y., Mathews, A., & Li, S. (2023). PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel. https://arxiv.org/abs/2304.11277