前言

大模型推理过程中使用合适的调度的策略能够显著的提升推理的吞吐。但是因为大模型推理的输出长度是不确定的，导致很难进行合理的调度，所以预测QUERY的输出长度就是一项非常重要的工作。

近期论文

https://arxiv.org/pdf/2305.13144
论文时间 [2023.05]
核心思想是直接用大模型本身来预测长度，其中有2种方法
- Perception in Advance(PiA): 通过调整prompt，output过程中先输出长度，再输出response；缺点：会影响模型本身的输出内容（大模型能够比较正确对应预测长度和输出内容实际长度，小模型误差比较大；因为要输出预测长度，也会影响模型本身的response内容，特别是小模型输出质量堪忧）
- Perception Only(PO): 分开预测输出和长度预测；但是结果比较差。所有需要先训练一个专门输出长度的模型
  - LoRA训练
关于调度：通过让预测出来长度比较接近的query一块调度；同时也处理一些误差的情况（比如预测的比较短，实际比较长）。在当前vLLM中，这些已经不再是问题了
实验结果

Perfomance

https://proceedings.neurips.cc/paper_files/paper/2023/file/3a13be0c5dae69e0f08065f113fb10b8-Paper-Conference.pdf
论文时间 [2023.09]
核心思想(S3)
- 预测长度classification (基于Distilbert模型训练 66M）
  - 预测长度分桶
- 结合预测长度组Batch调度（已经无用）
实验结果
- 耗时： 2.3~14.5ms (A100)

Perfomance

Perfomance

Perfomance

https://proceedings.iclr.cc/paper_files/paper/2025/file/9eb8b5ccb0de594a16548f7c058fdadf-Paper-Conference.pdf
论文时间 [2024.10], ICLR2025
核心思想(TRAIL)：
- 模型训练
  - 所有token的某一层（or每一层）layer hidden作为输入，经过2层MLP层（第一层输出512,第二层分 buckt~10）
  - 每次迭代都可以计算输出长度，但是因为变化大，需要SMOOTH
- 调度：
  - 使用SPRPT(shortest predicted remaining processing time) 方案
  - 考虑到比较长(input+output)的query的cache重新计算或者offload成本比较高，所以优先preempt短的query
其他资料：
- https://minlanyu.seas.harvard.edu/talk/iclr25.pdf
实验结论：
- 耗时： 0.03%占比

Perfomance

Perfomance

liangyuwang/LLM-Length-Estimation
Overclocking llm reasoning: Monitoring and controlling thinking path lengths in llm
- https://arxiv.org/pdf/2506.07240
- 论文时间： [2025.06]
- github代码： royeisen/reasoning_loading_bar
- 这篇论文主要是控制和预测部分的长度
Precise Length Control in Large Language Models
- https://arxiv.org/pdf/2412.11937
- 论文时间 [2024.07]
- 这篇论文是用来控制输出长度的，虽然也涉及到预测输出长度，但是目标是完全不一样的。是期望能够软性的控制输出长度。