推理飙升2倍普林斯顿北大校友多头美杜莎

编辑：桃子好困大模型推理加速如何破局？普林斯顿、UIUC等机构华人团队提出一个简单框架Medusa，训练多个解码头，直接让LLM推理速度飙升2倍。

由于LLM架构固有的内存限制，使得生成又慢又贵。

对此，很多大佬都在寻找一种挽救的方法。Karpathy曾多次提出，大模型「投机采样」对于推理时间优化是一个出色的方案。

但是，尽管投机解码能够加速生成速度，但因其太过复杂，并没有被许多开发者采用。

今天，来自普林斯顿、UIUC等机构的华人团队提出了全新的简单框架：Medusa（美杜莎）。

没有额外的草稿模型，研究人员只是引入了几个额外的解码头，微调出「美杜莎头」，能够在单个A-8GGPU，一天时间内完成训练。

结果发现，Medusa直接让模型推理加速约2倍。

Vicuna-7b与Medusa

为什么LLM生成效率低？

从系统角度来看，LLM生成遵循一种「以内存为限制」的计算模式，主要的延迟瓶颈来自内存读取/写入，而非算术计算。

这一问题的根源在于，自回归解码过程中固有的顺序性。

即每次前向传递都需要将整个模型的参数，从高带宽内存（HBM）传输到加速器的计算单元。

尽管每个样本只产生一个token，但这个操作未能充分利用现代加速器的算术计算能力，由此导致模型效率低下。

在LLM崛起之前，应对这种低效率的常见方法是，简单地「增加批大小」，从而实现更多token的并行生成。

但大模型的不断涌现，让情况变得更加复杂。

在这种情况下，增加批大小不仅会带来更高的延迟，还会大大增加Transformer模型的键-值缓存的内存需求。

此外，这种低效率也体现在「成本结构」上。

截止到年9月，与仅处理提示相比，GPT-4的生成成本约高出2倍，Claude2的生成成本大约高出倍。

研究人员主要

转载请注明地址:http://www.1xbbk.net/jwbys/6554.html

最新文章