编辑:桃子好困大模型推理加速如何破局?普林斯顿、UIUC等机构华人团队提出一个简单框架Medusa,训练多个解码头,直接让LLM推理速度飙升2倍。
由于LLM架构固有的内存限制,使得生成又慢又贵。
对此,很多大佬都在寻找一种挽救的方法。Karpathy曾多次提出,大模型「投机采样」对于推理时间优化是一个出色的方案。
但是,尽管投机解码能够加速生成速度,但因其太过复杂,并没有被许多开发者采用。
今天,来自普林斯顿、UIUC等机构的华人团队提出了全新的简单框架:Medusa(美杜莎)。
没有额外的草稿模型,研究人员只是引入了几个额外的解码头,微调出「美杜莎头」,能够在单个A-8GGPU,一天时间内完成训练。
结果发现,Medusa直接让模型推理加速约2倍。
Vicuna-7b与Medusa
为什么LLM生成效率低?
从系统角度来看,LLM生成遵循一种「以内存为限制」的计算模式,主要的延迟瓶颈来自内存读取/写入,而非算术计算。
这一问题的根源在于,自回归解码过程中固有的顺序性。
即每次前向传递都需要将整个模型的参数,从高带宽内存(HBM)传输到加速器的计算单元。
尽管每个样本只产生一个token,但这个操作未能充分利用现代加速器的算术计算能力,由此导致模型效率低下。
在LLM崛起之前,应对这种低效率的常见方法是,简单地「增加批大小」,从而实现更多token的并行生成。
但大模型的不断涌现,让情况变得更加复杂。
在这种情况下,增加批大小不仅会带来更高的延迟,还会大大增加Transformer模型的键-值缓存的内存需求。
此外,这种低效率也体现在「成本结构」上。
截止到年9月,与仅处理提示相比,GPT-4的生成成本约高出2倍,Claude2的生成成本大约高出倍。
研究人员主要
转载请注明地址:http://www.1xbbk.net/jwbys/6554.html