万博manbetx登录入口UltraMem 在模子后果上卓绝了 MoE-万博官网网页版·官方网站 - 登录入口

IT之家 2 月 12 日音问,豆包大模子团队当天文告,字节跨越豆包大模子团队建议了全新的稀少模子架构 UltraMem,该架构有用管束了 MoE 推理时高额的访存问题万博manbetx登录入口,推理速率较 MoE 架构耕种 2-6 倍,推理资本最高可裁汰 83%。该商讨还揭示了新架构的 Scaling Law,证据其不仅具备优异的 Scaling 特质,更在性能上卓绝了 MoE。
实际罢休标明,考验规模达 2000 万 value 的 UltraMem 模子,在同等盘算资源下可同期已毕业界开端的推理速率和模子性能,为构建数十亿规模 value 或 expert 设备了新旅途。
据先容,UltraMem 是一种一样将盘算和参数解耦的稀少模子架构,在保证模子后果的前提下管束了推理的访存问题。实际罢休标明,在参数和激活条目相易的情况下,UltraMem 在模子后果上卓绝了 MoE,并将推理速率耕种了 2-6 倍。此外,在常见 batch size 规模下,UltraMem 的访存资本的确与同盘算量的 Dense 模子颠倒。

在 Transformer 架构下,模子的性能与其参数数目和盘算复杂度呈对数联系。跟着 LLM 规模束缚增大,推理资本会急剧增多,速率变慢。
尽管 MoE 架构照旧胜利将盘算和参数解耦,但在推理时,较小的 batch size 就会激活一谈大家,导致访存急剧上涨,进而使推理延长大幅增多。
IT之家注:“MoE”指 Mixture of Experts(大家搀和)架构,是一种用于耕种模子性能和遵守的架构遐想。在 MoE 架构中,模子由多个子模子(大家)构成,每个大家追究处理输入数据的一部分。在考验和推理经过中,左证输入数据的特征,会选拔性地激活部分大家来进行盘算万博manbetx登录入口,从良友毕盘算和参数的解耦,提高模子的无邪性和遵守。
告白声明:文内含有的对外跳转相连(包括不限于超相连、二维码、口令等相貌),用于传递更多信息,省俭甄选技术,罢休仅供参考,IT之家整个著述均包含本声明。 ]article_adlist--> 声明:新浪网独家稿件,未经授权拒接转载。 -->
