栏目分类
发布日期:2025-03-30 15:29 点击次数:73
在大洋此岸的马斯克秀出最新大模子Grok 3今日,国产AI公司深度求索(DeepSeek)最新一篇论文激勉关心,创举东谈主梁文锋在签字之列,并2月16日提交到预印本平台arxiv。
这篇论文的中枢对于NSA(Natively Sparse Attention,原生稀少留意力)。据DeepSeek,凹凸文建模对于下一代说话模子至关遑急,但表率留意力机制的高缱绻资本带来了重大的缱绻挑战。NSA(稀少留意力)在进步效果同期,为进步模子武艺提供新的观念,收场将算法翻新与硬件对都的优化联贯结,进行高效的长凹凸文建模。
就在DeepSeek论文发布今日,月之暗面创举东谈主杨植麟也指示团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直译为“MoBA:面向长凹凸文大说话模子的块留意力混杂按序”)》,建议了与NSA近似的稀少留意力框架MoBA,并设想了一套不错解放切换全留意力和稀少留意力机制的形貌,为已有的全留意力模子更多的适配空间。(澎湃)