栏目分类
发布日期:2024-12-25 07:06 点击次数:154
白小交 发自 凹非寺
量子位 | 公众号 QbitAI
什么?Scaling Law最早是百度2017年提的?!
Meta有计划员翻出经典论文:
大多半东谈主可能不知谈,Scaling law原始有计划来自2017年的百度,而非三年后(2020年)的OpenAI。
此有计划由吴恩达主握,来自百度硅谷东谈主工智能执行室 (SVAIL) 系统团队。
他们探讨了深度学习中测验集大小、野心范畴和模子精度之间的关系,而且通过大范畴实证有计划揭示了深度学习泛化谬误和模子大小的缩放章程,还在图像和音频上进行了测试。
只不外他们使用的是 LSTM,而不是Transformer;也莫得将他们的发现定名为「Law」。
再回头看,其中一位作家Gregory Diamos给我方昔日在百度的先容如故LLM Scaling Law Researcher。
又有一网友发现,OpenAI论文还援用了2019年这位作家Gregory Diamos等东谈主的拜访。但却不知谈他们2017年就有了这样一项职责。
网友们纷纷暗意这篇论文很是值得一读,而且齐备被低估。
来马上望望这篇论文。
深度学习Scaling是可揣度的在深度学习畛域,跟着模子架构的连接探索、测验数据集的连接增大以及野心武艺的连接栽植,模子的性能也在连接提高。
然则,关于测验集大小、野心范畴和模子精度之间的具体关系,一直穷乏长远的交融。
本文通过大范畴的实证有计划,对多个机器学习畛域(如机器翻译、说话建模、图像分类和语音识别)进行了测试,发现了一些章程:
泛化谬误(模子在新数据上的意见谬误)与测验集大小呈现幂律关系,即跟着测验集的增大,泛化谬误会以一定的幂次着落。
模子大小与与数据大小也存在Scaling(缩放)关系,时常模子大小的增长速率比数据大小的增长速率慢。
具体来说,勾通以往职责,团队将郑重力勾通在准确揣摸学习弧线和模子大小的缩放趋势上。
按照一般测量才能,是遴荐启程点进的SOTA模子,并在测验集的更大子集(碎屑)上测验这些模子的 “超参数缩减 ”版块,以不雅察模子的准确性奈何跟着测验集的大小而增长。
因此针对这四个畛域,机器翻译、说话建模、图像分类和语音识别,找到了他们在大型数据集上融会出 SOTA 泛化谬误的模子架构。
这里的 “大型数据集 ”是指范畴不错减轻 2-3 个数目级,但仍足以进行有价值的模子架构有计划的测验集。他们为某些 ML 畛域遴荐了一种以上的模子架构,以相比它们的扩展作为。
机器翻译
团队郑重到,跟着测验集范畴的增大,优化变得愈加贫穷,而且模子会出现容量不及的情况,因此训导谬误会偏离幂律趋势。
词说话模子
这一后果标明,最好拟合模子随测验分片大小呈次线性增长。
字符级说话模子
为了测试字符级说话建模,他们测验了深度为 10 的轮回高速公路集结(RHN),后果发现该集结在十亿单词数据集上能达到启程点进的(SOTA)准确率。
图像分类。
图像分类雷同呈现出幂律学习弧线和模子大小的缩放关系。而且还标明,在很是小的测验集上,准确率会在接近速即意象的水平上趋于自如。
语音识别。
团队测验了一系列跨度较大的模子尺寸,是以针对每个测验数据大小得出的模子尺寸缩放后果,其意旨不像在说话模子(LMs)或图像分类中那么彰着。
跟着数据量的加多,大多半模子会履历幂律泛化改革,直至数据量接近其灵验容量。在这种情况下,参数为 170 万的模子的准确率在苟简 170 小时的音频数据时初始趋于自如,而参数为 600 万的模子在苟简 860 小时的音频数据时趋于自如(也等于说,苟简是前者的 5 倍,这与模子尺寸的各异情况近似)。更大的模子(举例,参数为 8700 万的模子)在更大的数据集范畴下,其泛化谬误也更接近最好拟合趋势。
临了关于这一发现,他们暗意,这些比例关系对深度学习的有计划、延伸和系统齐有进犯影响。它们不错匡助模子调试、设定准确度主见和数据集增长决议,还不错指点野心系统瞎想,并强调握续野心扩展的进犯性。
博客致谢中还有Ilya的名字这次有计划主淌若由昔日吴恩达主握下,百度硅谷东谈主工智能执行室 (SVAIL) 系统团队。
那时的一群合著者们还是各自去到各个机构执行室、大厂连续从事大模子关联的有计划。
在昔日博客致谢中,还出现了Ilya的名字,感谢他们参与了这一琢磨。
两年后,也等于2019年,其中一位作家Gregory Diamos又率领团队探讨了深度学习的野心挑战。
背面的OpenAI论文恰是援用了这篇论文的拜访琢磨了Scaling Law。
值得一提的是,Anthropic CEODario Amodei在百度有计划院吴恩达团队职责过,他对Scaling Law的第一印象亦然那时有计划语音模子产生的。
Amodei刚初始有计划语音神经集结时有一种“生手撞大运”的嗅觉,尝试把模子和数据范畴同期扩大,发现模子性能跟着范畴的加多而连接栽植。
领先,他合计这仅仅语音识别系统的特例。但到了2017年,看到GPT-1的后果后意志到这种景况在说话模子上雷同适用。
昔日(2015年)他一作发表的论文Deep Speech,合著者中这位Sharan Narang恰是两年后这篇论文的主要作家之一。如今后者先后去到了谷歌担任PaLM名目TL大模子认真东谈主,然后咫尺是Meta当有计划员。
如今这一“冷学问”再次出咫尺公共的视线,让不少东谈主回溯并重温。
这当中还有东谈主进一步暗意:的确的OG论文使用了seq2seq LSTM,而且详情了参数野心弧线。
昔日的一作恰是Ilya Sutskever。
参考流畅:[1]https://arxiv.org/abs/1512.02595 [2]https://arxiv.org/abs/1909.01736[3]https://research.baidu.com/Blog/index-view?id=89[4]https://www.linkedin.com/in/gregory-diamos-1a8b9083/ [5]https://www.linkedin.com/in/dario-amodei-3934934/[6]https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw
— 完 —
量子位 QbitAI · 头条号签
神气咱们,第一时分获知前沿科技动态约