栏目分类
发布日期:2025-02-20 16:15 点击次数:139
【科技翻新寰宇潮】(381)
◎本报记者 刘 霞
跟着ChatGPT横空出世,东谈主工智能(AI)范围的竞争参预尖锐化。英伟达公司的高端图形处理单位(GPU)芯片“一飞冲天”,受到各大科技公司追捧。与此同期,也有一些初创公司独辟路子,专注于研制另一种芯片——AI推理芯片,为AI家具的蕃昌发展和应用注入全新能源。
据物理学家组织网近日报谈,这些AI推理芯片旨在裁减生成式AI所需的奋斗计较本钱,更贴合AI器用的平素运行条目。此类芯片本钱的不休下探和性能的握续擢升,有望掀翻新一轮AI应用翻新海浪,让更多复杂且遒劲的AI应用走进千门万户。
推理计较需求水长船高
覆按与推理,是AI诳言语模子两大中枢智商的坚固基石。
在应用经过中,经过覆按的ChatGPT等生成式AI器用会吸纳新信息,从中进行推理并生成回复,如撰写文档、生成图像等。这类AI器用可应用于医疗会诊、自动驾驶、当然话语融会等范围。
跟着AI模子的无为应用,需要进行推理计较的硬件日益加多,对推理芯片的需求也将“水长船高”。国外数据公司(IDC)的施展泄漏,异日几年,推理端的AI做事器占比将握续攀升。瞻望到2027年,用于推理的责任负载将占据七成以上。
科技公司竞推新家具
Cerebras、Groq和d-Matrix等初创公司,以及超威半导体公司(AMD)和英特尔等传统巨头,纷纷推出了AI推理芯片。这些公司横暴捕捉到了AI推理芯片“大显神通”的机会。
据Cerebras公司官网报谈,2024年8月28日,该公司推出了同名AI推理芯片。这款芯片在Llama 3.1-8B模子上达成了1800token/秒的推理速率;在Llama 3.1 70B上达成了450token/秒的推理速率,约是英伟达GPU推理速率的20倍。Token指AI处理文本的最小单位或基本元素,如一个单词、一个字符等。
Cerebras公司讲明说,这一相当推崇成绩于其翻新的AI芯片缱绻决策。其晶圆级引擎(WSE)宛如一座遒劲的“计较工场”,最大性情是尺寸惊东谈主——单个芯片确实占据了一整块晶圆的面积。在这个超大芯片上,计较单位和内存单位高度集成,变成一个密集的网格结构。这么的缱绻,让数据能在极短距离内,于计较单位和存储单位之间传输,从根柢上裁减了数据转移本钱,处治了GPU推理无法幸免的内存带宽瓶颈。此类大芯片能更快处理信息,从而在更短时刻内给出谜底。
早在客岁2月,Groq公司就发布了我方的AI推理芯片GroqCloud。它在Llama 3.1 70B模子上达成了250token/秒的推理做事,速率比GPU确实擢升了一个量级。
客岁11月19日,硅谷初创公司d-Matrix文牍,其首款AI推理芯片Corsair已启动出货,旨在提供聊天机器东谈主和视频生成等做事。Corsair在单做事器环境下,能让Llama3 8B模子达成60000token/秒的处聪慧商,且每个token的蔓延仅为1毫秒,充分彰显了其在高速处理大限度数据方面的相当性能。更值得一提的是,与GPU过火他决策比较,Corsair能在提供同等性能的同期,大幅降呆板耗和本钱。
应用建筑走上新赛谈
亚马逊、谷歌、元天地平台、微软等科技公司纷纷斥巨资,抢购腾贵的GPU,以期在AI建筑赛谈拔得头筹。与此同期,AI推理芯片制造商则将视力对准了更无为的客户群体,但愿能在这片新蓝海中大显神通。
这些潜在客户不乏那些渴慕诈欺新兴的生成式AI工夫,却又不想大费周章自建AI基础款式的钞票500强企业。何况,购买AI推理芯片比从英伟达等公司购买GPU低廉。AI推理芯片旨在优化推理计较的速率与成果,尤其擅长智能提出、语音识别、当然话语处理等范围。
业内巨匠称,一朝推理速率擢升至每秒数千token,AI模子将能在眨眼之间完成复杂问题的念念考与回答经过。这不仅能让现存应用的交互成果达成质的飞跃,还将带来一系列令东谈主模样一新的东谈主机交互场景。举例,在语音对话范围,延时将被压缩至毫秒级,能达成近乎当然的对话体验;在诬捏试验/增强试验范围,AI将能及时生成和调遣诬捏环境、变装对话以及交互逻辑,给用户带来个性化、千里浸式体验。