AI推理芯片激勉新一轮应用翻新

发布日期：2025-02-20 16:15 点击次数：140

AI推理芯片激勉新一轮应用翻新

【科技翻新寰宇潮】（381）

◎本报记者刘霞

跟着ChatGPT横空出世，东谈主工智能（AI）范围的竞争参预尖锐化。英伟达公司的高端图形处理单位（GPU）芯片“一飞冲天”，受到各大科技公司追捧。与此同期，也有一些初创公司独辟路子，专注于研制另一种芯片——AI推理芯片，为AI家具的蕃昌发展和应用注入全新能源。

据物理学家组织网近日报谈，这些AI推理芯片旨在裁减生成式AI所需的奋斗计较本钱，更贴合AI器用的平素运行条目。此类芯片本钱的不休下探和性能的握续擢升，有望掀翻新一轮AI应用翻新海浪，让更多复杂且遒劲的AI应用走进千门万户。

推理计较需求水长船高

覆按与推理，是AI诳言语模子两大中枢智商的坚固基石。

在应用经过中，经过覆按的ChatGPT等生成式AI器用会吸纳新信息，从中进行推理并生成回复，如撰写文档、生成图像等。这类AI器用可应用于医疗会诊、自动驾驶、当然话语融会等范围。

跟着AI模子的无为应用，需要进行推理计较的硬件日益加多，对推理芯片的需求也将“水长船高”。国外数据公司（IDC）的施展泄漏，异日几年，推理端的AI做事器占比将握续攀升。瞻望到2027年，用于推理的责任负载将占据七成以上。

科技公司竞推新家具

Cerebras、Groq和d-Matrix等初创公司，以及超威半导体公司（AMD）和英特尔等传统巨头，纷纷推出了AI推理芯片。这些公司横暴捕捉到了AI推理芯片“大显神通”的机会。

据Cerebras公司官网报谈，2024年8月28日，该公司推出了同名AI推理芯片。这款芯片在Llama 3.1-8B模子上达成了1800token/秒的推理速率；在Llama 3.1 70B上达成了450token/秒的推理速率，约是英伟达GPU推理速率的20倍。Token指AI处理文本的最小单位或基本元素，如一个单词、一个字符等。

Cerebras公司讲明说，这一相当推崇成绩于其翻新的AI芯片缱绻决策。其晶圆级引擎（WSE）宛如一座遒劲的“计较工场”，最大性情是尺寸惊东谈主——单个芯片确实占据了一整块晶圆的面积。在这个超大芯片上，计较单位和内存单位高度集成，变成一个密集的网格结构。这么的缱绻，让数据能在极短距离内，于计较单位和存储单位之间传输，从根柢上裁减了数据转移本钱，处治了GPU推理无法幸免的内存带宽瓶颈。此类大芯片能更快处理信息，从而在更短时刻内给出谜底。

早在客岁2月，Groq公司就发布了我方的AI推理芯片GroqCloud。它在Llama 3.1 70B模子上达成了250token/秒的推理做事，速率比GPU确实擢升了一个量级。

客岁11月19日，硅谷初创公司d-Matrix文牍，其首款AI推理芯片Corsair已启动出货，旨在提供聊天机器东谈主和视频生成等做事。Corsair在单做事器环境下，能让Llama3 8B模子达成60000token/秒的处聪慧商，且每个token的蔓延仅为1毫秒，充分彰显了其在高速处理大限度数据方面的相当性能。更值得一提的是，与GPU过火他决策比较，Corsair能在提供同等性能的同期，大幅降呆板耗和本钱。

应用建筑走上新赛谈

亚马逊、谷歌、元天地平台、微软等科技公司纷纷斥巨资，抢购腾贵的GPU，以期在AI建筑赛谈拔得头筹。与此同期，AI推理芯片制造商则将视力对准了更无为的客户群体，但愿能在这片新蓝海中大显神通。

这些潜在客户不乏那些渴慕诈欺新兴的生成式AI工夫，却又不想大费周章自建AI基础款式的钞票500强企业。何况，购买AI推理芯片比从英伟达等公司购买GPU低廉。AI推理芯片旨在优化推理计较的速率与成果，尤其擅长智能提出、语音识别、当然话语处理等范围。

业内巨匠称，一朝推理速率擢升至每秒数千token，AI模子将能在眨眼之间完成复杂问题的念念考与回答经过。这不仅能让现存应用的交互成果达成质的飞跃，还将带来一系列令东谈主模样一新的东谈主机交互场景。举例，在语音对话范围，延时将被压缩至毫秒级，能达成近乎当然的对话体验；在诬捏试验/增强试验范围，AI将能及时生成和调遣诬捏环境、变装对话以及交互逻辑，给用户带来个性化、千里浸式体验。

上一篇：适应年青东谈主的座驾，能源强还省油，不到10万配10气囊，你心动吗？

下一篇：vivo Y200GT新品手机5G飘动6000毫安时长续航80W