四克财经网

黄仁勋为何开始推FPGA

来源:与非网 时间:2026-05-23 00:41 阅读

FPGA为何被黄仁勋推上前台?

2026年3月16日,GTC大会上,英伟达创始人兼CEO黄仁勋把一个新的平台推到台前:Vera Rubin。

按照英伟达发布的信息,Vera Rubin不是一颗单独的GPU,也不是一台普通服务器,而是一套面向下一代AI工厂的系统级平台。它包括Vera Rubin NVL72 GPU机架、Vera CPU机架、Groq 3 LPX推理加速机架、BlueField-4 STX存储机架和Spectrum-6 SPX以太网机架。黄仁勋在发布中称,Vera Rubin由七颗突破性芯片、五类机架和一台巨型超级计算机组成,目标是支撑AI从训练、后训练到实时智能体推理的全流程。

英伟达技术博客在同一天发布了由Kyle Aubrey和Farshad Ghodsian撰写的文章。前者是英伟达技术营销总监,负责AI推理和训练相关平台传播;后者是英伟达高级技术营销工程师,关注大规模AI训练与推理、性能优化和AI工程落地。两人在文章中介绍,Groq 3 LPX是一种面向低延迟、大上下文智能体系统的机架级推理加速器,它与Vera Rubin NVL72共同工作:Rubin GPU继续承担高吞吐的通用训练和推理任务,LPX则专门负责更敏感的低延迟推理环节。

在英伟达公开表述中,LPX每个液冷1U托盘集成8颗LPU加速器、主处理器以及“Fabric Expansion Logic”。

真正让硬件行业敏感的,是在Groq 3 LPX推理机架中,FPGA不再只是可选配件,而是进入标准配套协处理芯片的位置。英伟达官方说得很清楚,LPX不是取代Rubin GPU,而是和Rubin GPU共同构成异构推理路径:GPU继续处理高吞吐任务,LPX负责更低延迟、更稳定响应的部分。英伟达技术博客中还写到,未来AI应用同时需要三件事:响应速度、模型能力和规模化服务能力。不同任务不应该只用一个指标衡量,而要针对真实应用状态去优化。

虽然GPU仍然是AI训练和大规模云端推理的核心。但当英伟达也开始在推理架构中引入FPGA或FPGA类可编程逻辑时,它实际上承认了一个现实:AI推理已经不是单纯“堆算力”的问题。到了推理阶段,系统不仅要算得快,还要反应快、功耗低、延迟稳定、数据流动顺畅,并且能够适应不同应用场景。英伟达认为,AI推理的未来不是一种芯片赢下全部,而是不同芯片各司其职。GPU仍然是舞台中央的强计算核心;LPU、NPU、ASIC等专用芯片会在某些任务里追求更高效率;FPGA则可能成为连接、调度、实时处理和场景适配的关键角色。它未必最耀眼,但它可以补上GPU不够经济、ASIC又太早固化、CPU反应不够确定的位置。

争议:GPU根本就不适合做推理?

硅谷投资人Chamath Palihapitiya很早就提出过一个有争议的判断。他是Social Capital创始人,早年曾是Facebook高级管理团队成员,并参与Facebook平台业务发展。Chamath曾在公开讨论中把AI拆成两个市场:训练和推理。他认为,推理会比训练大得多,而英伟达非常擅长训练,但在推理市场上可能存在“错配”。

这句话后来被很多人引用,也引发了大量争论。

它当然不能简单理解为“GPU不能做推理”。云端大模型推理、大规模并发服务、批量处理任务,GPU仍然非常重要。英伟达自身也在不断优化GPU推理能力,Vera Rubin平台本身就是对AI推理市场的正面进攻。真正的问题在于,不是所有推理都需要GPU这么高的算力。

事实上,推理越靠近现场,场景就越复杂。

工厂里的设备可能要接工业相机,汽车里可能要接多路传感器,机器人要处理运动控制,智能摄像头要在低功耗下长期工作。这些任务不只是“算一道题”,还要把不同信号接进来、处理掉、再把结果快速送出去。

并不是只有大模型的推理才算推理,比如工业流水线缺陷检测也是推理。这类任务对算力要求未必很高,真正困难的是是否有合适的算法、系统方案,以及能否在具体工位上稳定运行。也正是在这些碎片化、低延迟、强现场适配的场景中,FPGA的灵活可编程和高实时特性才更容易体现出来。每一种推理对硬件的要求都不一样。有的需要大吞吐,有的需要低功耗;有的需要大模型,有的只需要小模型;有的可以慢几百毫秒,有的必须马上响应。

普通芯片出厂后,功能基本固定;GPU虽然可以运行不同软件,但硬件结构本身已经定型;ASIC效率很高,但一旦做成专用芯片,后续算法变化就很难跟上。FPGA则不同,它可以根据客户需求重新配置内部逻辑。今天用于视频接口转换,明天可以加入某种预处理逻辑,后天还可以随着算法变化做调整。

这也是AI时代让FPGA重新被看见的原因。AI算法变化太快,很多应用还在探索。一个工厂今天只是要识别表面划痕,半年后可能要识别更多缺陷类型;一台机器人今天只是做简单动作控制,后面可能要接入更多传感器;一套边缘设备今天跑小模型,未来可能要换更复杂的模型。

需求还没完全定型时,FPGA的灵活性就变得很有价值。

2026年5月13日下午,在安路科技2026年度深圳技术峰会期间,安路科技相关受访人在接受与非网采访时也表达了类似的观点。安路科技认为,FPGA更关注高实时、底层嵌入式功能。一台主流服务器里可能有多颗FPGA,负责风扇、硬盘、主板状态监控、协议转换和板级控制管理。不同服务器厂商、不同应用场景,对IO、电平和协议的要求差异很大,一颗固定ASIC很难覆盖所有设计,而FPGA的可编程特性,可以让少量型号适配多种服务器方案。

FPGA不一定站在大模型推理的最中央。例如在服务器中,FPGA可能负责风扇、硬盘、主板状态监控、协议转换、板级控制管理等工作。不同服务器厂商、不同应用场景,对IO、电平和协议的要求不同,一颗固定ASIC很难覆盖所有设计,而FPGA的可编程特性可以让少量型号适配更多方案。

AMD首席技术官Mark Papermaster也谈到过类似趋势。他认为,AI工作负载正在从训练转向推理,而推理会越来越多地发生在边缘设备上,例如手机、笔记本,也包括工厂里的传感器、智能交通灯等设备。他提到,本地、即时、低延迟的AI内容生成和实时翻译等应用,会让更多推理从云端走向终端。

这个判断与FPGA的机会正好相连。

总结来看,AI迭代太快,半年后算法可能就变了,这正是FPGA的机会。FPGA在推理中不一定直接替代GPU,更成熟的方式是协处理;但在边缘侧、运动控制、工业智能检测等场景,FPGA可以承担核心任务。

为什么企业不敢轻易用FPGA替换GPU?

当然,FPGA也有自己的难题。

最明显的是开发门槛。GPU有CUDA和庞大软件生态,AI工程师已经熟悉相关工具;FPGA长期需要硬件工程能力,开发周期和调试门槛更高。即便AMD、Altera、Lattice等厂商都在用软件套件降低门槛,真正让普通算法工程师像使用GPU一样使用FPGA,仍然需要时间。

这也是FPGA厂商必须解决的问题。

很多软件工程师习惯了GPU。原因很直接:工具成熟、框架成熟、生态成熟。模型在PyTorch、TensorFlow里训练好之后,迁移到GPU推理平台,路径相对清晰。尤其是CUDA生态已经积累多年,很多AI工程师不需要理解芯片底层结构,也能完成模型部署。

FPGA则不一样。一位从业者的评价很直接:FPGA开发“真的不是编程,它只是看起来像而已”。它需要的是另一种思维方式——不是把代码一行行交给处理器执行,而是把任务拆成一条条并行的硬件路径。FPGA擅长并行和流水线,但工程师必须理解时序、带宽、接口、数据流和硬件资源,不能只用软件开发的思维去看它。

如果只是为了尽快上线一个AI应用,GPU往往更简单。买卡、部署框架、调模型、跑推理,这套流程已经被大量工程师验证过。FPGA的优势不是“上手容易”,而是当场景足够明确、对延迟和功耗足够敏感、接口足够复杂时,它可以把系统做得更贴合现场。

比如工业视觉、视频处理、低延迟数据流、高速接口转换这类任务,FPGA的优势会更明显。FPGA在视频、高带宽、低延迟数据流场景中表现突出,因为这类应用往往要求数据持续进入系统,不能堵、不能等,很多时候延迟还要控制在一帧以内。

所以,对于工程师来说,FPGA做AI推理的核心判断不是“能不能做”,而是“值不值得做”。如果一个推理任务对延迟不敏感,部署在云端,工程团队又熟悉GPU,那么GPU仍然是更现实的选择。但如果这个任务在工厂、车端、机器人、摄像头、医疗设备或边缘终端里运行,需要低功耗、低延迟、稳定响应,还要接各种传感器和接口,那么FPGA就值得被认真考虑。

为什么英伟达的动作具有象征意义?

最后,如果连英伟达这个GPU时代最大的受益者都在为低延迟推理引入更多异构组件,那么这说明AI硬件竞争已经过了单纯比拼“谁算力更大”的阶段。市场需要的不只是更强GPU,也需要低延迟、可调度、可连接、可快速适配场景的硬件角色。

FPGA做AI推理已经不是一个孤立的技术话题,而是一条正在形成分化的产业路线。

值得观察的是,各家FPGA厂商并没有沿着同一条路线前进,而是各自通过自己的理解来发展具有推理能力的FPGA。

AMD的路线,是把FPGA能力放进更完整的自适应计算平台中。它并不只是把Versal AI Edge系列定义为一颗AI加速芯片,而是强调面向自动驾驶、预测性工厂、医疗系统等场景,把传感器接入、AI处理和实时控制放在同一条链路里加速。换句话说,AMD希望FPGA不只是“跑模型”,而是成为从感知到决策的系统底座。

Altera的重点则更偏工具链。它推进FPGA AI Suite,并结合OpenVINO等生态,试图降低模型部署到FPGA上的门槛。这说明Altera看到,FPGA进入AI推理市场的最大障碍不只在硬件性能,而在开发难度。谁能让机器学习工程师、软件工程师和FPGA工程师更容易协同,谁就更可能扩大客户规模。

Lattice选择的是低功耗边缘AI路线。它的sensAI方案面向靠近传感器的小型设备,强调低功耗、小尺寸和实时处理,并提供缺陷检测、多目标检测、手势识别等参考设计。这一路线很务实:Lattice并不试图与高端GPU争夺云端大模型推理,而是把目标放在智能摄像头、工业检测、可穿戴设备、机器人和“永远在线”的低功耗终端。Achronix则更强调高带宽和AI/ML工作负载优化,希望在高性能数据流处理、网络加速和更复杂的推理协处理场景中找到位置。

再看国内厂商,路线也不完全一样。安路科技更像是从已有客户场景向AI推理自然延伸。它在工业、服务器、机器人、医疗等方向已有FPGA应用基础,因此谈AI推理时,并不是简单强调“替代GPU”,而是更强调协处理、边缘侧、运动控制和工业智能检测等场景。紫光同创的思路更偏高性能和平台化,希望从通信等传统优势场景向AI推理、高性能数据处理等新兴应用延伸。复旦微电则更强调融合路线,通过FPAI等产品尝试把FPGA与AI处理能力结合起来,在边缘计算和端侧智能场景中形成差异化。

由此可以看出,FPGA不会像GPU那样形成一个高度集中的通用算力叙事,而更可能呈现“多场景、多路线、多形态”的格局。有的厂商把FPGA放进“传感器到控制”的完整链路,有的厂商从工具链切入,有的厂商深耕低功耗边缘市场,有的厂商追求高带宽和高性能,有的厂商则依托工业、服务器、机器人、医疗等存量客户自然延伸。

芯片本身有低延迟、低功耗、可重构的优势,但客户最终买的不是一个概念,而是一套能落地的方案。模型怎么部署?接口怎么接?算法变了怎么更新?现场出问题谁来调?这些都决定了FPGA能不能真正吃到AI推理的增量。

笔者认为,FPGA不是AI推理时代突然冒出来的新主角,而是一颗长期存在、正在被新场景重新激活的芯片。

FPGA可能补上GPU照不到的地方。对于AI推理来说,这已经足够重要。

联系我们

在线咨询:点击这里给我发消息

微信号:79111873

工作日:9:30-18:30,节假日休息