黄仁勋为何开始推FPGA

来源：与非网 • 时间：2026-05-23 00:41 •阅读次

FPGA为何被黄仁勋推上前台？

2026年3月16日，GTC大会上，英伟达创始人兼CEO黄仁勋把一个新的平台推到台前：Vera Rubin。

按照英伟达发布的信息，Vera Rubin不是一颗单独的GPU，也不是一台普通服务器，而是一套面向下一代AI工厂的系统级平台。它包括Vera Rubin NVL72 GPU机架、Vera CPU机架、Groq 3 LPX推理加速机架、BlueField-4 STX存储机架和Spectrum-6 SPX以太网机架。黄仁勋在发布中称，Vera Rubin由七颗突破性芯片、五类机架和一台巨型超级计算机组成，目标是支撑AI从训练、后训练到实时智能体推理的全流程。

英伟达技术博客在同一天发布了由Kyle Aubrey和Farshad Ghodsian撰写的文章。前者是英伟达技术营销总监，负责AI推理和训练相关平台传播；后者是英伟达高级技术营销工程师，关注大规模AI训练与推理、性能优化和AI工程落地。两人在文章中介绍，Groq 3 LPX是一种面向低延迟、大上下文智能体系统的机架级推理加速器，它与Vera Rubin NVL72共同工作：Rubin GPU继续承担高吞吐的通用训练和推理任务，LPX则专门负责更敏感的低延迟推理环节。

在英伟达公开表述中，LPX每个液冷1U托盘集成8颗LPU加速器、主处理器以及“Fabric Expansion Logic”。

真正让硬件行业敏感的，是在Groq 3 LPX推理机架中，FPGA不再只是可选配件，而是进入标准配套协处理芯片的位置。英伟达官方说得很清楚，LPX不是取代Rubin GPU，而是和Rubin GPU共同构成异构推理路径：GPU继续处理高吞吐任务，LPX负责更低延迟、更稳定响应的部分。英伟达技术博客中还写到，未来AI应用同时需要三件事：响应速度、模型能力和规模化服务能力。不同任务不应该只用一个指标衡量，而要针对真实应用状态去优化。

虽然GPU仍然是AI训练和大规模云端推理的核心。但当英伟达也开始在推理架构中引入FPGA或FPGA类可编程逻辑时，它实际上承认了一个现实：AI推理已经不是单纯“堆算力”的问题。到了推理阶段，系统不仅要算得快，还要反应快、功耗低、延迟稳定、数据流动顺畅，并且能够适应不同应用场景。英伟达认为，AI推理的未来不是一种芯片赢下全部，而是不同芯片各司其职。GPU仍然是舞台中央的强计算核心；LPU、NPU、ASIC等专用芯片会在某些任务里追求更高效率；FPGA则可能成为连接、调度、实时处理和场景适配的关键角色。它未必最耀眼，但它可以补上GPU不够经济、ASIC又太早固化、CPU反应不够确定的位置。

争议：GPU根本就不适合做推理？

硅谷投资人Chamath Palihapitiya很早就提出过一个有争议的判断。他是Social Capital创始人，早年曾是Facebook高级管理团队成员，并参与Facebook平台业务发展。Chamath曾在公开讨论中把AI拆成两个市场：训练和推理。他认为，推理会比训练大得多，而英伟达非常擅长训练，但在推理市场上可能存在“错配”。

这句话后来被很多人引用，也引发了大量争论。

它当然不能简单理解为“GPU不能做推理”。云端大模型推理、大规模并发服务、批量处理任务，GPU仍然非常重要。英伟达自身也在不断优化GPU推理能力，Vera Rubin平台本身就是对AI推理市场的正面进攻。真正的问题在于，不是所有推理都需要GPU这么高的算力。

事实上，推理越靠近现场，场景就越复杂。

工厂里的设备可能要接工业相机，汽车里可能要接多路传感器，机器人要处理运动控制，智能摄像头要在低功耗下长期工作。这些任务不只是“算一道题”，还要把不同信号接进来、处理掉、再把结果快速送出去。

并不是只有大模型的推理才算推理，比如工业流水线缺陷检测也是推理。这类任务对算力要求未必很高，真正困难的是是否有合适的算法、系统方案，以及能否在具体工位上稳定运行。也正是在这些碎片化、低延迟、强现场适配的场景中，FPGA的灵活可编程和高实时特性才更容易体现出来。每一种推理对硬件的要求都不一样。有的需要大吞吐，有的需要低功耗；有的需要大模型，有的只需要小模型；有的可以慢几百毫秒，有的必须马上响应。

普通芯片出厂后，功能基本固定；GPU虽然可以运行不同软件，但硬件结构本身已经定型；ASIC效率很高，但一旦做成专用芯片，后续算法变化就很难跟上。FPGA则不同，它可以根据客户需求重新配置内部逻辑。今天用于视频接口转换，明天可以加入某种预处理逻辑，后天还可以随着算法变化做调整。

这也是AI时代让FPGA重新被看见的原因。AI算法变化太快，很多应用还在探索。一个工厂今天只是要识别表面划痕，半年后可能要识别更多缺陷类型；一台机器人今天只是做简单动作控制，后面可能要接入更多传感器；一套边缘设备今天跑小模型，未来可能要换更复杂的模型。

需求还没完全定型时，FPGA的灵活性就变得很有价值。

2026年5月13日下午，在安路科技2026年度深圳技术峰会期间，安路科技相关受访人在接受与非网采访时也表达了类似的观点。安路科技认为，FPGA更关注高实时、底层嵌入式功能。一台主流服务器里可能有多颗FPGA，负责风扇、硬盘、主板状态监控、协议转换和板级控制管理。不同服务器厂商、不同应用场景，对IO、电平和协议的要求差异很大，一颗固定ASIC很难覆盖所有设计，而FPGA的可编程特性，可以让少量型号适配多种服务器方案。

FPGA不一定站在大模型推理的最中央。例如在服务器中，FPGA可能负责风扇、硬盘、主板状态监控、协议转换、板级控制管理等工作。不同服务器厂商、不同应用场景，对IO、电平和协议的要求不同，一颗固定ASIC很难覆盖所有设计，而FPGA的可编程特性可以让少量型号适配更多方案。

AMD首席技术官Mark Papermaster也谈到过类似趋势。他认为，AI工作负载正在从训练转向推理，而推理会越来越多地发生在边缘设备上，例如手机、笔记本，也包括工厂里的传感器、智能交通灯等设备。他提到，本地、即时、低延迟的AI内容生成和实时翻译等应用，会让更多推理从云端走向终端。

这个判断与FPGA的机会正好相连。

总结来看，AI迭代太快，半年后算法可能就变了，这正是FPGA的机会。FPGA在推理中不一定直接替代GPU，更成熟的方式是协处理；但在边缘侧、运动控制、工业智能检测等场景，FPGA可以承担核心任务。

为什么企业不敢轻易用FPGA替换GPU？

当然，FPGA也有自己的难题。

最明显的是开发门槛。GPU有CUDA和庞大软件生态，AI工程师已经熟悉相关工具；FPGA长期需要硬件工程能力，开发周期和调试门槛更高。即便AMD、Altera、Lattice等厂商都在用软件套件降低门槛，真正让普通算法工程师像使用GPU一样使用FPGA，仍然需要时间。

这也是FPGA厂商必须解决的问题。

很多软件工程师习惯了GPU。原因很直接：工具成熟、框架成熟、生态成熟。模型在PyTorch、TensorFlow里训练好之后，迁移到GPU推理平台，路径相对清晰。尤其是CUDA生态已经积累多年，很多AI工程师不需要理解芯片底层结构，也能完成模型部署。

FPGA则不一样。一位从业者的评价很直接：FPGA开发“真的不是编程，它只是看起来像而已”。它需要的是另一种思维方式——不是把代码一行行交给处理器执行，而是把任务拆成一条条并行的硬件路径。FPGA擅长并行和流水线，但工程师必须理解时序、带宽、接口、数据流和硬件资源，不能只用软件开发的思维去看它。

如果只是为了尽快上线一个AI应用，GPU往往更简单。买卡、部署框架、调模型、跑推理，这套流程已经被大量工程师验证过。FPGA的优势不是“上手容易”，而是当场景足够明确、对延迟和功耗足够敏感、接口足够复杂时，它可以把系统做得更贴合现场。

比如工业视觉、视频处理、低延迟数据流、高速接口转换这类任务，FPGA的优势会更明显。FPGA在视频、高带宽、低延迟数据流场景中表现突出，因为这类应用往往要求数据持续进入系统，不能堵、不能等，很多时候延迟还要控制在一帧以内。

所以，对于工程师来说，FPGA做AI推理的核心判断不是“能不能做”，而是“值不值得做”。如果一个推理任务对延迟不敏感，部署在云端，工程团队又熟悉GPU，那么GPU仍然是更现实的选择。但如果这个任务在工厂、车端、机器人、摄像头、医疗设备或边缘终端里运行，需要低功耗、低延迟、稳定响应，还要接各种传感器和接口，那么FPGA就值得被认真考虑。

为什么英伟达的动作具有象征意义？

最后，如果连英伟达这个GPU时代最大的受益者都在为低延迟推理引入更多异构组件，那么这说明AI硬件竞争已经过了单纯比拼“谁算力更大”的阶段。市场需要的不只是更强GPU，也需要低延迟、可调度、可连接、可快速适配场景的硬件角色。

FPGA做AI推理已经不是一个孤立的技术话题，而是一条正在形成分化的产业路线。

值得观察的是，各家FPGA厂商并没有沿着同一条路线前进，而是各自通过自己的理解来发展具有推理能力的FPGA。

AMD的路线，是把FPGA能力放进更完整的自适应计算平台中。它并不只是把Versal AI Edge系列定义为一颗AI加速芯片，而是强调面向自动驾驶、预测性工厂、医疗系统等场景，把传感器接入、AI处理和实时控制放在同一条链路里加速。换句话说，AMD希望FPGA不只是“跑模型”，而是成为从感知到决策的系统底座。

Altera的重点则更偏工具链。它推进FPGA AI Suite，并结合OpenVINO等生态，试图降低模型部署到FPGA上的门槛。这说明Altera看到，FPGA进入AI推理市场的最大障碍不只在硬件性能，而在开发难度。谁能让机器学习工程师、软件工程师和FPGA工程师更容易协同，谁就更可能扩大客户规模。

Lattice选择的是低功耗边缘AI路线。它的sensAI方案面向靠近传感器的小型设备，强调低功耗、小尺寸和实时处理，并提供缺陷检测、多目标检测、手势识别等参考设计。这一路线很务实：Lattice并不试图与高端GPU争夺云端大模型推理，而是把目标放在智能摄像头、工业检测、可穿戴设备、机器人和“永远在线”的低功耗终端。Achronix则更强调高带宽和AI/ML工作负载优化，希望在高性能数据流处理、网络加速和更复杂的推理协处理场景中找到位置。

再看国内厂商，路线也不完全一样。安路科技更像是从已有客户场景向AI推理自然延伸。它在工业、服务器、机器人、医疗等方向已有FPGA应用基础，因此谈AI推理时，并不是简单强调“替代GPU”，而是更强调协处理、边缘侧、运动控制和工业智能检测等场景。紫光同创的思路更偏高性能和平台化，希望从通信等传统优势场景向AI推理、高性能数据处理等新兴应用延伸。复旦微电则更强调融合路线，通过FPAI等产品尝试把FPGA与AI处理能力结合起来，在边缘计算和端侧智能场景中形成差异化。

由此可以看出，FPGA不会像GPU那样形成一个高度集中的通用算力叙事，而更可能呈现“多场景、多路线、多形态”的格局。有的厂商把FPGA放进“传感器到控制”的完整链路，有的厂商从工具链切入，有的厂商深耕低功耗边缘市场，有的厂商追求高带宽和高性能，有的厂商则依托工业、服务器、机器人、医疗等存量客户自然延伸。

芯片本身有低延迟、低功耗、可重构的优势，但客户最终买的不是一个概念，而是一套能落地的方案。模型怎么部署？接口怎么接？算法变了怎么更新？现场出问题谁来调？这些都决定了FPGA能不能真正吃到AI推理的增量。

笔者认为，FPGA不是AI推理时代突然冒出来的新主角，而是一颗长期存在、正在被新场景重新激活的芯片。

FPGA可能补上GPU照不到的地方。对于AI推理来说，这已经足够重要。

本财经资讯由四克财经网发布，版权来源于原作者，不代表四克财经网立场和观点，如有标注错误或侵犯利益请联系我们。

黄仁勋为何开始推FPGA

FPGA为何被黄仁勋推上前台？

争议：GPU根本就不适合做推理？

为什么企业不敢轻易用FPGA替换GPU？

为什么英伟达的动作具有象征意义？

相关财经

猜你喜欢

最新财经

联系我们

FPGA为何被黄仁勋推上前台？

争议：GPU根本就不适合做推理？

为什么企业不敢轻易用FPGA替换GPU？

为什么英伟达的动作具有象征意义？