
2025年3月19日全球GTC大会上,英伟达创始人黄仁勋展望了AI科技演进与算力需求的远景,发布了全新Blackwell Ultra GPU及其衍生的推理、Agent服务器SKU,同时披露了与全球科技巨头在AI、机器人、自动驾驶等领域合作研发的进展。
当黄教主身着皮衣、意气风发地在台上挥斥方遒时,他或许也会想起26年前,在硅谷办公室潜心专研GeForce 256芯片的场景。那时,他无法想象,即将发布的GPU将颠覆整个计算机世界。彼时,AMD的苏姿丰已从德州仪器跳槽到IBM,凭借独创的SOI技术(绝缘体上硅)晋升为IBM游戏芯片负责人。她肯定也未曾料到,未来将执掌AMD,与这位“表舅”黄仁勋在GPU战场上展开较量。
26年如弹指一挥间,但印证了GPU从图形渲染工具到人工智能引擎的蜕变史。GPU,这一小小芯片不仅改写了游戏产业的规则,更成为驱动现代科技的核心引擎。
NO.1
硅谷之火:GPU的起源与技术底层革命
GPU起源于早期PC图形显示的萌芽。1981年,IBM推出的5150个人计算机搭载了两款开创性的2D加速卡-MDA(单色显示适配器)和CGA(彩色图形适配器),开启了PC图形显示的先河。
紧接着,IBM通过推出XGA(扩展图形阵列)标准,不断提升分辨率和色彩深度,并制定了图形接口标准,成为图形技术标准化和游戏应用的基础。
1985年,由华人工程师何国源创立的ATI公司以ASIC技术突破,改写行业规则。尽管ATI率先将3D图形卡解决方案推向市场,但3dfx、Rendition和VideoLogic等竞争对手迅速涌现。
真正改写历史的时刻在1993年,黄仁勋和两位工程师好友在硅谷携手创立了英伟达,当时正值3D游戏需求激增的时代。
1995年,微软收购RenderMorphics公司(旗下Reality Lab实验室专事3D图形技术及API技术研究),Windows 95集成Direct 3D API,与3dfx公司推出的Voodoo和专用API Glide抢占市场。
1990年代后期,Voodoo 2搭配SLI模式连接两张卡,是最豪华也最顶级的3D游戏专用配备。
随着1996年《雷神之锤》游戏问世,其复杂场景渲染需求暴露了CPU的算力瓶颈。尽管ATI在1998年被IDC评为图形芯片市场的领导者,但当时市场上还没有3D图形处理的标准,技术路线五花八门。黄仁勋决定打造一款能够处理复杂3D图形处理产品,以满足游戏玩家的渴望。
1999年10月,英伟达在硅谷推出GeForce 256,这款显卡首次将T&L(Transform & Lighting)计算集成到硬件内部,实现了3D渲染任务从CPU向GPU的转移,3D渲染显像技术走向普及。黄仁勋也正式提出GPU(Graphics Processing Unit)概念,并注册了“GPU”商标。凭借台积电代工的220nm工艺制程和1700万个晶体管,GeForce 256将图形处理的多个功能集成于单一芯片,具备与CPU等同甚至更优的计算能力,也宣告其重要性不亚于CPU。
Geforce 256图形处理器采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。
当GeForce 256以硬件级坐标变换与光照计算重构3D渲染逻辑时,《雷神之锤III竞技场》与《虚幻竞技场》的开发者首次在实时场景中捕捉到动态光源的物理轨迹——镜面反射与漫射光晕的精确分离,标志着游戏画面从几何建模向物理模拟的跃迁。
此时英特尔正专注于Pentium III处理器的研发,未能预见GPU并行计算潜力。
CPU是冯·诺依曼架构(顺序执行);GPU是SIMT架构(单指令多线程)
GPU的并行计算架构突破了CPU串行处理瓶颈,重新定义了实时图形渲染的速度极限。随着英伟达的GPU性能持续提升,每次新品的发布都如同一场游戏盛事,让玩家们翘首以盼。从GeForce 3的先进纹理技术和可编程顶点着色器,到GeForce 4的多线程处理能力,英伟达的GPU逐渐成为游戏开发者心中的黄金标准。它们让游戏画面变得更加栩栩如生,游戏体验也随之提升到全新的层次。
2000年12月15日,英伟达收购3dfx,开启了改写图形芯片市场格局之路。
NO.2
游戏引擎:GPU重塑“画质即信仰”法则
在GPU普及之前,3D游戏图形渲染主要依赖CPU,而其计算能力无法满足复杂场景的实时渲染需求。2004年,《孤岛惊魂》的开发者发现,只有英伟达GeForce 6800 Ultra能流畅呈现开创性的动态光影效果,随后戴尔、Gateway、康柏、NEC、IBM等大厂纷纷采用英伟达GPU,竞争随即激化。
从计算机图形学角度,GPU通过矩阵变换将三维点阵投影至二维平面,这一过程称为光栅化,最终呈现于显示器。GPU的能力涵盖顶点处理、光栅化与像素处理,涉及大量矩阵运算,天然契合并行计算架构。
2006年,英伟达推出G80架构融合顶点与像素着色器,使《刺客信条》等开放世界游戏实现无缝渲染。同年,黄仁勋力排众议,向软件开发者敞开GPU的大门,推出CUDA平台(Compute Unified Device Architecture),允许开发者直接调用GPU算力进行非图形领域的通用计算。当时,他并未预见AI或神经网络的潜力,这一决策一度引发股东对其“偏离游戏主业”的质疑,却为高性能计算、人工智能和机器学习埋下伏笔。
彼时,半导体竞争激烈,AMD以54亿美元天价收购英伟达的竞争对手ATI,并于2008年推出首款Fusion APU(CPU+GPU异构),虽对英伟达造成威胁,却因巨额负债濒临破产。而IBM则悄然退出GPU战场,转向游戏主机定制芯片。三家半导体巨头的战略分野初现端倪。
3D游戏的浪潮促使显卡厂商不断优化图形处理技术。2008年,英伟达推出基于统一着色器模型的微架构G80 GPU,采用台积电90纳米工艺制程,不仅支持C语言,更是首次引入线程间通信共享内存和屏障同步技术。
2009年,英伟达推出CUDA 2.0将GPU推向高性能计算领域。此后,谷歌AlphaGo利用GPU集群进行深度学习训练,击败了世界围棋冠军李世石。
同期,AMD与英特尔开始研发高性能集成式图形处理核心,逐步取代低端独立显卡。
2010年,英伟达Fermi架构的GF100 GPU面世,集成了32亿晶体管,优化游戏与通用计算,全面支持DirectX 11硬件功能,包括曲面细分和计算着色器。
GPU性能的突破推动游戏与硬件进入相互驯化的变革时代。2012年,苏姿丰看中AMD的知识产权和CPU、GPU的筹码,开始执掌AMD,于2013年发布新API“Mantle”,打破DirectX渲染管线瓶颈,广受游戏开发者采用。
2018年,英伟达RTX 20率先实现硬件加速光线追踪(RT Core),微软同步推出DXR API,标准化实时光追计算。二者联手为游戏行业带来前所未有的光影表现,《赛博朋克2077》的霓虹夜景,是GPU技术飞跃的终极秀场。
NO.3
算力之巅:GPU引爆AI新时代
GPU的强大性能不再局限于游戏领域。开发者们逐渐发现,GPU在处理人工智能系统的繁复计算时展现出非凡效率,特别是在大规模矩阵运算、并行处理以及数据预处理等任务上,远超传统CPU。这一优势促使以谷歌、斯坦福等为首的科研机构纷纷采用英伟达产品来加速AI开发。
早在2012年,多伦多大学实验室发生了GPU技术的一个标志性突破。AI教父辛顿(Geoffrey Hinton)和学生伊利亚(Ilya Sutskever)、亚历克斯(Alex Krizhevsky)开发了基于卷积神经网络(CNN)的图像识别系统AlexNet。因神经网络计算量极大,程序运行缓慢,辛顿建议学生尝试英伟达的CUDA平台。借助CUDA和两块英伟达GTX 580 GPU的并行计算能力,他们将原本需数月的训练任务在一周完成,并以15.3%的图像识别错误率击败了那些拥有千倍算力的大公司,赢得李飞飞构建的ImageNet数据集竞赛冠军。
当亚历克斯向满座的计算机视觉研究人员展示成果时,观众席中李飞飞和杨立昆等专家都为之震惊。神经网络、大数据集和GPU计算这三大AI元素在这一节点实现了交融,并催生了AI大模型的技术突破。英伟达GPU的Tensor核心、高内存带宽和优化的并行架构,使得诸如Transformer自注意力机制、大规模矩阵乘法等关键计算得以高效执行,为训练如ChatGPT这类需处理千亿甚至万亿级参数的语言模型提供了必要支撑。
曾为游戏而生,一度成为矿卡的GPU,现在已蜕变为AI的关键基础设施,其算力需求翻了数十万倍,远超摩尔定律的增长预期。到了2025年初,开源模型DeepSeek-R1通过算法和软件能力挖掘出更多性能,试图撕开英伟达AI算力的护城河。
2025年3月19日的GTC大会上,黄仁勋强调:在Agentic AI时代,各类应用将激发新一轮算力爆发——无论是通向AGI的探索、具身智能机器人研发,还是构建Omniverse与世界模型,都离不开充沛的算力支持。现场数据显示,2024年美国四大云服务厂商采购130万颗Hopper GPU,而2025年飙升至360万颗Blackwell GPU。科技巨头正将GPU更广泛地集成到数据中心与云端,加速数据密集型工作负载的处理。
当英伟达GPU以高昂价格独领风骚时,谷歌、亚马逊、微软、Meta以及马斯克的xAI等公司奋力自研芯片。但英伟达的护城河不只是硬件上覆盖从预训练、后训练到推理的布局,更有软件上CUDA仍然是绕不过去的生态高墙。
当然,GPU高速发展也伴随安全隐患。例如“像素窃取”通过在恶意网站嵌入iframe标签,利用GPU的数据压缩漏洞跨域窃取密码等数据,暴露出算力狂飙背后的阴影。
NO.4
结语:当AI逼近物理极限,GPU是落幕还是重生?
从游戏像素渲染到智能涌现,GPU以其无与伦比的并行计算算力,推动了AI大模型和云计算中心的革命性发展。
然而,随着半导体技术逐渐逼近物理极限,计算能力的提升面临着巨大挑战。在这场硅基文明的进化旅程中,当量子计算突破冯·诺依曼模式,这场始于图形渲染的GPU狂想曲,是否会有逐渐落幕的那一天,亦或是在量子计算时代重装上阵?
