本文不只是黄仁勋的人物传记,同时也是一部GPU迭代史、CUDA生态筑墙史、AI产业进化史。
全文较长,建议收藏后阅读。
01
第一阶段:底层青少年(1963-1983),磨砺与韧性
1、漂泊童年
1963年2月17日,黄仁勋出生于中国台湾台南,祖籍浙江青田,父亲为化学工程师、母亲为教师,家境尚可。
幼年随家人迁居泰国,因当地局势不稳,1972年(9岁),父母为求稳妥,将他与哥哥送往美国投奔亲友,阴差阳错进入肯塔基州奥奈达浸信会学院——一所专门收容问题少年的寄宿学校。
这是他人生的第一次考验。
校内学生斗殴、纹身、吸毒、持刀冲突是常态,年纪最小、英语生疏、身形瘦弱的亚裔少年黄仁勋,成了全校最容易被霸凌的对象。
学校分配他专职打扫全校厕所,日复一日重复枯燥脏累的杂活。
他后来多次公开笑着复盘这段经历:“没人比我洗厕所更干净。”
没有抱怨、没有摆烂。
1974年,父母正式移民美国定居俄勒冈州,兄弟二人终于逃离混乱的寄宿学校,回归正常校园生活。
两年的底层历练,显著影响了黄仁勋的性格塑造:吃最大的苦,扛最大的压,在绝境里坚韧求生。
2、乒乓赛场
回归正规校园后,黄仁勋练起了乒乓球,展现出极强的竞技天赋,15岁拿下全美青少年乒乓球双打季军。
看似是运动经历,实则塑造了他后来的商业决策逻辑,他曾直言乒乓球就是他的商业启蒙:
高速对打=商业战场瞬间判断、快速决策;
多回合拉扯=企业长期竞争心态稳定、持久对抗;
输赢常态=坦然接受风险,不怕试错、不惧失败。
在他后来的人生和英伟达的发展史中,上述的商战课题,全都遭遇过。
3、少年立誓
16岁,黄仁勋跳级考入俄勒冈州立大学电子工程系,主修半导体与硬件电路。
为覆盖学费和生活费,他课余在餐厅洗碗打工,半工半读完成学业。
大学期间,他结识了未来的妻子Lori。
面对爱人,年少的他许下一句狂言:“我30岁一定要成为一家公司的CEO。”
1983年,黄仁勋本科毕业,正式踏入硅谷半导体行业。
02
第二阶段:职场与创业(1983-1993),吃透产业链,创建英伟达
1、硅谷修炼
1983年,20岁的黄仁勋正式入职AMD,担任芯片工程师,从事CPU架构、半导体工艺、芯片设计工作,聪明的他,很快吃透了当时PC芯片的主流技术。
1985年,跳槽硅谷专用芯片巨头LSI Logic,主动从技术岗转市场、客户岗。他深知只会做技术的人只能打工,实现不了他的老板梦。

在LSI Logic的8年里,他一路晋升至芯片总负责人,完整深耕了芯片设计、流片、代工、定价、渠道、客户服务的产业全链条。
这一时期,他结识了两位毕生的合伙人:顶尖芯片架构师Chris Malachowsky与Curtis Priem,形成后来的“黄仁勋管战略商业,两位合伙人管核心技术”的黄金组合。
1990年,黄仁勋拿下斯坦福大学电子工程硕士学位,同年儿女相继出生,妻子辞职顾家,生活的压力,让他创业的决心更为急切。
2、创建王国
1990年代初的硅谷,行业共识极度统一:英特尔垄断CPU赛道,图形芯片市场体量小、玩家多、竞争惨烈,是毫无前景的边角赛道。
全行业没人愿意深耕图形计算。
黄仁勋却从PC普及、3D游戏、多媒体爆发的趋势中,看到了未来行业发展趋势:图形计算终将从CPU中独立,成为全新的超级算力赛道。
正面硬刚英特尔必死,开辟新赛道方能突围。
1993年2月17日,黄仁勋30岁生日当天,他兑现少年誓言:
辞去高薪工作,拿出全部积蓄4万美元,在丹尼餐厅正式创立NVIDIA英伟达。
公司名源自拉丁语“invidia(嫉妒)”,寓意做出让所有同行仰望、嫉妒的产品。
彼时图形芯片赛道有20余家竞争对手,后续暴涨至70家,无人看好这家初创小公司。
03
第三阶段:生死淬炼(1993-2006),三次濒临破产,磨出CUDA雏形
【科普:CPU与GPU】
众所周知,CPU是电脑的“全能大脑”,擅长复杂逻辑、灵活判断,但并行计算能力极弱,一次只能处理少量任务。
而GPU最初是电脑的“画面助手”,拥有成千上万个小型计算核心,擅长海量重复并行计算。
1999年之前,GPU只是CPU的附属配件,1999年是英伟达重新定义了GPU,为十年后的AI革命埋下火种。
1、首次生死危机(1995-1997):NV1惨败,裁员60%濒临倒闭
1995年,英伟达推出首款产品NV1,采用自研非主流二次曲面渲染技术,画面质感优异,却致命性不兼容微软DirectX主流图形接口。
游戏厂商、PC整机厂集体弃用,产品销量彻底崩盘,公司现金流断裂。
为保全公司,黄仁勋忍痛裁员60%,英伟达站在破产边缘。
内部质疑四起,但他决定:彻底推翻前两年的研发成果,全面止损,放弃非主流路线,all in微软主流生态。
错了就认、错了就砍,成为英伟达早期的生存铁律。
2、绝境翻盘(1997):RIVA 128一战封神
1997年,英伟达推出RIVA 128显卡,完美兼容主流游戏、性能强劲、性价比拉满。
上市仅4个月销量突破100万片,彻底盘活公司现金流,让英伟达从死亡线强势回归,并站稳图形芯片赛道。
3、改写行业历史(1999):正式定义GPU
1999年,英伟达登陆纳斯达克上市,同年发布划时代产品GeForce 256。
黄仁勋在发布会首次正式提出GPU(图形处理器)概念,将图形变换、光照计算从CPU剥离,让GPU成为独立的专业算力单元。
从这一刻起,计算机产业被重新定义,GPU不再是电脑配件,而是独立的算力载体,为未来并行计算、AI深度学习埋下核心伏笔。
4、二次生死危机(2001):Xbox合作破裂,股价暴跌90%
凭借GeForce系列的成功,英伟达拿下微软Xbox主机芯片大单,一度风光无限。
但2001年合作突然终止,公司收入腰斩,市场信心崩塌,股价暴跌90%,市值近乎归零。
英伟达迎来第二次生死危机。
众多建议劝其转型、跟风做CPU、多元化突围,但黄仁勋近乎神迹的固执坚守他的逻辑:
GPU的核心价值不是游戏,而是大规模并行计算。最终他坚守住战略定力,继续深耕自己的主赛道,没有去跟风、摇摆。
5、世纪豪赌(2006):押注CUDA,布局十年未来
【科普:CUDA到底是什么?为何是AI的基石?】
2006年之前,GPU只能用来打游戏、渲染画面。
若想用GPU做科学计算、数据运算,必须通过复杂图形语言绕路编程,难度极高、无法普及。
CUDA(统一计算设备架构),是英伟达2006年11月推出的通用并行计算平台+编程生态。
通俗来说:它给GPU装了一套通用操作系统,让全世界程序员用简单的C语言,就能直接调用GPU的海量并行算力,彻底解放GPU的算力潜能。
CUDA的伟大,在于两点:
一是把GPU从“游戏配件”升级为“全能算力芯片”;
二是搭建起全球统一的GPU开发者生态,构筑起无法复制的软件护城河。
2006年,显卡业务利润丰厚,但CUDA短期零收益、零落地、零市场,华尔街、内部高管集体反对。
黄仁勋力排众议,留下经典预判:
CUDA是为十年后的未来投资,并行计算终将改变世界。
彼时无人理解的豪赌,成为英伟达日后封神的终极内核。
04
第四阶段:十年蛰伏(2006-2016),表面卖显卡,暗中结硬寨
这十年是英伟达最孤独、最关键、最容易被忽略的蓄力期。
外界眼中,它只是一家稳赚利润的游戏显卡公司。
但黄仁勋的战略是,用游戏业务的现金流,持续输血CUDA生态,静待十年后的时代风口。
1、赌局开启(2006):CUDA正式诞生
英伟达正式发布CUDA平台,同步推出搭载Tesla架构的GeForce 8800 GTX,首款原生支持通用计算的消费级显卡问世。

尽管全行业颇有些嗤之以鼻,认为英伟达不务正业,但黄仁勋的战略很清晰:短期利润不重要,生态布局才是未来。
同年英伟达显卡累计出货突破5亿颗,扎实的现金牛业务,为长期研发做了很好的兜底贡献。
2、生态萌芽+重大危机(2007-2008):绝境中坚持
2007年,CUDA Toolkit 1.0正式上线,免费向全球开发者开放,首批使用者仅限高校实验室、石油勘探、影视渲染等小众领域,大众毫无感知,但开发者生态正式萌芽。
2008年,英伟达遭遇创立以来最严重的“显卡门”危机:
GeForce 8系列笔记本显卡普遍出现过热、花屏、黑屏、烧毁问题,引发全球用户投诉与集体诉讼。
面对巨额赔付压力,黄仁勋没有推诿甩锅,果断召回产品、延长质保、全面整改品控。
即便危机缠身、现金流承压,CUDA研发预算一分未减,长期战略从未动摇。
3、架构质变(2009-2010):GPU从游戏走向高端计算
2009年,Fermi(费米)架构问世,首次搭载完整L1/L2缓存,GPU计算逻辑趋近CPU,双精度科学计算性能暴涨5倍。
CUDA稳定性、编程便利性全面升级,气象模拟、基因测序、金融量化、超级计算领域开始批量采用英伟达GPU,GPU正式摆脱“游戏配件”标签,跻身高端专业算力领域。
2010年,中国天河一号A超算机,搭载数千颗英伟达Tesla GPU,成功登顶全球超算榜首,全世界第一次直观见证:GPU并行算力彻底碾压传统CPU集群。
4、断臂求生(2011):GPU终成核心赛道
英伟达与英特尔多年专利官司尘埃落定,英特尔支付15亿美元补偿金,英伟达也彻底退出了低利润PC芯片组的红海市场。
看似丢掉一块大业务,实则是甩掉冗余包袱,将所有资金、人才、研发资源,全部集中于GPU与CUDA核心赛道,彻底关闭了公司长期以来的多元化经营。
同年英伟达GPU累计出货突破10亿颗,基本盘已坚不可摧。
5、AI历史拐点(2012):CUDA价值首次验证
高光时刻终于曙光初现,多伦多大学AlexNet深度学习模型,依托两块GTX 580显卡+CUDA架构训练,在ImageNet图像识别大赛中碾压所有CPU训练方案,准确率断层领先。
全球AI科研圈在显著的对比结果上逐渐形成共识:AI深度学习的本质是海量并行计算,CPU效率极低,GPU才是最优选择。
但这时的黄仁勋保持了冷静,没有跟风炒作AI概念,也没有盲目扩张,依旧默默迭代CUDA工具、扩充开发者生态,耐心等待产业成熟。
6、壮士断腕(2013-2014):CUDA生态彻底成型
2013年,智能手机风口席卷全球,高通垄断手机芯片市场,英伟达Tegra芯片虽图形性能强悍,但功耗、基带、生态全面落后。
那年的黄仁勋,亲自站台小米3发布会,力推自家产品。

在全行业疯狂扎堆手机赛道时,黄仁勋做出了惊人的反向决策,果断断臂收缩移动芯片业务,将所有资源回流至GPU通用计算、CUDA生态、数据中心算力赛道。
正是这份定力,为日后AI封神扫清了所有干扰。
2014年,Kepler(开普勒)架构成熟,能效比、算力、稳定性拉满。
CUDA开发者数量爆发式增长,全球高校、企业、科研机构完成全面迁移,CUDA正式成为全球并行计算的通用标准,所有竞争对手再无追赶机会。
7、蛰伏尾声(2015):算力基建全面就绪
Maxwell(麦克斯韦)架构发布,功耗控制、游戏性能、通用计算能力全面均衡。
旗舰卡GTX Titan X问世,单卡算力登顶行业,被科研、AI训练、影视渲染领域批量采购。
自动驾驶、VR、机器人等新兴场景开始小规模适配英伟达算力。
这一年,Open AI创立,AI时代的前夜,正式来临。
05
第五阶段:AI封神(2016至今),垄断全球算力时代
1、时代拐点(2016):AI商业化正式启幕
这一年,英伟达推出划时代的Pascal(帕斯卡)架构,针对性优化深度学习、大规模并行计算能力,同步升级NVLink高速互联协议,多GPU协同算力、能效比实现质的飞跃。
这年8月,黄仁勋亲自向Open AI交付全球第一台DGX-1 AI超算,这台设备搭载8块Tesla P100 GPU,专为深度学习打造,直接成为Open AI首个规模化AI训练硬件。

AI工业化时代正式开启。
2、AI专属算力诞生(2017):彻底拉开代差
此前,所有GPU都是“图形优先、计算为辅”,而2017年推出的Volta(伏特)架构,首次新增Tensor Core(张量核心),专门适配AI矩阵运算、混合精度计算。
深度学习训练速度翻倍。
这成为行业史上首个真正意义的AI专用算力核心。
同年,加密货币“挖矿”热潮带动GPU需求暴涨,英伟达数据中心业务营收大幅攀升,形成“游戏+专业算力”双现金牛格局。
这时的市场才首次意识到:英伟达的核心增长引擎,已经切换为AI算力。
3、AI反哺图形(2018):构筑全场景壁垒
推出Turing(图灵)架构,新增RT Core(光线追踪核心)与新一代Tensor Core,首次实现“AI算力反哺游戏图形”。
这是一步绝妙的神级操作:用AI技术强化传统游戏业务,用游戏市场巩固硬件基本盘,用专业算力抢占AI赛道,实现双向赋能、全场景覆盖。
这一年,基于英伟达P100等早期训练卡的GPT-1诞生。
也是在这一年,美国陆续将多家中国科技企业列入实体清单,要求美国企业出口芯片需申请许可证,英伟达等厂商向清单内企业供货受到限制,但普通商业客户、主流型号 GPU 仍可正常出口。

直至随后的2020-2021年,管制主要集中在超算、军工相关场景,对民用AI、云计算所用的英伟达A100等芯片,尚未出台全域禁令。
4、补齐算力短板(2019):打通高速互联生态
英伟达持续迭代NVLink高速互联技术,大幅提升多GPU集群协同效率,解决了大规模AI训练的算力互通瓶颈。
同时持续扩容CUDA开发者生态,全球高校AI课程、企业研发、开源模型几乎全部基于CUDA搭建,软件护城河进一步固化。
此时行业格局已彻底定型:无CUDA,不AI训练。
这一年,依托英伟达GPU集群完成训练的GPT-2诞生。
5、Ampere架构(2020):一统训练与推理赛道
2020年发布的Ampere架构,为当下AI规模化落地铺平道路。
新增TF32通用浮点格式、结构化稀疏算力、MIG算力切分技术,一举解决两大行业痛点:完美适配AI训练+AI推理全场景,兼顾超算、云计算、数据中心多元需求。
消费端RTX30系列显卡上市,将高端AI算力下放至消费市场。
服务端划时代产品A100芯片,成为全球云厂商、AI企业的标配,英伟达正式垄断全球中高端AI算力市场。
基于上万块英伟达V100 GPU组成的微软Azure超算集群完成训练的GPT-3横空出世,成为AI技术爆发的里程碑。
人工智能时代正式席卷全球,也让英伟达彻底坐稳AI算力龙头。
这一年,英伟达营收、市值迎来爆发式增长。
2019-2021年,英伟达股价分别增幅达77%、122%、125%。
市场和投资者,再也不能用半导体公司为其估值。
6、收购Mellanox(2021):掌控算力“血管”
英伟达完成对全球高速互联巨头Mellanox的收购,拿下InfiniBand高速网络技术。
如果说GPU是AI算力的“心脏”,那么光模块、高速网络就是算力的“血管”。
此次收购,英伟达打通芯片算力+高速互联+集群调度全链条,从单一芯片厂商,升级为AI算力系统级解决方案提供商。
这正是英伟达的异军突起利好中际旭创等光模块企业的核心逻辑:
高速算力生态,必然带动高速光模块需求持续爆发。
7、ChatGPT(GPT-3.5)(2022):全民浪潮
采用英伟达A100 GPU训练与推理的ChatGPT(GPT-3.5)诞生,引发全民AI浪潮。
海量的并发对话、推理,进一步助推对英伟达算力集群的高度依赖。
但也是在这一年,美国商务部更新《出口管理条例》,明确规定:
未经美国政府许可,英伟达A100、H100等顶级AI训练/推理芯片,禁止出口至中国(含中国大陆、港澳地区)。
该规则直接掐断国内AI企业依赖的高端算力供给,也让英伟达失去中国高端AI芯片市场。
为保住市场,英伟达随后推出降配特供版,通过调低算力、带宽等参数规避管制,短暂维持对华供货。
8、大模型风口爆发(2023):君临天下的超级周期
ChatGPT引爆全球大模型浪潮,AI算力需求呈指数级爆发。
全球所有科技巨头、AI创业公司疯狂采购英伟达H100高端算力芯片,芯片供不应求、长期缺货,英伟达订单排至数年之后。
Open AI全面升级使用英伟达H100 GPU芯片,正式推出GPT-4。
英伟达营收、净利润、市值连续季度暴涨,一跃成为全球市值最高的半导体企业。
至此,全世界都跪伏着承认一个事实:
英伟达掌控了全球人工智能发展的核心算力命脉。

但正是这一年,美国进一步收紧对中国出口规则,连“特供版”A800、H800也纳入管制,实质封堵了这条变通路径。
9、技术迭代+格局固化(2024-2026):开启全域AI生态
持续迭代Blackwell(布莱克韦尔)架构,推出H200、GB300等新一代AI算力芯片,适配超大规模大模型、多模态AI、自动驾驶、边缘计算全场景。
面对全球算力出口政策调整,英伟达快速迭代特供版芯片,灵活适配区域市场需求,稳住全球基本盘。
同时持续深化AI PC、边缘AI布局,将AI算力从云端数据中心,下沉至个人终端、汽车、工业设备,进一步拓宽算力需求天花板。
英伟达的竞争优势,从单一硬件领先,升级为硬件+软件+生态+系统+服务的全方位垄断,壁垒之高,近乎无解。
但也就是2025年4月,H20芯片被列入对华出口管制。
2026年4月,黄仁勋公开表态英伟达在中国市场份额降至0%,5月接受CNBC采访时再次确认,英伟达已实质性退出中国高端AI芯片市场。
06
摧枯拉朽与产业共振
1、对英特尔:
英伟达刚刚宣布的AI PC方向,使终端算力进一步下沉,持续弱化英特尔CPU核心地位,挤压其消费端与数据中心市场份额,长期形成利空。
但英特尔的反击也强劲有力,推出首款18A先进制程至强6+(Clearwater Forest),最高288核,缓存提升5倍、内存带宽+20%,专门针对AI智能体、云原生、任务调度优化。
在AI集群中,CPU已不再只是计算单元,而是整个AI系统的调度、编排、控制核心。
随着大模型推理普及,CPU与GPU配比从1:8逐步向1:1趋势演进。
2、对光模块公司:
英伟达算力集群、NVLink高速互联、云端+终端AI协同,持续爆发海量带宽需求。
800G/1.6T高速光模块需求长期扩容,算力硬件霸主越强,光模块“算力血管”受益越明确,订单已排至2027-2028年,同时成就了中际旭创的万亿市值。
3、对互联网巨头:
全球互联网大厂千亿级AI资本开支,纷至沓来,本质是向英伟达采购算力基建,自身沦为下游应用端。
后续也大概率要通过AI服务商业化、提价收费等方式,回收巨额开支成本,甚至复刻互联网“烧钱圈地、后期收割”的经典路径,但目前还看不到明确的盈利模式。
07
后记
黄仁勋和英伟达的三十年,无论是早期的逆向突围,还是近二十年对CUDA和GPU的坚守与打磨,是一场极致的自律、专注、长期主义的修行。
有人说是黄仁勋和英伟达撞上了AI时代的风口,而我更觉得:
恰恰相反,正是黄仁勋和英伟达二三十年不追风口,埋头深耕,才最终成就了站上人类历史最大规模科技与产业革命的王。
夜雨聆风