Deepseek一系列大模型的发布,大家回过头来看发现昂贵的GPU突然没有那么香了。大模型的训练算力的提升不一定要疯狂的堆积英伟达的GPU,可以通过优化模型算法,提高GPU运算效率。或者开发专用领域的ASIC芯片,似乎也成了不少公司新的策略。从英伟达近段时间的股价也能看出,想靠买高价铲子,收割互联网大厂的神话似乎不可持续了。
比较下ASIC?芯片和GPU在技术特性、市场趋势、典型应用及未来展望四个维度的差异
一、技术特性:专用化与通用性的分水岭
ASIC?的核心优势
ASIC(Application Specific Integrated Circuit,专用集成电路)的设计理念是为特定任务量身定制,例如比特币挖矿的?SHA-256?算法、AI?推理的矩阵运算等。这种?“量体裁衣”?的特性使其在能效比(单位功耗算力)和成本效率上远超?GPU。
能效比:谷歌TPU v5e TPU(Tensor Processing Unit,张量处理单元)的能效比是英伟达H100 的 3 倍,适合数据中心大规模部署。
成本效率:AWS的Trainium 2 在推理任务中性价比比 H100 高 30%-40%,谷歌的TPUv5、亚马逊的 Trainium2 单位算力成本仅为英伟达 H100 的 70% 和 60%。
GPU?的核心优势
GPU通用性使其成为复杂计算任务的?“瑞士军刀”,尤其在需要灵活性的场景中。
训练任务:英伟达?H100?的?FP64?浮点性能是?ASIC?的?10?倍以上,支持万亿参数大模型训练。
软件生态:CUDA?平台拥有超过?400?万开发者,支持?PyTorch、TensorFlow?等主流框架,而?ASIC?需定制工具链(如谷歌的?XLA),开发门槛高。ASIC?灵活性差,功能固定,算法改变就需重新设计,开发难度大,软件生态单一(硬件和软件工具套件都需重新开发和适应,各家还不通用)。
通俗解释CPU和GPU的区别:
CPU和GPU都是通用芯片,可以完成多种任务。CPU是全能型选手,单核主频高,啥都能干,所以经常被拿来做主处理器。
GPU,本来是用来做图形处理(显卡)的。它的内核数量特别多(大几千个),适合做并行计算,也就是擅长同时做大量的简单计算任务(图形处理,就是同时处理大量的像素计算。)AI计算和图形计算一样,也是典型的并行计算型任务。AI计算中包括大量并行的矩阵相乘、卷积、循环层、梯度运算等任务,所以,特别适合GPU去完成。
备注:CPU和GPU可以重新编写软件代码,但是ASIC是开发类似的verilog综合和烧写比特流才能确定芯片的功能的为硬件实现方案,相对GPU和CPU更加定制化,所以ASIC的验证非常重要。
二、市场趋势:ASIC?在特定领域崛起,GPU?主导核心市场
ASIC?的增长动能
AI?推理:随着算法框架收敛(如?Transformer),ASIC?在端侧?AI(如自动驾驶、智能家居)渗透率快速提升。预计?2028?年数据中心?ASIC?市场规模将达?429?亿美元,复合增长率?45.4%。
云厂商自研:谷歌、亚马逊、微软等通过自研?ASIC(如?TPU、Trainium、Maia)优化内部工作负载,降低对英伟达的依赖。
GPU?的市场壁垒
训练市场:英伟达占据?AI?训练市场?90%?以上份额,其?Blackwell?架构支持?1.8?万亿参数模型训练,且?NVLink 6?技术实现?72?卡集群无缝互联。
生态护城河:CUDA?生态系统的成熟度(如?TensorRT?推理优化、Megatron?分布式训练)难以被替代,企业迁移成本极高。
三、典型应用:ASIC 与 GPU 的主战场
| 领域 | ASIC?代表案例 | GPU?代表案例 |
| AI?推理 | ? ? 谷歌?TPU v5e? ? ? ? ? ? ? ?(5?万卡集群) | 英伟达?H100
(支持多模态模型推理) |
| 自动驾驶 | ? ?特斯拉?FSD?芯片?? ? ? ? ? ? ? (能效比优于Orin) | 英伟达?Thor
(支持端到端大模型) |
| 加密货币 | 比特大陆?Antminer?(SHA-256?效率提升100?倍) | AMD Radeon
(灵活支持算法切换) |
| 科学计算 | 博通定制加速器
用于量子模拟 |
英伟达?Grace Blackwell
(超算领域) |
中国大陆本土GPU 制造能力增强。近年来,中国国内的许多GPU企业开始崭露头角。通过持续的投入和努力,国产GPU在性能、功能和应用领域等方面都有了提升,逐渐赢得了市场的认可和用户的信任。国产GPU不仅在传统图形处理领域取得了进展,也能够在人工智能、高性能计算等新兴领域展现出一定的竞争力。
主要厂商包括景嘉微、寒武纪、海光信息、天数智芯等。
国内GPU产品统计
| 企业名称 | 主要GPU产品类型 | 上市进度 |
| 景嘉微 | JM5系列、JM7系列、JM9系列GPU、景宏系列 | 已上市(A股) |
| 寒武纪 | 思元270、思元290、思元370AI芯片 | 已上市(A股) |
| 海光信息 | 海光DCU(GPGPU) | 已上市(A股) |
| 龙芯中科 | 9A1000 GPU(入门级显卡,用于图形处理和AI推理) | 已上市(科创板) |
| 壁仞科技 | BR100、BR104 | IPO辅导备案登记中 |
| 原科技 | S60、云燧T20等AI加速卡 | IPO辅导备案登记中 |
| 摩尔线程 | MTT S系列显卡、MTT系列GPU芯片 | A股上市辅导中 |
| 天数智芯 | 天垓100、智铠100等 | 未上市 |
| 中微电 | 南风一号、南风二号 | 未上市 |
| 瀚博半导体 | SV102 AI推理芯片、SG100 GPU等 | 未上市 |
| 芯动科技 | 风华1号、风华2号GPU等 | 未上市 |
| 沐曦集成 | MXN系列GPU(曦思,用于AI推理) MXC系列GPU(曦云,用于AI训练及通用计算) MXG系列GPU(曦彩,用于图形渲染) |
未上市 |
| 登临科技 | Goldwasser(GPGPU) | 未上市 |
四、未来展望:共生与融合
短期(1-3?年)
ASIC:在推理、边缘计算、特定行业(如金融风控、医疗影像)快速渗透,云厂商自研?ASIC?占比提升至?30%。
GPU:继续主导训练市场,Blackwell?架构推动超算和?AI?融合(如气候模拟、新药研发)。
长期(5?年以上)
技术融合:英伟达推出?Grace CPU+Blackwell GPU?的超级芯片,而博通开发支持动态重构的?ASIC,两者边界趋于模糊。
ASIC?和?GPU?的竞争本质是?“效率”?与?“灵活性”?的权衡?。ASIC?在特定场景的优势无法撼动?GPU?的生态壁垒,而?GPU?的通用性使其在复杂任务中难以被替代。未来,两者将通过混合架构(如?GPU+ASIC?加速卡)和异构计算(如?CUDA?与定制指令集协同)实现最优资源配置。对于企业而言,选择?ASIC?需满足三个条件:任务明确、规模足够大、算法稳定,否则?GPU?仍是更优解。
结论:
ASIC?芯片与?GPU?的关系并非简单的替代,而是长期共存、互补发展的格局。
6759