• 正文
  • 相关推荐
申请入驻 产业图谱

国产ASIC芯片双线突围:攻坚AI主控,竞逐90%增速的千亿配套市场

原创
06/27 11:32
5544
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

当全球数据中心资本支出向万亿美元迈进,一场由AI大模型驱动的算力重构正加速颠覆传统芯片架构。

日前,一贯低调的芯片巨头Marvell在投资者峰会上高调宣示:未来,Marvell的云收入将全面转向AI收入。定制计算(XPU)和XPU Attach(配套组件)是增长最快的两大领域,定制化芯片(ASIC)作为满足新型工作负载需求的关键,是AI基础设施的未来,且正在“每个云端”发生。

根据Marvell引用的数据,2023年全球数据中心资本支出为2600亿美元,预计到2028年将突破1万亿美元,年复合增长率达20%。专为AI服务的“加速计算”芯片市场,将在2028年达到3490亿美元,包括主控芯片和周边配套芯片在内。

其中,定制主芯片的市场规模为1460亿美元,年均增长47%;而定制配套芯片(如内存管理器、网络接口等)增长更为惊人,年均复合增长率高达90%,市场规模预计将达到4080亿美元。

这些数据其实释放出两个明确信号:未来几年内,全球数据中心市场,主芯片门槛高、战略价值大,仍将保持高速增长;与此同时,配套芯片的爆发式增速更为惊人,规模化蓝海存在巨大的发展空间。

千亿市场的战略拐点——AI ASIC开启黄金时代

Marvell在加速计算定制芯片市场属于“黑马”角色,2023年在该领域的市占率不足5%,但目标是到2028年实现20%的市场份额。在去年750亿美元市场预期的基础上,Marvell今年将定制芯片的2028年目标市场规模上调至940亿美元,年复合增速达35%。其中,定制XPU 400亿美元,复合年增长率47%;XPU配套组件150亿美元,复合年增长率高达90%。

Marvell全力押注ASIC芯片是非常明确的产业讯号,包括Meta、博通等巨头的AI ASIC布局都印证了这一趋势。

博通日前发布季报称,预计AI ASIC的部署规模将在明年继续增大,相关营收有望远超公司前期预期。目前在ASIC市场,博通以55%-60%的份额位居第一。博通在AI芯片领域的核心优势在于定制化ASIC芯片和高速数据交换芯片,其解决方案广泛应用于数据中心、云计算、高性能计算和5G基础设施等领域。

值得关注的还有Meta。野村研究报告指出,Meta的 MTIA AI服务器可能成为 2026 年的一个里程碑。Meta将于今年第四季度推出AI ASIC (MTIA T-V1),可能在2026年中期推出MTIA T-V1.5 (V1.5) ASIC,系统在2026年下半年实现规模化部署。MTIA T-V1.5的芯片性能可能比V1强大得多,其中介层尺寸可能是V1的两倍,超过5倍光罩尺寸,与英伟达的下一代 GPU Rubin 相似或稍大。

越来越多的云服务商在更积极地部署自己的AI ASIC解决方案,并且,2026年,在台积电的AI逻辑半导体收入方面,预测AI ASIC的增长将比GPU更为强劲。野村认为,AI ASIC 的总出货量可能在2026年的某个时候超过GPU。

不只是主芯片,数据中心配套芯片的竞争也高度激烈。近期,联发科就凭借SerDes高速传输技术与价格优势,成功从博通手中抢下谷歌数据中心TPU的部分设计权,这一突破也代表了联发科在AI ASIC领域的强势崛起。联发科此次突围的核心在于SerDes 高速传输技术,该技术通过串行化并行信号,能够显著提升数据传输效率与抗干扰能力,尤其适用于TPU芯片的I/O模块设计,且在同等性能下方案成本较博通低15%-20%,成为Google供应链多元化的关键选择。

值得注意的是,英伟达最近在Computex上推出的NVLink Fusion,也是便于与定制ASIC的系统级集成:通过NVLink芯片组,或是IP集成的方式,与其他的专用TPU、ASIC或加速器实现计算层面的混搭。该举措本身也是英伟达对于定制化趋势的积极拥抱,而非任由定制芯片项目蚕食其市场份额。另一方面,这也有助于AI算力基础设施在异构融合计算领域的障碍得到一定缓解,客观上有望推动ASIC芯片的发展与繁荣。

AI主控芯片——国产算力的“心脏攻坚”

IDC数据显示,2024年,中国加速芯片市场规模超过270万张。从技术角度来看,GPU卡占据70%的市场份额;从品牌角度来看,中国本土AI芯片出货量已超过82万张,发展迅速。

AI主芯片是算力的核心,它决定了AI集群的效能上限。国产AI芯片成为美国对华科技制裁的重灾区,这也倒逼国产AI处理器通过架构创新、封装集成等方式不断打开性能天花板,也进一步证明了密度、效率与规模是国产算力的新杠杆,例如:

  • 封装革命:华为 “四芯桥接+CoWoS-L”集成
  • 架构革命:清微智能TX81可重构存算一体(RPU)架构,算力利用率大幅提升
  • 集群革命:昆仑芯P800 XPU-P多核并行架构点亮万卡集群

华为超节点:从单卡劣势到系统级反超

华为云推出的 CloudMatrix 384 超节点,标志着国产AI算力集群的重大突破。该系统基于 384 颗昇腾 910C 芯片构建,通过双芯片封装设计(两芯片共享八颗封装内存储器及高带宽互连),实现了单集群 300 PFlops BF16 密集算力,接近英伟达旗舰 GB200 NVL72 系统的两倍,并在内存带宽上达到后者2.1倍。在硅基流动的实测中,该集群运行 DeepSeek-R1 模型时,单 NPU 解码吞吐达 1943 tokens/s,计算效率 1.29 tokens/s/TFLOPS,全面超越英伟达H100和H800的同场景表现。

昇腾910C仅是新起点,华为进一步通过 “四芯片(quad-chiplet)封装”布局下一代跃升。该技术采用硅中介层垂直互连,单封装集成四颗计算芯片,架构对标英伟达2026年Rubin Ultra 平台。凭借封装创新与本土供应链合作,华为下一代芯片成本有望比英伟达H200低约40%,这正是以 “成熟制程集群化”策略实现性能代差追赶,验证了“以封装换制程、以规模提效能”的技术破局路径。

昆仑芯P800:万卡集群+MLA引擎适于MoE训练

2020 年,昆仑芯 1 代实现量产,主要用于百度搜索引擎、小度等业务;2021 年量产的昆仑芯2代较1代性能提升2-3倍;今年,新一代芯片昆仑芯3代组件已点亮万卡集群。

昆仑芯基于XPU双计算单元架构,混合计算引擎由专用神经网络处理器XPU-SDNN(针对矩阵乘/卷积等张量运算优化)与通用多核XPU集群(处理复杂控制流)构成,二者共享指令集降低开发门槛;任务由统一调度器动态分配至最优引擎,从而实现了性能、效率和灵活性的优化。

第三代芯片P800是昆仑芯当前最具代表性的算力产品,其XPU-P架构采用了多核并行计算、高速互联、灵活可编程等关键技术,可以较好地支撑DeepSeek系列MoE模型大规模训练任务,全面支持MLA(多头潜注意力)、多专家并行等特性,仅需32台即可支持模型全参数训练,高效完成模型持续训练和微调,目前已点亮万卡集群。

寒武纪思元:Chiplet+ LPDDR5革新,云端战力跃升

思元370芯片是寒武纪首款采用chiplet技术的AI ASIC芯片,基于其智能芯片架构MLUarch03,最大算力达256TOPS(INT8)。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。搭载MLU-Link多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。

最新一代云端智能训练芯片思元590则采用MLUarch05架构,能够提供更大的内存容量和带宽,I/O和片间互联接口也较上代实现大幅升级,训练性能大幅提升。

燧原云燧集群:邃思+高速互联,重构存算效率

燧原的云燧智算集群可以在节点内提供1.2TB/s 聚合通信带宽(基于燧原科技GCU-LARE互联技术),节点间提供3个200Gb/s(RDMA)传输,支持集群高速通信,存算网络分离。该集群搭载的正是AI芯片邃思,也是燧原ASIC路线的代表之作。

邃思芯片架构GCU-CARA(通用计算单元和全域计算架构),具有完全可编程、全模式计算、全精度计算和高并行度的特点,提供多数据精度AI算力支持,针对张量、矢量、标量等多计算范式提供领先性能,支持指令驱动、可编程的融合式数据流架构,提供软件透明、基于任务的智能调度。

清微RPU架构:暴力压缩千亿模型至单机运行

清微智能TX81基于可重构存算一体(RPU)设计,通过可重构计算架构映射和数据流控制技术,在处理AI任务时,以更高效率实现计算资源的动态调度分配,摒弃传统指令处理流程和共享存储数据交换机制,使硬件资源更聚焦于核心计算任务。

目前,清微智能算力服务器支持无交换机自组网调度,显著提升计算资源利用率与能效比,单机支持从1.5B、7B到六千亿参数的DeepSeek全量模型,是支持DeepSeek大模型的高性价比方案。

配套芯片——90%增速的黄金赛道

年均复合增长率90%的配套芯片市场,包括内存接口、网络互连、电源管理等芯片,是本土企业的“黄金赛道”。虽然目前只有主芯片才是严格意义的AI芯片,但配套芯片相当于超大规模AI集群的毛细血管,与主芯片协同保障AI系统的整体效能和系统安全。

高速SerDes百亿蓝海,国产厂商112G角逐正酣

在数据中心领域,高速SerDes作为数据传输的重要工具,预计未来市场规模将达到百亿美元量级。高速SerDes IP主要应用场景包括:芯片与芯片的互联(如在PCIe/CXLPHY中)、以太网互连(如在Ethernet switch PHY)以及芯片与光模块的互联(如在oDSP PHY中)。在数据中心场景,SerDes对速率要求较高,国际厂商普遍在112G以上进行研究,甚至已突破224G。

国内独立Serdes IP公司竞争格局还未稳定,初创企业不断涌现,多数IP公司也在拓宽DDR、USB、MIPI等接口IP产品线。布局高速Serdes相关IP的独立厂商情况有晟联科、芯潮流、集益威、芯原、合见工软、芯耀辉等。

晟联科作为高速接口IP供应商,拥有高速SerDes及UCIe IP、PCIe6.0高速接口IP解决方案。其中,112G SerDes IP解决方案,基于ADC/DSP的接收端架构,支持PAM4和NRZ传输,支持长距离传输:42dB@112G PAM4。

芯潮流为Alphawave在中国的合资公司,支持 Alphawave 高速Serdes IP在中国的销售和定制业务。芯潮流采用基于DSP算法架构的SerDes技术,基于DSP算法的架构,能有效满足高带宽数据实时传输需求,这也是目前市场上的主流方向。

合见工软目前已推出56G/112G Serdes Controller IP,最新发布了 UniVista 32G Multi-Protocol SerDes IP,由硬化模块(PMA/SerDes)和RTL模块(Raw PCS)组成,支持32 Gbps的数据传输速率(例如PCIe Gen5速率下32.0GT/s),支持 PCIe Gen1-5、USB4、以太网(25GKR、10GKR)、SRIO、JESD204C等多种主流和专用协议。

集益微目前56G Serdes IP已在国内量产,112G Serdes IP也已流片。主要业务包括高性能和低功耗PLL、ADC/DAC以及SerDes IP和IC的研发和产业化服务。

芯耀辉拥有较为齐全的接口IP产品线,可以提供不同Foundry上不同工艺节点1-10G/20G/25G/32G/56G/112G等多协议SerDes PHY的IP 解决方案,多协议SerDes PHY可以支持包括PCIe、USB、DP、MIPI、MPHY、以太网等多种协议。

芯动科技已有32G/56G/64G SerDes解决方案,包含PCIe6/5(向下兼容PCIe4/3/2)、USB3.2/3.0、SATA、XAUI、SATA、RapidIO、CXL2.0,最新112G SerDes也在开发中,可灵活定制Retimer 和Switch交换芯片。

从电源到存储,国产芯片的“安全保卫战”

电源管理、计算与存储加速芯片也是数据中心基础设施重要的配套芯片,其中,电源管理还可进一步细分为核心处理器供电、内存供电和电路保护等。

1、 电源管理与保护

希荻微面向CPU、GPU、DSP等核心处理器供电芯片,拥有创新架构和良好负载瞬态响应,输出电流50A,效率达90%以上,多路并联可输出更高规格的电流,与国际品牌的成熟方案相比,能满足AI服务器对电源模块小型化、高效化的需求。此外,希荻微推出的20A/50A大电流E-fuses负载开关芯片等系列产品在电流极限精度和响应时间等关键指标上也有较好表现。

慧易芯专注于CPU/GPU等核心处理器电源管理芯片,其DrMOS产品已进入多家头部企业的供应链体系,并实现批量出货。目前主板供电系统解决方案为多相电源,即多相控制器芯片+DrMOS芯片组合。其中,DrMOS芯片(Driver MOS)是完成电路降压控制具体动作的电源管理芯片(属于DC-DC),由驱动IC与MOSFET(主开关管+续流管)集成而来。

杰华特应对大电流场景下,PMIC多相控制器向更高相数的升级趋势,推出了12相控制器JWH6377,它具有可编程环路配置;6*6 QFN封装;可灵活调节双路的相序配置等。此外,集成了PMBus调压功能,能够上报关键的电压、电流、功率、温度和故障信息;集成各相电流均衡和热平衡功能,优化了电流分布和热应力;并且集成多种保护功能,提供了不同故障的响应类型。

思远半导体从DDR5 PMIC切入了存储电源领域。SY5888、SY5887两款PMIC,专为DDR5内存条设计,集成3路高效降压转换器和精准稳压模块,其中SY5888支持内存超频至8000Mbps以上。相比传统DDR4,DDR5的供电需应对高频波动和严苛电压精度要求,思远通过动态电压调节技术,让芯片在高负载下仍能“冷静输出”。此外,企业级DDR5内存条对温度敏感,思远的TS5110传感器精度达±0.25℃,其应力补偿算法提升了量产一致性。

2、存储控制

忆芯科技PCIe4.0?SSD主控芯片STAR2000已流片。该芯片集成了神经网络处理单元,结合8TOPS的AI算力为数据中心业务定制近存计算或存内计算功能,还可帮助SSD提高可靠性和服务质量、优化功耗、实现智能自检及早期故障排查等。采用12nm制程并支持 NVMe2.0 协议,可以提供良好的稳态随机及顺序读写性能。

澜起科技在内存接口芯片方面,其DDR5 RCD(寄存时钟驱动器)与DB(数据缓冲器)套片通过全面缓冲地址/命令及数据信号,成为高性能服务器内存模组(RDIMM/LRDIMM)的核心器件,能够提升CPU存取内存的速度与稳定性。此外还有DDR5内存模组配套芯片,包括SPD Hub、PMIC及温度传感器,实现对内存电源与温控的精细管理;时钟驱动器(CKD)芯片突破性应用于客户端高端内存模组(如CUDIMM/CAMM),满足下一代算力平台对更高内存带宽的需求。

写在最后

随着AI从训练向推理场景延伸,ASIC 芯片也因能效比优势成为企业首选。行业数据显示,2025年,全球ASIC市场规模预计达220亿美元,其中AI相关占比15%,到 2030年有望突破400亿美元。AI算力基础设施走向异构融合的道路上,国产ASIC芯片厂商迎来了前所未有的机遇。

通过多年的发展,国产芯片厂商在底层技术已经形成了一定的积累,如前文所述,比如在高速SerDes互连、高能效供电(如大电流DC/DC、多相控制器、DrMOS)、先进存储控制(如PCIe 4.0/5.0 SSD主控、DDR5接口与管理)以及信号链与接口等关键配套芯片领域已取得显著突破,并形成体系化能力。这些正是构建高性能、高集成度、低功耗ASIC的核心基石,也为国产厂商在ASIC道路的进一步升级提供了坚实保障。

 

来源: 与非网,作者: 张慧娟,原文链接: /article/1856809.html

相关推荐