可支持最多 9000 个节点的超大规模集群

作者：6686 日期：2026-02-03 浏览：来源：6686平台

　　一年前，我们在《DeepSeek掀起算力革命，英伟达挑战加剧，ASIC芯片悄然崛起》一文中，更多的是看好ASIC带来类似博通和晶圆代工的产业机会。

　　一年后的今天，ASIC 的发展速度远超预期-。尤其近半年以来，ASIC甚至逐渐成为AI竞争的胜负手☆▪：国内外大厂开年以来股价表现最好的分别是百度、谷歌和阿里。

　　谷歌TPU+自研模型+云+内部应用的王炸●▲▽，已经让其立于不败之地；国内互联网大厂，近期被重估的只有自研ASIC芯片拆分独立IPO的百度（计划拆分昆仑芯IPO）和阿里（计划拆分平头哥IPO）▷。

　　01 ASIC趋势比预期还要猛1.AI投资规划越大，ASIC优势就越明显

　　每个大厂都有自己独特的应用□、模型、云和SaaS•，ASIC 能精准匹配这些专属需求■，同时具备更低的成本与功耗优势——这也是我们去年看好其在推理时代爆发的核心原因。

　　当前 AI 军备竞赛愈演愈烈◇，10 万美元/颗的 GPU 已让大厂不堪重负（英伟达 FY2025 年整体毛利率达 75.5%■□□，净利率 57%，单颗 GPU 成本不足 3 万美元）★。头部厂商的 AI 资本开支已逼近千亿美元，甚至需要通过融资、租赁外部算力等方式填补缺口。

　　性价比更高的ASIC因此变得更为重要性□：在AI算力向推理端倾斜、数据中心成本控制诉求升级的背景下，ASIC芯片凭借显著经济性▪◆，正逐步打破GPU垄断格局▼△=。

　　谷歌自研芯片的成功，无疑更是行业的一针强心剂。所以近期，超大规模云服务商都开始尝试摆脱对英伟达的依赖▪▪▽，加速构建自己的芯片护城河，以追求极致的 TCO（总拥有成本）和供应链安全。

　　理论上，所有领域的芯片都该走向专用化——专用芯片的适配性与效率最优，但能否落地，关键在于下游市场能否支撑高昂的自研成本。

　　当前 2nm 芯片流片成本已达 7 亿美元●-，加上团队搭建费用 3 亿美元，自研门槛高达 10 亿美元，这需要超 100 亿美元的下游市场规模才能覆盖成本。

　　●成功的代表是手机，每年全球近5000亿美元的市场•，自研主控SoC做的最好的是苹果和华为■•▼，不仅降低了成本，更重要的是提升了手机性能，支撑溢价。

　　●但在比如汽车智驾领域▷，…☆■，由于市场空间并不够大，主机厂自研并不具备经济性，最终仍是英伟达、地平线这样的企业占据主流。

　　数据中心市场AI芯片单颗价值非常高，只需要有数百万颗出货量即可突破经济生死线年开始▲，一个大厂内部采购的AI芯片数量就轻松超过100万颗▽，容量已经完全能满足流片和高昂的招聘费用○•●。

　　仍以谷歌为例▽，Techinsight数据显示○○•，其2023年自用TPU就超200万颗，按年20亿美金研发成本计算-●，单颗分摊成本仅几千美金。

　　经济性的释放，直接驱动数据中心 ASIC 出货量持续攀升。据芯智讯援引 DIGITIMES 数据，ASIC 出货量将进入加速通道●□，2027 年将突破 1000 万颗，接近同期 GPU 1200 万颗的水平。

　　出货量激增将同步带动市场规模扩容☆▲★，AI 用 ASIC 有望快速成长为千亿美金赛道（对应单颗价值 1 万美元左右△，仅为英伟达 GPU 的 1/5-1/10）。作为大厂 ASIC 核心合作方，博通给出更乐观预期●★▽：2027 年大客户 ASIC 可服务市场将达 600-900 亿美元；Marvell 也预测，2028 年定制芯片将占数据中心加速计算市场 25% 的份额。

　　先说结论▪：在高速增长★、供不应求的算力需求这一大背景下，英伟达GPU作为基石的作用仍不可替代，但其份额将逐渐被ASIC蚕食。

　　我们将在长期看到长期二者共存态势：小型模型主导场景更利好 GPU 的灵活性□△，超大型模型持续增长则为 TPU 提供增长空间。

　　英伟达GPU是当前最昂贵的计算加速器◇，适配各类 AI 场景，客户粘性强，因为有两大优势。

　　英伟达明面上最大的优势在于算法生态：CUDA 生态与开发者习惯形成强壁垒□■•、同时英伟达 NVLink和InfiniBand长期主导 GPU 互联▼…。

　　所以中小模型与研发场景长期仍将以 GPU 为主-■；在大模型训推中，CUDA 生态仍领先其他方案至少一年半的时间。

　　就像即使设计水平一样，苹果的芯片也至少领先其他手机厂商一年，因为台积电最先进的芯片产能，苹果是包圆的▽◆◁。

　　● 代工产能优先：英伟达是台积电3nm 产能的优先合作伙伴，而谷歌等其他厂商在CoWoS 封装•▪○、3nm 芯片产能上面临竞争劣势▽。

　　●HBM优先锁定：全球仅 3 家 HBM 供应商（三星、海力士、美光），2026 年产能已售罄，2027 年仍可能供不应求，美光已明确表示不会因需求增加额外扩产，导致非英伟达客户产能得不到保障。

　　我们最新了解到谷歌TPU 在 2026 年上半年有超过50%的产能缺口导致难大规模交付、微软Maia 200也难产▽•◁，都是由于产业链产能限制◁。

　　●谷歌 TPU 在AI 计算年支出超10 亿美元超大型模型部署场景中已经有成本优势了，所以将持续渗透大厂内部市场；

　　●此外◁，UALink、Ultra Ethernet 等开放标准正在崛起，有望打破英伟达对互联的垄断◁▷。据测算-▲，在10万节点集群中，Ethernet架构相较英伟达InfiniBand，总拥有成本TCO最高可节省20%。

　　另外随着扩产，预计上游产能在2027 年逐步放量▼，供应链瓶颈开始缓解○◁。同时2027年训练与推理芯片资本开支占比将趋近 50▲:50，给ASIC更大施展自己的舞台。

　　如果说去年初我们对ASIC到底是否能分得一杯羹还存在犹豫的话，谷歌技术和商业闭环上的成功◇▽•，已经彻底打消了我们的疑虑。

　　自 2016 年首款 TPU V1 发布并用于数据中心推理以来持续进行迭代，其最新的 TPU v7 搭载 Inter-Chip Interconnect技术，可支持最多 9000 个节点的超大规模集群，信号损耗低。

　　硬件配置上▪○□，TPU 采用 HBM3E 内存，虽在容量和单系统算力上不及英伟达产品☆，但功耗与以太网成本更具优势，FP4 精度下每 PFLOPS 每小时成本仅 0.40 美元，性价比突出。

　　谷歌Nano Banana 等模型 100% 基于 TPU 完成训练与推理，也支撑其内部语音搜索▪、图片搜索等核心功能，成本低于 GPU，谷歌内部性能表现优异，在部分场景优于 GPU。

　　●Meta•，计划2026年租用 TPU，并从 2027 年开始购买超100万颗、价值数十亿美元的 TPU，用于 Llama 模型部署▽，通过以太网与功耗优化实现15%-20% TCO 节省；

　　●OpenAI 达成合作协议，将部分推理工作负载从英伟达芯片迁移至 TPU ★□■；

　　●潜在客户：部分新兴云厂商（如 Fluidstack-、TeraWulf）因 GCP 提供付款担保而尝试采用 TPU◇★。

　　英伟达的真正挑战者，并非 AMD、英特尔等同行，而是谷歌这样的跨界玩家==。

　　我们调研了解到□，单颗 TPU 芯片售价预计1—1□★.5 万美元，定价瞄准 AMD，意图通过低价挤压竞争对手▷，倒逼英伟达降价。仅 Meta 一家就可能为谷歌带来 10 亿美元以上的收入。

　　乐观测算，到 2027 年，TPU 可能抢占英伟达15% 的训练市场份额：现有英伟达用户迁移虽需时间◁…，但新增工作负载更易转向 TPU。Semianalysis更是预测2027年谷歌TPU（v6-v8）合计出货量达到600万颗。

　　这一预测并不激进 ——2027 年推理场景占比将达 50%，ASIC 将承担其中 50% 的工作负载，对应 ASIC 在算力芯片中的渗透率超 20%•▽▽，而谷歌 TPU 拿下其中一半份额（当前份额 75%）难度不大。

　　作为整个芯片行业最上游的EDA行业，Synopsys和Cadence最新的指引为：未来EDA 行业增长核心来自苹果•…、谷歌•▪□、特斯拉等 “系统公司□■”，而不是第三方芯片设计厂；具体来说，这类系统性客户占当前 EDA 营收的 45%左右，未来 2-3 年将超 50%●。

　　这意味着，大厂自研芯片◁，并通过外售摊薄成本（如谷歌、百度、阿里）的模式，将从今年起加速推进☆-。

　　03 谷歌示范效应下，大厂纷纷豪赌自研ASIC1.成本集约、降低功耗符合第一性原理

　　在《马斯克说▷●▷“中国将最终赢得AI竞争”，有什么深意？》一文中，我们提到，当前AI用电还只占美国用电的5%左右-▼◁，到2030年AI耗电占到10%，到2035年占比接近20%，未来更加缺电。

　　除了增加发电容量外，降低单芯片功耗也同样关键。ASIC对于大厂而言，不仅仅是降低成本，还能降低宝贵的额功耗。

　　GPU 作为通用计算芯片存在 30-40% 功能冗余，必定导致功耗浪费，而 ASIC可针对特定工作负载优化，降低成本与功耗，成为大厂的必选。

　　主流ASIC在算力性能上已基本对齐英伟达H系列GPU，但能效比优势突出，同代际芯片具体指标对比：

　　为搭上ASIC这班高速列车，海外云厂CSP纷纷加码自研ASIC•▼◇，并依托外部芯片设计合作伙伴简化落地难度•，核心合作厂商包括Marvell、Broadcom、Alchip等。

　　这是由于大厂仅具备部分自研能力，例如谷歌、亚马逊可完成前端设计（代码编写▽■▲、综合）◆，但物理层技术（如SerDes、交换机、相干光模块）存在高壁垒，需依赖外部成熟产品与IP，后端验证、流片等体力活也需外部支持▼…。

　　谷歌已深耕 TPU 十年，前文已有详细讨论；其他北美大厂则是近两年加速跟上，动作开始变大△▪■。

　　亚马逊：Trainium2于2023年发布，由16颗Trainium2芯片支持的EC2 Trn2实例◇-，性价比相较GPU-based实例高出30-40%□，目前已服务超200位客户，覆盖运营商、航空▪△、零售等领域，2024年出货量年增率突破200%，2025年预计增长70%以上，但项目有些延迟，未来将重点聚焦Trainium3芯片，投入公有云基础设施及电商平台AI应用。

　　Meta：MTIA系列专为推荐推理任务设计。2024年MTIA v2采用台积电5nm工艺▷•，TDP仅90W显著降低功耗…，可高效处理社交媒体内容推荐▷=、广告优化等内部任务▼○•；2025年推出MTIA v3◁▽=，将搭载HBM内存■…，2026年有望实现放量。

　　微软：2024年公布Maia 100，采用台积电5nm工艺与CoWoS-S技术，当前承载内部10%-20%工作载荷，聚焦大规模AI工作负载的成本与效率优化；随着 Maia 300 量产与 workload 适配深化，目标定制 ASIC 相较英伟达件成本节省80%，能耗成本降低 50%○◇▼，长期 TCO 优化达 80%；

　　OpenAI：2024年曝光首颗芯片，将采用台积电A16工艺，专为Sora视频应用打造，且与博通达成100亿美元合作，联合开发专属推理芯片，目标12个月内交付。

　　特斯拉：计划2025年底推出下一代Dojo 2芯片，性能有望媲美英伟达B200，核心服务于Dojo训练计算机项目。xAI则是正式启动x1芯片自研，计划今年量产-◁。

　　国内头部大厂自研 ASIC 的时间早于北美同行，但此前多为小打小闹●…•。在谷歌 TPU 验证可行性、英伟达芯片受限的双重驱动下，ASIC 已上升为核心战略，并已取得阶段性成果。

　　昆仑芯拥有 15 年技术积累■，一直锚定AI训练与推理加速的核心场景，兼容CUDA生态◇◆▽，目前已迭代至第三代。

　　昆仑芯2024年出货量6.9万片、营收20亿，2025年预计出货13万片、营收冲35亿▲。对外客户，实现万卡集群部署并中标中国移动10亿订单▼，实际上外部客户是2026年高增的主要来源◆，已进入中国移动▪☆、南方电网、比亚迪、招商银行、地方智算中心等供应链。

　　核心产品线包括倚天、含光、PPU三类，其中PPU作为大算力芯片是市场焦点，又分为两款主力产品：高端款单颗算力超300T、显存96G▲●◇，采用先进制程，仅以整机形式销售，2024-2025年合计出货估计30万张▷，低端款采用中芯国际12nm（N+1）工艺▽•，由灿芯负责后道IP及接口设计，单价不超2-3万元•▷，2026年Q1启动流片量产•■★，预计出货50万颗…。

　　销售模式以内部消化为主，对外销售需搭配阿里云方案▼，无独立适配场景●，2026年PPU整体出货预计80万颗。

　　字节跳动★-：字节布局CPU与ASIC两类芯片，自研进程落后于平头哥●◆▲、昆仑芯，当前采取•★“外采低端芯片+推进海外研发+国内先进制程排队”策略，2026年将完成海内外先进工艺设计，等待产能流片，计划2026年前实现量产-•。

　　腾讯：后发追赶，自研紧迫性较强，终止对燧原投资并重启“紫霄•▷=”自研项目▷，以数倍薪酬挖角顶尖人才●•，需求集中在游戏、AIGC、数字孪生等领域。

　　●主业挣钱不如海外大厂，股东对于内部芯片业务亏损不满，所以阿里百度都开始分拆上市平衡短期亏损与长期战略投入△；

　　●先进产能资源更加稀缺，国内由于美国的封锁，中芯国际等先进制程产能供不应求；

　　●配套AI芯片服务厂类似博通◇-、Marvell，由于制裁原因也很难为国内企业提供定制服务，国内相关的芯原股份、翱捷科技等在技术积累○…、IP沉淀…、经验上都有比较明显的差距。

　　AI 产业的竞争☆，已从模型算法的比拼，延伸到算力底层的硬核博弈★。ASIC 芯片凭借极致的能效比与成本优势，正在重塑全球 AI格局，成为巨头们构筑竞争壁垒的核心抓手•▪。

　　没有自研 ASIC 芯片□，在这场更烧钱●、更考验综合实力的 AI 竞赛中☆，终将失去话语权。芯片已经内化成生态的一环了，我们将在此后的文章中进一步展开▼。

　　对于国内企业而言，这既是顺应产业趋势的必然选择，也是直面挑战的艰难征程。尽管在盈利能力□★、先进产能、产业链配套等方面面临着比海外企业更严峻的考验，但自研 ASIC 已是无法回避的战略方向。

　　百度昆仑芯的稳步起量到阿里平头哥的分拆提速，都宣告2026是国内大厂加速转向之年★◆=。对此我们是偏乐观的，在技术攻坚与生态构建的持续投入下▷，国内企业终将在全球 ASIC 赛道占据一席之地。

　　本文系基于公开资料撰写□，仅作为信息交流之用，不构成任何投资建议。返回搜狐☆■，查看更多

上一篇：没有了下一篇：切实维护市场健康稳定发展

浙江6686体育电子

新闻中心

可支持最多 9000 个节点的超大规模集群