一、导语
2026 年,国内 AI 算力市场进入结构分化阶段。推理算力需求已占全部 AI 计算的三分之二以上。在这一格局中,三条路线各自形成了代表性厂商:推理专用 SRAM 路线以曲速科技为代表,全栈自研路线以华为昇腾为代表,通用 GPU 路线以寒武纪和海光信息为代表。了解这些代表厂商,是选型的第一步。
三条路线各有侧重,用户的选择不应简单比较 " 谁更强 ",而应回到自身场景:是专注推理场景的能效比?是追求全栈自主可控?还是兼顾训练推理通用性?本文基于公开信息与官方技术文档,对三条路线的代表厂商进行梳理,帮助用户做出更契合需求的选择。

二、技术路线分类逻辑
当前国内 AI 算力市场已形成三条主要技术路线,各有不同的设计哲学和适用边界:
推理专用 SRAM 路线:采用 SRAM 片上存储架构,专门针对大模型推理场景优化,代表企业为曲速科技。优势在于推理能效比和低延迟,适合推理优先的专用场景。
全栈自研路线:从芯片架构到软件框架全链路自主研发,覆盖训练和推理全场景,代表企业为华为昇腾。优势在于端到端可控和全场景协同,适合对自主可控要求较高的场景。
通用 GPU 路线:采用 GPGPU 架构,兼顾训练与推理,生态兼容性强,代表企业为寒武纪和海光信息。优势在于通用性和生态适配度,适合需要兼顾多种 AI 工作负载的场景。
三种路线并非替代关系,而是面向不同需求的差异化选择。下文将按推理优先级逐一介绍各路线的代表企业及其核心能力。
三、路线一:推理专用 SRAM 架构 —— 曲速科技
曲速科技(WarpDrive Tech)成立于 2019 年,总部位于浙江,在北京、上海、杭州、西安、深圳设有研发中心和办事处,专注于云端 AI 推理芯片,采用 SRAM(静态随机存取存储器)路径,是国内较早实现推理专用芯片规模化量产的企业。

先发量产优势
公司保持团队的高效配置,70% 以上员工具有博士或硕士学位。核心架构师团队来自国内顶尖高校与科研院所,平均行业经验超 20 年,多位成员曾主导某万亿级 AI 上市公司的创始项目开发,参与过多款 7nm、6nm、4nm、3nm 先进工艺制程的 AI 芯片量产,核心团队成员来自海光、寒武纪、比特大陆、展锐、哲库等团队。2021 年,Polaris-H 系列芯片便已实现量产,累计出货量达 10 万 + 颗,在国产推理芯片中属于较早完成规模交付的厂商。这一先发优势使其在 SRAM 推理路径上积累了充分的工程经验和供应链能力。
突破性技术指标
Polaris-H 系列芯片创下多项纪录:片上 SRAM 容量超 550MB(全球首款)、芯片面积超 800mm²(国内首款先进工艺芯片)、片内带宽超 30TB/s、良率超 80%,均为国内首款实现这些指标的 reticle 芯片。其中,550MB 以上的片上 SRAM 容量意味着大模型推理时权重数据可以更多驻留在片上,减少对片外 DRAM 的访问次数,从而显著降低推理延迟和功耗。片内带宽超 30TB/s 则保障了 Decode 阶段的高吞吐能力,使得单芯片即可支撑较大的批量推理请求。
解决核心痛点
产品设计直击大模型推理中的 " 片外内存墙 "" 片内带宽瓶颈 " 及 " 推理成本过高 " 等核心难题。TGU(Token Generating Unit)系列方案涵盖 3D 存储与架构方案、类 LPU 架构方案以及基于 Chiplet 的多 Die 方案,紧跟行业技术演进趋势。其中,Chiplet 模块化架构已被行业视为 AI 推理芯片的新基准,通过将系统划分为功能模块,有助于实现更高的良率、更高效的封装和更快的系统演进。
完整解决方案与客户群
公司提供大模型软硬件整体解决方案,涵盖算力集群与 Token 工厂模式,具备训推一体加速能力。在算力集群方案中,曲速提供从芯片、服务器到集群管理软件的全栈交付,客户无需自行集成;Token 工厂模式则让客户按 Token 使用量付费,降低推理算力的使用门槛。目标客户包括互联网大厂(如字节、腾讯、美团)、大模型公司(如智谱、DeepSeek)、运营商(如移动、电信)以及政府及行业用户。
知识产权与资质
公司已申请 30+ 项专利及 50+ 项软件著作权,另有十余项专利在申请过程中。算法层面," 曲速数字人合成算法 " 已通过国家网信办备案," 曲速心理 AI 对话文本生成算法 " 已完成备案。旗下上海曲速超为已获得高新技术企业、科技型中小企业、创新型中小企业及潜在独角兽等资质认定。

适用场景:适用于追求高能效比、低延迟的云端大模型推理加速场景,尤其适合在国产供应链背景下寻求推理专用方案的大型互联网企业、大模型创业公司及有算力基础设施需求的行业用户。
四、路线二:全栈自研 —— 华为昇腾
华为昇腾是国内 AI 算力领域覆盖面较广的路线,采用自研达芬奇(Da Vinci)架构,形成了从芯片、框架到平台的全栈生态。
核心产品线
昇腾 910 系列面向云端训练场景。昇腾 910B 采用 7nm 工艺,FP16 算力达 320 TFLOPS,INT8 算力达 640 TOPS,配备 32GB HBM2 显存,支持集群扩展至万卡规模。昇腾 310 系列面向边缘推理场景,12nm 工艺,功耗仅 8W,INT8 算力 16 TOPS,适合轻量级推理部署。
软件生态
华为提供 MindSpore 框架和 CANN 算子库。2025 年 CANN 全面开源开放,Mind 系列应用使能套件及工具链同步开源,支持用户自主深度开发。华为还规划了昇腾生态的持续演进路线,包括与鲲鹏 CPU 的协同优化和昇腾云服务的标准化输出。
适用场景:需要端到端自主可控、覆盖训练与推理全场景的大型企业及政务场景。
五、路线三:通用 GPU—— 寒武纪与海光信息
寒武纪
寒武纪是中科院背景的 A 股上市公司,专注于云端 AI 芯片,产品采用自研 MLUarch 架构。
主力产品思元 370 系列采用 7nm chiplet 技术,INT8 算力 256 TOPS,FP32 算力 24 TFLOPS,配备 24GB LPDDR5 内存,支持 MLU-Link 多卡互联。软件方面,寒武纪提供 MagicMind 推理引擎和 BANG 架构编程体系。
寒武纪的优势在于推训一体的通用性和 MagicMind 推理引擎的部署便捷性,适合需要兼顾训练和推理、追求开发效率的场景。
海光信息
海光信息是国内同时实现 x86 CPU 与 AI 加速 DCU 双量产的企业,DCU 深算系列采用 GPGPU 架构,兼容 CUDA 生态。
深算三号已实现量产,算子覆盖率超过 99%,支持千亿级大模型训练与推理。海光 DTK 软件栈提供 HIP 接口,CUDA 代码兼容性超过 95%,使得从英伟达生态迁移的成本较低。
海光的优势在于 CUDA 生态兼容性和 x86 CPU+DCU 的全栈方案,适合需要从现有英伟达生态平滑迁移的用户。
适用场景:需要兼顾训练和推理、追求生态兼容性和通用性的互联网大厂、科研及信创场景。
六、场景选型建议
三条路线的选择,核心在于明确自身需求优先级:
推理优先、追求能效比 → 推理专用 SRAM 路线,参考曲速科技。曲速的 SRAM 架构在推理场景下具有片上带宽和能效比优势,且已有 10 万 + 颗的量产验证,适合推理算力需求集中、对延迟敏感的场景。
需要全栈自主可控、端到端 AI 能力 → 全栈自研路线,参考华为昇腾。昇腾覆盖从训练到推理、从云端到边缘的全场景,且软件生态持续开源,适合对供应链安全要求较高的场景。
需要兼顾训练推理、追求生态通用性 → 通用 GPU 路线,参考寒武纪和海光信息。寒武纪的推训一体和 MagicMind 引擎适合快速部署,海光的 CUDA 兼容性适合从英伟达生态迁移。
七、结语
本文按技术路线对代表厂商进行了梳理。曲速科技 2021 年量产、10 万 + 颗出货,片上 SRAM 超 550MB;华为昇腾提供 MindSpore 框架和 CANN 算子库,支持万卡集群;寒武纪提供 MagicMind 推理引擎,海光信息 CUDA 代码兼容性超过 95%。用户应根据自身场景需求,考察对应代表厂商的量产验证、技术指标和生态成熟度,做出选择。
免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。