MLog

属于我们的双语博客实验场

返回文章列表
AI底层算力优化#CUDA#LLM#GEMM#DeepSeek#FP8#ai-auto#github-hot

DeepGEMM:DeepSeek开源的高效FP8/FP4矩阵乘法内核库

发布于: 2026年4月21日更新于: 2026年4月21日阅读时长: 8 min

DeepGEMM是DeepSeek开源的统一高性能张量核心内核库,专为现代大语言模型设计。它支持FP8、FP4及BF16等多种精度的矩阵乘法(GEMM),并具备细粒度缩放能力。该项目设计轻量,性能媲美甚至超越专家调优库,近期新增了Mega MoE与FP8xFP4混合精度支持,是底层AI算力优化的重要工具。

发布快照卡

数据来源: Publish Baseline

Stars

6,823

Forks

902

Open Issues

67

快照时间: 2026/04/21 00:00

项目概览

在大型语言模型(LLM)的训练与推理中,底层算力优化是降低成本的核心。DeepGEMM(项目地址:https://github.com/deepseek-ai/DeepGEMM )是由DeepSeek开源的一个统一且高性能的张量核心(Tensor Core)内核库。该项目专注于为现代大语言模型提供关键的计算原语,特别是支持细粒度缩放(fine-grained scaling)的FP8、FP4及BF16精度的矩阵乘法(GEMM)。

近期该项目热度攀升,主要源于其2026年4月16日的重大更新:引入了Mega MoE架构支持、FP8xFP4混合精度GEMM、FP4索引器(Indexer)及PDL,并提升了JIT编译速度。在追求极致显存效率和计算密度的今天,DeepGEMM以其轻量级的代码设计和媲美甚至超越专家调优库的性能表现,成为了AI底层算力优化领域的重要开源基础设施。

核心能力与适用边界

核心能力: DeepGEMM提供了一套干净且高效的CUDA内核实现。其核心能力在于处理低精度(如FP8和FP4)的矩阵乘法,并支持细粒度缩放技术,这对于缓解低精度计算中的数值溢出和精度损失至关重要。项目虽然借鉴了NVIDIA官方CUTLASS和CuTe库的部分先进概念,但在架构设计上刻意保持了轻量化,避免了复杂的模板嵌套,从而实现了更快的编译速度和更高的代码可读性。此外,它还提供了针对特定模型架构(如DeepSeek v3.2)优化的定制化内核(如加权ReLU MQA logits)。

适用边界

  • 推荐使用人群:AI基础设施工程师、深度学习框架开发者、致力于优化大模型推理/训练性能的底层算法研究员,以及需要学习高质量CUDA内核编写的开发者。
  • 不推荐使用人群:仅需要调用大模型API构建上层应用的产品开发者;缺乏CUDA编程基础的初学者;以及运行环境不包含支持现代张量核心(如NVIDIA Hopper/Ada Lovelace架构)GPU的用户。

观点与推断

基于上述事实,可得出以下推断:

首先,项目密集推出FP4及FP8xFP4混合精度支持,暗示AI行业正加速向Sub-8-bit量化时代迈进,极低精度计算已成为突破显存带宽瓶颈的必然选择。

其次,项目中包含针对DeepSeek v3.2的评分内核及Mega MoE支持,表明其并非实验性玩具,而是DeepSeek生产环境依赖的底层基石。这种“吃狗粮”模式意味着该库在真实分布式集群中经过了严苛检验,稳定性有极高保障。

最后,项目选择“借鉴但不重度依赖CUTLASS”的设计哲学,推断是为了在性能与可维护性间寻找更优解。CUTLASS庞大的模板元编程常导致极长编译时间,DeepGEMM通过轻量化设计和更快的JIT编译,显著降低了工程门槛。

30分钟上手路径

对于具备CUDA开发经验的工程师,可通过以下步骤快速验证DeepGEMM的性能:

  1. 环境准备:确保拥有一台配备NVIDIA现代GPU(强烈建议使用支持FP8/FP4硬件加速的Hopper架构)的服务器,并安装最新版本的CUDA Toolkit及PyTorch环境。
  2. 获取源码:通过命令行执行 git clone https://github.com/deepseek-ai/DeepGEMM.git 将项目克隆至本地。
  3. 阅读文档与依赖安装:进入项目目录,查阅README文档,确保满足所有C++和Python依赖。由于项目采用MIT协议,可直接在企业内部环境中进行测试。
  4. 编译与运行:利用项目提供的JIT编译脚本或构建系统编译CUDA内核。由于2026年4月的更新优化了JIT速度,此过程应较为迅速。
  5. 基准测试(Benchmarking):运行项目内置的性能对比脚本(如针对不同矩阵形状的FP8 GEMM测试),观察其在特定硬件上与标准cuBLAS或CUTLASS库的吞吐量差异,验证其“媲美或超越专家调优库”的特性。

风险与限制

  • 硬件成本与兼容性限制:DeepGEMM的核心优势(FP8/FP4计算)高度绑定NVIDIA的最新一代硬件架构。若在较旧的GPU(如Ampere或更早架构)上运行,可能无法获得预期的硬件加速效果,甚至面临兼容性问题,这带来了较高的硬件采购成本。
  • 维护与演进风险:作为一个由单一AI企业主导的开源项目,其功能演进路线大概率会优先服务于DeepSeek自身的模型架构(如MoE和特定版本的模型)。如果未来社区需求与企业内部需求发生分歧,某些通用特性的维护优先级可能会降低。
  • 技术门槛与集成成本:尽管代码设计轻量,但将自定义的CUDA内核集成到现有的复杂训练或推理框架(如vLLM、TGI)中,仍需要极高的底层开发能力,调试成本较高。
  • 数据安全与合规:作为底层的数学计算库,DeepGEMM本身不涉及数据收集或网络传输,但在处理敏感的行业大模型数据时,用户需自行在显存级别和应用层级做好数据隔离与加密,确保符合当地的数据隐私合规要求。

证据来源