DeepSeek发布DeepGEMM:高效FP8 GEMM库,优化V3/R1训练与推理

2025-02-26 gate交易所

PANews2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出DeepGEMM,一个支持FP8GEMM的CUDA库,可用于稠密矩阵计算和混合专家(MoE)架构,优化V3/R1模型的训练和推理。

DeepGEMM关键特性:

•超高性能:在HopperGPU上实现1350+FP8TFLOPS

•极简依赖:无繁重依赖,代码简洁如教程

•JIT即时编译:无需预编译,运行时自动优化

•核心代码仅约300行,但在大多数矩阵尺寸下性能超越专家级优化内核

•支持稠密布局和两种MoE布局

风险提示

登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

本站为您提供gate交易所的注册地址、加密货币及区块链的科普文章以及行业资讯等内容.