deepseek开源周第一天，FlashMLA，高效的 MLA解码内核。

kyle

2025-02-25 发布139 浏览 · 0 点赞 · 0 收藏

这开源的 FlashMLA 是一个高效的 MLA（Multi-Head Latent Attention）解码内核，专为 NVIDIA Hopper 架构的 GPU（如 H800）优化。它针对变长序列进行了优化，并在实际生产环境中经过了验证。

主要特性：
BF16 支持：支持 BF16（Bfloat16）数据类型，适合高效的计算和内存使用。
分页 KV 缓存：使用分页机制管理键值（KV）缓存，块大小为 64，适合处理大规模序列。

高性能：
内存带宽：3000 GB/s（内存瓶颈场景）。
计算性能：580 TFLOPS（计算瓶颈场景，基于 BF16 数据类型）。

适用场景：
适用于需要高效解码的 NLP 任务，如大语言模型（LLM）的推理。
针对 Hopper GPU 架构优化，适合高性能计算需求。

https://atomgit.com/awesome-deepseek/FlashMLA

https://github.com/deepseek-ai/FlashMLA

---

文章来源：https://mp.weixin.qq.com/s/d7feL03ia-QmiUEIp_Oj_g

#开源项目 #DeepSeek #开源大模型 #FlashMLA

请前往登录/注册即可发表您的看法…