deepseek开源周第一天,FlashMLA,高效的 MLA解码内核。

deepseek开源周第一天,FlashMLA,高效的 MLA解码内核。

kyle

2025-02-25 发布90 浏览 · 0 点赞 · 0 收藏

 

这开源的 FlashMLA 是一个高效的 MLA(Multi-Head Latent Attention)解码内核,专为 NVIDIA Hopper 架构的 GPU(如 H800)优化。它针对变长序列进行了优化,并在实际生产环境中经过了验证。

主要特性:
BF16 支持:支持 BF16(Bfloat16)数据类型,适合高效的计算和内存使用。
分页 KV 缓存:使用分页机制管理键值(KV)缓存,块大小为 64,适合处理大规模序列。

高性能:
内存带宽:3000 GB/s(内存瓶颈场景)。
计算性能:580 TFLOPS(计算瓶颈场景,基于 BF16 数据类型)。

适用场景:
适用于需要高效解码的 NLP 任务,如大语言模型(LLM)的推理。
针对 Hopper GPU 架构优化,适合高性能计算需求。

https://atomgit.com/awesome-deepseek/FlashMLA

https://github.com/deepseek-ai/FlashMLA

---

文章来源:https://mp.weixin.qq.com/s/d7feL03ia-QmiUEIp_Oj_g

 

 

请前往 登录/注册 即可发表您的看法…