
deepseek开源周第一天,FlashMLA,高效的 MLA解码内核。
2025-02-25 发布90 浏览 · 0 点赞 · 0 收藏
这开源的 FlashMLA 是一个高效的 MLA(Multi-Head Latent Attention)解码内核,专为 NVIDIA Hopper 架构的 GPU(如 H800)优化。它针对变长序列进行了优化,并在实际生产环境中经过了验证。
主要特性:
BF16 支持:支持 BF16(Bfloat16)数据类型,适合高效的计算和内存使用。
分页 KV 缓存:使用分页机制管理键值(KV)缓存,块大小为 64,适合处理大规模序列。
高性能:
内存带宽:3000 GB/s(内存瓶颈场景)。
计算性能:580 TFLOPS(计算瓶颈场景,基于 BF16 数据类型)。
适用场景:
适用于需要高效解码的 NLP 任务,如大语言模型(LLM)的推理。
针对 Hopper GPU 架构优化,适合高性能计算需求。
https://atomgit.com/awesome-deepseek/FlashMLA
https://github.com/deepseek-ai/FlashMLA
---
文章来源:https://mp.weixin.qq.com/s/d7feL03ia-QmiUEIp_Oj_g
请前往 登录/注册 即可发表您的看法…