bird-of-paradise
/

deepseek-mla

Text Generation

attention-mechanism

efficient-attention

Model card Files Files and versions Community

bird-of-paradise commited on Feb 11

Commit

2d7348d

·

1 Parent(s): 098730b

Update class names to MultiHeadLatentAttention

Files changed (3) hide show

src/__init__.py +2 -2
src/mla.py +1 -1
src/tests/test_mla.py +2 -2

src/__init__.py CHANGED Viewed

@@ -5,7 +5,7 @@ Copyright (c) 2025
 Implementation of the Multi-Latent Attention mechanism from the DeepSeek-V2 paper.
 """
-from .mla import MultiLatentAttention, precompute_freqs_cis, reshape_for_broadcast, apply_rotary_emb
 __version__ = "0.1.0"
-__all__ = ["MultiLatentAttention", "precompute_freqs_cis", "reshape_for_broadcast","apply_rotary_emb"]

 Implementation of the Multi-Latent Attention mechanism from the DeepSeek-V2 paper.
 """
+from .mla import MultiHeadLatentAttention, precompute_freqs_cis, reshape_for_broadcast, apply_rotary_emb
 __version__ = "0.1.0"
+__all__ = ["MultiHeadLatentAttention", "precompute_freqs_cis", "reshape_for_broadcast","apply_rotary_emb"]

src/mla.py CHANGED Viewed

@@ -58,7 +58,7 @@ def apply_rotary_emb(
-class MultiLatentAttention(nn.Module):
     """
         Multi-Head Latent Attention(MLA) Module As in DeepSeek_V2 pape
         Key innovation from standard MHA:

+class MultiHeadLatentAttention(nn.Module):
     """
         Multi-Head Latent Attention(MLA) Module As in DeepSeek_V2 pape
         Key innovation from standard MHA:

src/tests/test_mla.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import unittest
 import torch
-from ..mla import MultiLatentAttention  # Using relative import
 class TestMultiLatentAttention(unittest.TestCase):
     def setUp(self):
@@ -15,7 +15,7 @@ class TestMultiLatentAttention(unittest.TestCase):
         self.seq_len = 10
         # Initialize MLA
-        self.mla = MultiLatentAttention(
             d_model=self.d_model,
             num_head=self.num_head,
             d_embed=self.d_embed,

 import unittest
 import torch
+from ..mla import MultiHeadLatentAttention  # Using relative import
 class TestMultiLatentAttention(unittest.TestCase):
     def setUp(self):
         self.seq_len = 10
         # Initialize MLA
+        self.mla = MultiHeadLatentAttention(
             d_model=self.d_model,
             num_head=self.num_head,
             d_embed=self.d_embed,