tests: extend aux-free coverage

- add warmup, EP sync, and mixtral parity unit checks
2025-10-28 08:08:13 +00:00
parent a0019021dd
commit 949cdf01eb
1 changed files with 105 additions and 0 deletions
--- a/tests/unit/test_aux_free_adapters.py
+++ b/tests/unit/test_aux_free_adapters.py
@@ -1,8 +1,11 @@
+import os
 import sys
+import tempfile
 import unittest
 from types import SimpleNamespace

 import torch
+import torch.distributed as dist
 import torch.nn as nn
 from importlib import util as importlib_util
 from pathlib import Path
@@ -118,6 +121,33 @@ def _build_llama4_model():
    return DummyModel(layer), layer


+def _build_mixtral_model():
+    from transformers import MixtralConfig
+    from transformers.models.mixtral.modeling_mixtral import MixtralSparseMoeBlock
+
+    config = MixtralConfig(
+        hidden_size=16,
+        intermediate_size=32,
+        num_local_experts=4,
+        num_experts_per_tok=2,
+        num_attention_heads=2,
+        num_key_value_heads=2,
+    )
+    layer = MixtralSparseMoeBlock(config)
+    layer.config = config
+
+    class DummyModel(nn.Module):
+        def __init__(self, moe_layer):
+            super().__init__()
+            self.moe = moe_layer
+            self.config = SimpleNamespace(model_type="mixtral")
+
+        def forward(self, hidden_states):
+            return self.moe(hidden_states)
+
+    return DummyModel(layer), layer
+
+
 def _run_callback(plugin, cfg):
    callbacks = plugin.add_callbacks_post_trainer(cfg, trainer=SimpleNamespace())
    assert callbacks, "expected aux-free callback to be registered"
@@ -157,6 +187,81 @@ class TestAuxFreeAdapters(unittest.TestCase):
        self.assertEqual(torch.count_nonzero(layer._afb_counts), 0)
        self.assertFalse(torch.allclose(layer._afb_ema, torch.zeros_like(layer._afb_ema)))

+    def test_bias_warmup_respected(self):
+        model, block = _build_bailing_model()
+        cfg = _cfg(moe_afb_warmup_steps=2)
+        plugin = AuxFreeMoEPlugin()
+        plugin.post_model_build(cfg, model)
+
+        callbacks = plugin.add_callbacks_post_trainer(cfg, trainer=SimpleNamespace())
+        self.assertTrue(callbacks)
+        callback = callbacks[0]
+        dummy = SimpleNamespace()
+
+        def _step():
+            hidden = torch.randn(2, 3, block.config.hidden_size)
+            block(hidden)
+            callback.on_step_end(args=dummy, state=dummy, control=dummy)
+
+        # Warmup steps should leave bias untouched.
+        _step()
+        self.assertTrue(torch.allclose(block._afb_bias, torch.zeros_like(block._afb_bias)))
+
+        _step()
+        self.assertTrue(torch.allclose(block._afb_bias, torch.zeros_like(block._afb_bias)))
+
+        # Third step exceeds warmup -> bias should update.
+        _step()
+        self.assertGreater(torch.count_nonzero(block._afb_bias), 0)
+
+    def test_mixtral_adapter_respects_native_forward(self):
+        model, layer = _build_mixtral_model()
+        layer.jitter_noise = 0.0  # avoid stochasticity for comparison
+
+        hidden_dim = layer.config.hidden_size
+        hidden = torch.randn(2, 3, hidden_dim)
+        baseline_out, baseline_logits = layer(hidden.clone())
+
+        cfg = _cfg()
+        plugin = AuxFreeMoEPlugin()
+        plugin.post_model_build(cfg, model)
+
+        patched_out, patched_logits = layer(hidden.clone())
+        self.assertTrue(torch.allclose(baseline_out, patched_out))
+        self.assertTrue(torch.allclose(baseline_logits, patched_logits))
+        self.assertGreater(torch.count_nonzero(layer._afb_counts), 0)
+        _run_callback(plugin, cfg)
+
+    def test_ep_group_resolution_deferred_until_dist_ready(self):
+        if dist.is_available() and dist.is_initialized():
+            dist.destroy_process_group()
+
+        model, block = _build_bailing_model()
+        cfg = _cfg(moe_bias_sync_group="ep", expert_parallel_size=1)
+        plugin = AuxFreeMoEPlugin()
+        plugin.post_model_build(cfg, model)
+
+        self.assertIsNotNone(plugin._shim)
+        self.assertIsNone(plugin._shim.ep_group)
+
+        callbacks = plugin.add_callbacks_post_trainer(cfg, trainer=SimpleNamespace())
+        self.assertTrue(callbacks)
+        callback = callbacks[0]
+        dummy = SimpleNamespace()
+
+        tmp_init = tempfile.NamedTemporaryFile(delete=False)
+        tmp_init.close()
+        init_method = f"file://{tmp_init.name}"
+        dist.init_process_group(backend="gloo", init_method=init_method, world_size=1, rank=0)
+        try:
+            hidden = torch.randn(2, 3, block.config.hidden_size)
+            block(hidden)
+            callback.on_step_end(args=dummy, state=dummy, control=dummy)
+            self.assertIs(plugin._shim.ep_group, dist.group.WORLD)
+        finally:
+            dist.destroy_process_group()
+            os.unlink(tmp_init.name)
+

 if __name__ == "__main__":
    unittest.main()