uniform routing:

2025-09-22 16:03:38 -04:00
parent 4ab9e3f58b
commit e5d2aebe16
1 changed files with 38 additions and 1 deletions
--- a/scripts/benchmarks/deepseek_v3_moe.py
+++ b/scripts/benchmarks/deepseek_v3_moe.py
@@ -65,6 +65,11 @@ def parse_args() -> argparse.Namespace:
    parser.add_argument("--warmup", type=int, default=5, help="Warmup iterations")
    parser.add_argument("--iters", type=int, default=25, help="Benchmark iterations")
    parser.add_argument("--seed", type=int, default=0, help="Random seed")
+    parser.add_argument(
+        "--uniform-routing",
+        action="store_true",
+        help="Override router to distribute tokens evenly across experts",
+    )
    parser.add_argument(
        "--group-size",
        type=int,
@@ -154,13 +159,45 @@ def main() -> None:  # pragma: no cover - CLI entrypoint

    with torch.no_grad():
        flat_inputs = inputs.view(-1, args.hidden_size)
-        topk_idx, _ = patched_module.gate(flat_inputs)
+        if args.uniform_routing:
+            total_assignments = flat_inputs.size(0) * args.top_k
+            base = total_assignments // args.n_experts
+            remainder = total_assignments % args.n_experts
+            counts = torch.full(
+                (args.n_experts,),
+                base,
+                dtype=torch.int64,
+                device=device,
+            )
+            if remainder:
+                counts[:remainder] += 1
+            assignments = torch.repeat_interleave(
+                torch.arange(args.n_experts, device=device), counts
+            )
+            assignments = assignments[torch.randperm(assignments.size(0))]
+            topk_idx = assignments.view(flat_inputs.size(0), args.top_k)
+        else:
+            topk_idx, _ = patched_module.gate(flat_inputs)
        tokens_per_expert = torch.bincount(
            topk_idx.reshape(-1), minlength=args.n_experts
        )
        min_tokens = int(tokens_per_expert.min().item())
        max_tokens = int(tokens_per_expert.max().item())

+    if args.uniform_routing:
+        weights = torch.full_like(topk_idx, 1.0 / args.top_k)
+
+        def _uniform_gate(self, hidden_states):
+            batch_tokens = hidden_states.shape[0]
+            return topk_idx[:batch_tokens], weights[:batch_tokens]
+
+        patched_module.gate.forward = _uniform_gate.__get__(
+            patched_module.gate, patched_module.gate.__class__
+        )
+        baseline_module.gate.forward = _uniform_gate.__get__(
+            baseline_module.gate, baseline_module.gate.__class__
+        )
+
    with torch.no_grad():
        ref_output = baseline_module(inputs)
        patched_output = patched_module(inputs)