patches to make llama4 performant

2025-04-06 22:50:48 -04:00
parent 4b28b2a0b4
commit 37630fc6ef
10 changed files with 364 additions and 7 deletions
--- a/tests/e2e/multigpu/test_llama.py
+++ b/tests/e2e/multigpu/test_llama.py
@@ -500,9 +500,7 @@ class TestMultiGPULlama:
                ],
                "fsdp_config": {
                    "fsdp_version": 2,
-                    "fsdp_forward_prefetch": True,
-                    "fsdp_sync_module_states": True,
-                    "fsdp_use_orig_params": True,
+                    # "fsdp_forward_prefetch": True,  # not yet implemented in accelerate
                    "fsdp_offload_params": False,
                    "fsdp_cpu_ram_efficient_loading": False,
                    "fsdp_transformer_layer_cls_to_wrap": "LlamaDecoderLayer",