use smaller pretrained models for ci (#3620) [skip ci]

* use smaller pretrained models for ci * more steps for loss check * fix tests * more train steps * fix losses
2026-04-27 13:22:56 -04:00
parent 798c8fba89
commit ac77da96da
24 changed files with 716 additions and 288 deletions
--- a/tests/e2e/multigpu/test_fsdp2_lora_kernels.py
+++ b/tests/e2e/multigpu/test_fsdp2_lora_kernels.py
@@ -40,7 +40,7 @@ def _run_training(temp_dir, cfg):
 def _base_lora_fsdp2_config(temp_dir, **overrides):
    """Base config for LoRA + FSDP2 + kernel tests."""
    cfg = {
-        "base_model": "Qwen/Qwen3-0.6B",
+        "base_model": "axolotl-ai-co/tiny-qwen3-129m",
        "sequence_len": 512,
        "val_set_size": 0.0,
        "datasets": [