Revert "checkpoint model on first step callback (#2906)"

This reverts commit 10ba1622f7.
2025-07-15 15:01:12 -04:00
parent 10ba1622f7
commit 6f6d917a99
146 changed files with 9 additions and 419 deletions
--- a/tests/e2e/patched/test_4d_multipack_llama.py
+++ b/tests/e2e/patched/test_4d_multipack_llama.py
@@ -55,7 +55,6 @@ class Test4dMultipackLlama(unittest.TestCase):
                "save_steps": 3,
                "eval_steps": 4,
                "fp16": True,
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
@@ -103,7 +102,6 @@ class Test4dMultipackLlama(unittest.TestCase):
                "save_steps": 3,
                "eval_steps": 4,
                "fp16": True,
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
--- a/tests/e2e/patched/test_activation_checkpointing.py
+++ b/tests/e2e/patched/test_activation_checkpointing.py
@@ -69,7 +69,6 @@ class TestActivationCheckpointing:
                "bf16": True,
                "save_safetensors": True,
                "gradient_checkpointing": gradient_checkpointing,
-                "save_first_step": False,
            }
        )

--- a/tests/e2e/patched/test_fa_xentropy.py
+++ b/tests/e2e/patched/test_fa_xentropy.py
@@ -62,7 +62,6 @@ class TestFAXentropyLlama:
                "optimizer": "adamw_8bit",
                "lr_scheduler": "cosine",
                "use_tensorboard": True,
-                "save_first_step": False,
            }
        )
        if is_torch_bf16_gpu_available():
--- a/tests/e2e/patched/test_falcon_samplepack.py
+++ b/tests/e2e/patched/test_falcon_samplepack.py
@@ -58,7 +58,6 @@ class TestFalconPatched(unittest.TestCase):
                "save_steps": 10,
                "eval_steps": 10,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
@@ -100,7 +99,6 @@ class TestFalconPatched(unittest.TestCase):
                "save_steps": 10,
                "eval_steps": 10,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
--- a/tests/e2e/patched/test_flattening.py
+++ b/tests/e2e/patched/test_flattening.py
@@ -61,7 +61,6 @@ class TestFAFlattening:
                "optimizer": "adamw_8bit",
                "lr_scheduler": "cosine",
                "use_tensorboard": True,
-                "save_first_step": False,
            }
        )
        if is_torch_bf16_gpu_available():
--- a/tests/e2e/patched/test_fused_llama.py
+++ b/tests/e2e/patched/test_fused_llama.py
@@ -53,7 +53,6 @@ class TestFusedLlama(unittest.TestCase):
                "max_steps": 10,
                "save_steps": 5,
                "eval_steps": 5,
-                "save_first_step": False,
            }
        )
        if is_torch_bf16_gpu_available():
--- a/tests/e2e/patched/test_llama_s2_attention.py
+++ b/tests/e2e/patched/test_llama_s2_attention.py
@@ -58,7 +58,6 @@ class TestLlamaShiftedSparseAttention(unittest.TestCase):
                "save_steps": 5,
                "eval_steps": 5,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )

@@ -101,7 +100,6 @@ class TestLlamaShiftedSparseAttention(unittest.TestCase):
                "save_steps": 5,
                "eval_steps": 5,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )

--- a/tests/e2e/patched/test_lora_llama_multipack.py
+++ b/tests/e2e/patched/test_lora_llama_multipack.py
@@ -55,7 +55,6 @@ class TestLoraLlama(unittest.TestCase):
                "learning_rate": 0.00001,
                "optimizer": "adamw_torch_fused",
                "lr_scheduler": "cosine",
-                "save_first_step": False,
            }
        )
        if is_torch_bf16_gpu_available():
@@ -109,7 +108,6 @@ class TestLoraLlama(unittest.TestCase):
                "learning_rate": 0.00001,
                "optimizer": "adamw_torch_fused",
                "lr_scheduler": "cosine",
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
--- a/tests/e2e/patched/test_mistral_samplepack.py
+++ b/tests/e2e/patched/test_mistral_samplepack.py
@@ -56,7 +56,6 @@ class TestMistral(unittest.TestCase):
                "save_steps": 3,
                "eval_steps": 4,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
@@ -98,7 +97,6 @@ class TestMistral(unittest.TestCase):
                "save_steps": 3,
                "eval_steps": 4,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
--- a/tests/e2e/patched/test_mixtral_samplepack.py
+++ b/tests/e2e/patched/test_mixtral_samplepack.py
@@ -52,7 +52,6 @@ class TestMixtral(unittest.TestCase):
                "save_steps": 3,
                "eval_steps": 4,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
@@ -91,7 +90,6 @@ class TestMixtral(unittest.TestCase):
                "save_steps": 3,
                "eval_steps": 4,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
--- a/tests/e2e/patched/test_model_patches.py
+++ b/tests/e2e/patched/test_model_patches.py
@@ -45,7 +45,6 @@ class TestModelPatches(unittest.TestCase):
                "max_steps": 20,
                "save_steps": 10,
                "eval_steps": 10,
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
@@ -79,7 +78,6 @@ class TestModelPatches(unittest.TestCase):
                "max_steps": 20,
                "save_steps": 10,
                "eval_steps": 10,
-                "save_first_step": False,
            }
        )
        cfg = validate_config(cfg)
--- a/tests/e2e/patched/test_peft_embeddings.py
+++ b/tests/e2e/patched/test_peft_embeddings.py
@@ -49,7 +49,6 @@ class TestLlamaPeftEmbeddings:
                "bf16": "auto",
                "save_safetensors": True,
                "embeddings_skip_upcast": True,
-                "save_first_step": False,
            }
        )

--- a/tests/e2e/patched/test_phi_multipack.py
+++ b/tests/e2e/patched/test_phi_multipack.py
@@ -54,7 +54,6 @@ class TestPhiMultipack(unittest.TestCase):
                "eval_steps": 3,
                "save_steps": 4,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )

@@ -106,7 +105,6 @@ class TestPhiMultipack(unittest.TestCase):
                "eval_steps": 3,
                "save_steps": 4,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )

--- a/tests/e2e/patched/test_resume.py
+++ b/tests/e2e/patched/test_resume.py
@@ -58,7 +58,6 @@ class TestResumeLlama:
                "max_steps": 15,
                "use_tensorboard": True,
                "save_safetensors": True,
-                "save_first_step": False,
            }
        )
        if is_torch_bf16_gpu_available():
--- a/tests/e2e/patched/test_sp.py
+++ b/tests/e2e/patched/test_sp.py
@@ -47,7 +47,6 @@ def fixture_cfg():
            "special_tokens": {
                "pad_token": "<|endoftext|>",
            },
-            "save_first_step": False,
        }
    )

--- a/tests/e2e/patched/test_unsloth_qlora.py
+++ b/tests/e2e/patched/test_unsloth_qlora.py
@@ -62,7 +62,6 @@ class TestUnslothQLoRA:
                "lr_scheduler": "cosine",
                "use_tensorboard": True,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )

@@ -113,7 +112,6 @@ class TestUnslothQLoRA:
                "lr_scheduler": "cosine",
                "use_tensorboard": True,
                "bf16": "auto",
-                "save_first_step": False,
            }
        )

@@ -169,7 +167,6 @@ class TestUnslothQLoRA:
                "lr_scheduler": "cosine",
                "use_tensorboard": True,
                "fp16": True,
-                "save_first_step": False,
            }
        )