fix: revert changing default optimizer to muon (#2965) [skip ci]

2025-07-22 21:00:30 +07:00
parent 631268a0ca
commit 01d8175d48
6 changed files with 6 additions and 6 deletions
--- a/examples/gemma3n/gemma-3n-e2b-qlora.yml
+++ b/examples/gemma3n/gemma-3n-e2b-qlora.yml
@@ -53,7 +53,7 @@ wandb_log_model:
 gradient_accumulation_steps: 1
 micro_batch_size: 1
 num_epochs: 4
-optimizer: muon
+optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
 learning_rate: 0.0002

--- a/examples/gemma3n/gemma-3n-e2b-vision-audio-qlora.yml
+++ b/examples/gemma3n/gemma-3n-e2b-vision-audio-qlora.yml
@@ -60,7 +60,7 @@ wandb_log_model:
 gradient_accumulation_steps: 4
 micro_batch_size: 2
 num_epochs: 1
-optimizer: muon
+optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
 learning_rate: 0.0002

--- a/examples/gemma3n/gemma-3n-e2b-vision-qlora.yml
+++ b/examples/gemma3n/gemma-3n-e2b-vision-qlora.yml
@@ -55,7 +55,7 @@ wandb_log_model:
 gradient_accumulation_steps: 4
 micro_batch_size: 2
 num_epochs: 1
-optimizer: muon
+optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
 learning_rate: 0.0002

--- a/examples/llama-3-vision/lora-11b.yaml
+++ b/examples/llama-3-vision/lora-11b.yaml
@@ -39,7 +39,7 @@ wandb_log_model:
 gradient_accumulation_steps: 4
 micro_batch_size: 1
 num_epochs: 1
-optimizer: muon
+optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
 learning_rate: 0.0002

--- a/examples/llava/lora-7b.yaml
+++ b/examples/llava/lora-7b.yaml
@@ -35,7 +35,7 @@ wandb_log_model:
 gradient_accumulation_steps: 4
 micro_batch_size: 1
 num_epochs: 1
-optimizer: muon
+optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
 learning_rate: 0.0002

--- a/examples/pixtral/lora-12b.yml
+++ b/examples/pixtral/lora-12b.yml
@@ -35,7 +35,7 @@ wandb_log_model:
 gradient_accumulation_steps: 4
 micro_batch_size: 1
 num_epochs: 1
-optimizer: muon
+optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
 learning_rate: 0.0002