stuff

2024-12-13 15:44:51 -05:00
parent c760d2b815
commit 60c98a4353
2 changed files with 10 additions and 11 deletions
--- a/src/axolotl/core/trainer_builder.py
+++ b/src/axolotl/core/trainer_builder.py
@@ -1319,6 +1319,10 @@ class TrainerBuilderBase(abc.ABC):
        if hasattr(model, "add_model_tags"):
            model.add_model_tags(["axolotl"])

+        if self.cfg.tensor_parallel == "auto" and self.model.supports_tp_plan:
+            os.environ["ACCELERATE_USE_TP"] = "true"
+            # self.model =
+
    @property
    def model_ref(self):
        return self._model_ref
--- a/src/axolotl/utils/models.py
+++ b/src/axolotl/utils/models.py
@@ -621,7 +621,6 @@ class ModelLoader:

        self.model_kwargs["device_map"] = device_map
        self.model_kwargs["torch_dtype"] = self.cfg.torch_dtype
-        self.model_kwargs["tp_plan"] = self.cfg.tensor_parallel

        cur_device = get_device_type()
        if "mps" in str(cur_device):
@@ -826,16 +825,6 @@ class ModelLoader:

            _ = _configure_zero3_memory_efficient_loading()

-            if self.cfg.tensor_parallel == "auto":
-                from accelerate import Accelerator
-
-                Accelerator()
-                rank = int(os.environ.get("LOCAL_RANK", 0))
-                os.environ["RANK"] = str(rank)
-                os.environ["WORLD_SIZE"] = os.getenv("WORLD_SIZE", "1")
-                device = torch.device(f"cuda:{rank}")
-                torch.distributed.init_process_group("nccl", device_id=device)
-
            if self.cfg.is_multimodal:
                self.model_config.text_config = self.text_model_config
            self.model = self.AutoModelLoader.from_pretrained(
@@ -1198,9 +1187,15 @@ class ModelLoader:
            gc.collect()
            torch.cuda.empty_cache()

+        self.post_loading_set_env()
+
        # TODO resume_from_checkpoint handling
        return self.model, lora_config

+    def post_loading_set_env(self):
+        if self.cfg.tensor_parallel == "auto" and self.model.supports_tp_plan:
+            os.environ["ACCELERATE_USE_TP"] = "true"
+

 def load_model(
    cfg: DictDefault,