Rank 0-only logging (#2608)

Co-authored-by: Wing Lian <wing@axolotl.ai>
2025-05-28 14:57:30 +01:00
parent 5fca214108
commit 65c5481120
135 changed files with 454 additions and 378 deletions
--- a/examples/llama-3/lora-1b.yml
+++ b/examples/llama-3/lora-1b.yml
@@ -5,7 +5,7 @@ base_model: NousResearch/Llama-3.2-1B
 datasets:
  - path: teknium/GPT4-LLM-Cleaned
    type: alpaca
-dataset_prepared_path: last_run_prepared
+
 val_set_size: 0.1
 output_dir: ./outputs/lora-out
@@ -38,6 +38,7 @@ wandb_log_model:
 gradient_accumulation_steps: 2
 micro_batch_size: 2
 num_epochs: 1
 optimizer: adamw_8bit
 lr_scheduler: cosine
 learning_rate: 0.0002
--- a/src/axolotl/cli/checks.py
+++ b/src/axolotl/cli/checks.py
@@ -1,6 +1,5 @@
 """Various checks for Axolotl CLI."""
 import logging
 import os
 from pathlib import Path
@@ -8,7 +7,9 @@ from accelerate.commands.config import config_args
 from huggingface_hub import HfApi
 from huggingface_hub.utils import LocalTokenNotFoundError
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 def check_accelerate_default_config() -> None:
--- a/src/axolotl/cli/config.py
+++ b/src/axolotl/cli/config.py
@@ -1,7 +1,6 @@
 """Configuration loading and processing."""
 import json
 import logging
 import os
 import tempfile
 from pathlib import Path
@@ -22,11 +21,12 @@ from axolotl.utils.config import (
    validate_config,
 )
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from axolotl.utils.mlflow_ import setup_mlflow_env_vars
 from axolotl.utils.trainer import prepare_opinionated_env, prepare_optim_env
 from axolotl.utils.wandb_ import setup_wandb_env_vars
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__, use_environ=True)
 def check_remote_config(config: Union[str, Path]) -> Union[str, Path]:
@@ -119,12 +119,12 @@ def choose_config(path: Path) -> str:
        )
    if len(yaml_files) == 1:
-        print(f"Using default YAML file '{yaml_files[0]}'")
+        LOG.info(f"Using default YAML file '{yaml_files[0]}'")
        return str(yaml_files[0])
-    print("Choose a YAML file:")
+    LOG.info("Choose a YAML file:")
    for idx, file in enumerate(yaml_files):
-        print(f"{idx + 1}. {file}")
+        LOG.info(f"{idx + 1}. {file}")
    chosen_file = None
    while chosen_file is None:
@@ -133,9 +133,9 @@ def choose_config(path: Path) -> str:
            if 1 <= choice <= len(yaml_files):
                chosen_file = str(yaml_files[choice - 1])
            else:
-                print("Invalid choice. Please choose a number from the list.")
+                LOG.info("Invalid choice. Please choose a number from the list.")
        except ValueError:
-            print("Invalid input. Please enter a number.")
+            LOG.info("Invalid input. Please enter a number.")
    return chosen_file
--- a/src/axolotl/cli/evaluate.py
+++ b/src/axolotl/cli/evaluate.py
@@ -1,6 +1,5 @@
 """CLI to run evaluation on a model."""
 import logging
 import os
 from pathlib import Path
 from typing import Union
@@ -17,8 +16,9 @@ from axolotl.common.datasets import load_datasets, load_preference_datasets
 from axolotl.evaluate import evaluate
 from axolotl.utils import patch_optimized_env
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def do_evaluate(cfg: DictDefault, cli_args: TrainerCliArgs) -> None:
--- a/src/axolotl/cli/inference.py
+++ b/src/axolotl/cli/inference.py
@@ -1,7 +1,6 @@
 """CLI to run inference on a trained model."""
 import importlib
 import logging
 import sys
 from pathlib import Path
 from threading import Thread
@@ -22,8 +21,9 @@ from axolotl.utils.chat_templates import (
    get_chat_template_from_config,
 )
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def get_multi_line_input() -> str:
--- a/src/axolotl/cli/main.py
+++ b/src/axolotl/cli/main.py
@@ -2,7 +2,6 @@
 # pylint: disable=redefined-outer-name
 import logging
 import os
 import subprocess  # nosec B404
 import tempfile
@@ -31,8 +30,11 @@ from axolotl.cli.utils import (
 )
 from axolotl.integrations.lm_eval.cli import lm_eval
 from axolotl.utils import patch_optimized_env
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.config import AxolotlInputConfig
 LOG = get_logger(__name__)
@click.group()
@click.version_option(version=axolotl.__version__, prog_name="axolotl")
@@ -177,7 +179,7 @@ def train(
                    do_cli(config=cfg_file, **kwargs)
        except subprocess.CalledProcessError as exc:
-            logging.error(f"Failed to train/fine-tune config '{cfg_file}': {exc}")
+            LOG.error(f"Failed to train/fine-tune config '{cfg_file}': {exc}")
            if not sweep:
                raise exc
--- a/src/axolotl/cli/merge_lora.py
+++ b/src/axolotl/cli/merge_lora.py
@@ -1,6 +1,5 @@
 """CLI to merge a trained LoRA into a base model."""
 import logging
 from pathlib import Path
 from typing import Union
@@ -13,8 +12,9 @@ from axolotl.cli.art import print_axolotl_text_art
 from axolotl.cli.config import load_cfg
 from axolotl.cli.utils import load_model_and_tokenizer
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def do_merge_lora(*, cfg: DictDefault) -> None:
--- a/src/axolotl/cli/merge_sharded_fsdp_weights.py
+++ b/src/axolotl/cli/merge_sharded_fsdp_weights.py
@@ -1,7 +1,6 @@
 """CLI to merge sharded FSDP model checkpoints into a single combined checkpoint."""
 import json
 import logging
 import os
 import shutil
 from pathlib import Path
@@ -27,8 +26,9 @@ from torch.distributed.checkpoint.format_utils import _EmptyStateDictLoadPlanner
 from axolotl.cli.args import TrainerCliArgs
 from axolotl.cli.art import print_axolotl_text_art
 from axolotl.cli.config import load_cfg
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class BFloat16CastPlanner(_EmptyStateDictLoadPlanner):
--- a/src/axolotl/cli/preprocess.py
+++ b/src/axolotl/cli/preprocess.py
@@ -1,6 +1,5 @@
 """CLI to run preprocessing of a dataset."""
 import logging
 import warnings
 from pathlib import Path
 from typing import Union
@@ -20,9 +19,10 @@ from axolotl.common.const import DEFAULT_DATASET_PREPARED_PATH
 from axolotl.common.datasets import load_datasets, load_preference_datasets
 from axolotl.integrations.base import PluginManager
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from axolotl.utils.trainer import disable_datasets_caching
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def do_preprocess(cfg: DictDefault, cli_args: PreprocessCliArgs) -> None:
--- a/src/axolotl/cli/quantize.py
+++ b/src/axolotl/cli/quantize.py
@@ -2,7 +2,6 @@
 CLI to post-training quantize a model using torchao
 """
 import logging
 from pathlib import Path
 from typing import Union
@@ -11,9 +10,10 @@ from transformers import AutoModelForCausalLM
 from axolotl.cli.art import print_axolotl_text_art
 from axolotl.cli.config import load_cfg
 from axolotl.loaders import load_tokenizer
 from axolotl.utils.logging import get_logger
 from axolotl.utils.quantization import TorchIntDType, quantize_model_for_ptq
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def do_quantize(
--- a/src/axolotl/cli/train.py
+++ b/src/axolotl/cli/train.py
@@ -1,7 +1,6 @@
 """CLI to run training on a model."""
 import gc
 import logging
 import os
 from pathlib import Path
 from typing import Union
@@ -22,8 +21,6 @@ from axolotl.utils import patch_optimized_env
 from axolotl.utils.config import normalize_config, resolve_dtype
 from axolotl.utils.dict import DictDefault
 LOG = logging.getLogger(__name__)
 def do_train(cfg: DictDefault, cli_args: TrainerCliArgs):
    """
--- a/src/axolotl/cli/utils.py
+++ b/src/axolotl/cli/utils.py
@@ -4,7 +4,6 @@ import concurrent.futures
 import dataclasses
 import hashlib
 import json
 import logging
 from functools import wraps
 from pathlib import Path
 from types import NoneType
@@ -23,8 +22,9 @@ from transformers import (
 from axolotl.loaders import load_processor, load_tokenizer
 from axolotl.loaders.model import ModelLoader
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def strip_optional_type(field_type: type | str | None):
--- a/src/axolotl/common/datasets.py
+++ b/src/axolotl/common/datasets.py
@@ -1,6 +1,5 @@
 """Dataset loading utilities."""
 import logging
 import math
 import random
 from dataclasses import dataclass
@@ -14,10 +13,11 @@ from axolotl.loaders import load_processor, load_tokenizer
 from axolotl.utils.data import prepare_dataset
 from axolotl.utils.data.rl import load_prepare_preference_datasets
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.enums import RLType
 from axolotl.utils.tokenization import check_dataset_labels
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
@dataclass
--- a/src/axolotl/core/chat/messages.py
+++ b/src/axolotl/core/chat/messages.py
@@ -156,7 +156,6 @@ class Messages(BaseModel):
                        len(input_ids) : len(input_ids) + len(pending_input_ids)
                    ]
                    if new_pending_inputs != pending_input_ids:
                        # logging.warning("tokenization mismatch from concatenation.")
                        pending_input_ids = new_pending_inputs
                    input_ids.extend(pending_input_ids)
                    if pending_weight:
--- a/src/axolotl/core/trainer_builder.py
+++ b/src/axolotl/core/trainer_builder.py
@@ -19,7 +19,6 @@ import abc
 import importlib
 import importlib.util
 import inspect
 import logging
 import math
 import os
 import sys
@@ -88,6 +87,7 @@ from axolotl.utils.collators import (
    V2BatchSamplerDataCollatorForSeq2Seq,
 )
 from axolotl.utils.collators.mm_chat import MultiModalChatDataCollator
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.enums import CustomSupportedOptimizers, RLType
 try:
@@ -95,7 +95,7 @@ try:
 except ImportError:
    pass
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class TrainerBuilderBase(abc.ABC):
--- a/src/axolotl/core/trainers/base.py
+++ b/src/axolotl/core/trainers/base.py
@@ -4,7 +4,6 @@
 from __future__ import annotations
 import logging
 import os
 from collections import defaultdict
 from functools import wraps
@@ -34,9 +33,10 @@ from axolotl.core.trainers.utils import (
    sanitize_kwargs_for_ds_tagging,
    sanitize_kwargs_for_tagging,
 )
 from axolotl.utils.logging import get_logger
 from axolotl.utils.samplers import MultipackBatchSampler, get_dataset_lengths
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class AxolotlTrainer(SchedulerMixin, OptimizerMixin, RngLoaderMixin, Trainer):
--- a/src/axolotl/core/trainers/grpo/init.py
+++ b/src/axolotl/core/trainers/grpo/init.py
@@ -2,7 +2,6 @@
 import importlib
 import inspect
 import logging
 from typing import Any
 from trl.trainer.grpo_trainer import RewardFunc
@@ -13,9 +12,10 @@ from axolotl.core.trainers.grpo.trainer import (
    AxolotlGRPOTrainer,
 )
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.trl import TRLConfig
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class GRPOStrategy:
--- a/src/axolotl/core/trainers/mixins/optimizer.py
+++ b/src/axolotl/core/trainers/mixins/optimizer.py
@@ -1,18 +1,17 @@
 """Module for Axolotl trainer optimizer mixin"""
 import logging
 from peft.optimizers import create_loraplus_optimizer
 from torch import nn
 from transformers.trainer import Trainer
 from transformers.utils import is_sagemaker_mp_enabled
 from axolotl.integrations.base import BaseOptimizerFactory
 from axolotl.utils.logging import get_logger
 if is_sagemaker_mp_enabled():
    import smdistributed.modelparallel.torch as smp
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class OptimizerMixin(Trainer):
--- a/src/axolotl/core/trainers/mixins/rng_state_loader.py
+++ b/src/axolotl/core/trainers/mixins/rng_state_loader.py
@@ -6,7 +6,6 @@ See https://github.com/huggingface/transformers/pull/37162
 TODO: Remove when upstream added PR to release
 """
 import logging
 import os
 import random
@@ -17,7 +16,9 @@ from transformers.trainer import safe_globals
 from transformers.trainer_pt_utils import set_rng_state_for_device
 from transformers.training_args import ParallelMode
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 class RngLoaderMixin(Trainer):
--- a/src/axolotl/core/trainers/mixins/scheduler.py
+++ b/src/axolotl/core/trainers/mixins/scheduler.py
@@ -1,12 +1,11 @@
 """Module for Axolotl trainer scheduler mixin"""
 import logging
 import torch
 from torch.optim.lr_scheduler import LRScheduler, OneCycleLR
 from transformers.trainer import Trainer
 from axolotl.integrations.base import PluginManager
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schedulers import (
    RexLR,
    get_cosine_schedule_with_min_lr,
@@ -14,7 +13,7 @@ from axolotl.utils.schedulers import (
    get_cosine_schedule_with_warmup_decay_constant,
 )
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class SchedulerMixin(Trainer):
@@ -80,13 +79,15 @@ class SchedulerMixin(Trainer):
                self.lr_scheduler = RexLR(
                    optimizer=optimizer,
                    max_lr=self.args.learning_rate,
-                    min_lr=0 if not use_cosine_min_lr else (self.args.learning_rate * self.args.cosine_min_lr_ratio),
+                    min_lr=0 if not use_cosine_min_lr else (
                        self.args.learning_rate * self.args.cosine_min_lr_ratio),
                    total_steps=num_training_steps,
                    num_warmup_steps=self.args.get_warmup_steps(num_training_steps),
                )
            elif use_cosine_quadratic:
                if use_cosine_min_lr:
-                    LOG.warning("Both cosine quadratic warmup and min lr detected. Using quadratic warmup.")
+                    LOG.warning(
                        "Both cosine quadratic warmup and min lr detected. Using quadratic warmup.")
                self.lr_scheduler = get_cosine_schedule_with_quadratic_warmup(  # pylint: disable=attribute-defined-outside-init
                    optimizer,
@@ -115,9 +116,11 @@ class SchedulerMixin(Trainer):
                return super().create_scheduler(num_training_steps, optimizer=optimizer)
        else:
            if use_cosine_quadratic:
-                LOG.warning("axolotl's cosine scheduler with quadratic warmup not used (e.g., because of deepspeed).")
+                LOG.warning(
                    "axolotl's cosine scheduler with quadratic warmup not used (e.g., because of deepspeed).")
            if use_cosine_min_lr:
-                LOG.warning("axolotl's cosine scheduler with min lr not used (e.g., because of deepspeed).")
+                LOG.warning(
                    "axolotl's cosine scheduler with min lr not used (e.g., because of deepspeed).")
        return self.lr_scheduler  # type: ignore
--- a/src/axolotl/datasets.py
+++ b/src/axolotl/datasets.py
@@ -1,12 +1,13 @@
 """Module containing Dataset functionality"""
 import logging
 import os
 from typing import List, Optional, Union
 import torch
 from datasets import Dataset, IterableDataset
 from axolotl.utils.logging import get_logger
 from .prompt_tokenizers import PromptTokenizingStrategy
 # We want this to be a wrapper for an existing dataset that we have loaded
@@ -15,7 +16,7 @@ from .prompt_tokenizers import PromptTokenizingStrategy
 # let's check to ensure we don't truncate an item in the middle, we'll use
 # the collators later on to pad the datasets
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__)
 class TokenizedPromptDataset(Dataset):
--- a/src/axolotl/integrations/base.py
+++ b/src/axolotl/integrations/base.py
@@ -22,7 +22,6 @@ from __future__ import annotations
 import collections
 import importlib
 import logging
 from typing import TYPE_CHECKING, Callable, OrderedDict, Union
 from peft import PeftModel
@@ -31,6 +30,9 @@ from torch.optim.lr_scheduler import LRScheduler
 from transformers import PreTrainedModel, Trainer
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 if TYPE_CHECKING:
    from axolotl.common.datasets import TrainDatasetMeta
@@ -331,12 +333,12 @@ class PluginManager:
            ImportError: If the plugin module cannot be imported.
        """
        try:
-            logging.info(f"Attempting to load plugin: {plugin_name}")
+            LOG.info(f"Attempting to load plugin: {plugin_name}")
            plugin = load_plugin(plugin_name)
            self.plugins[plugin_name] = plugin
-            logging.info(f"Plugin loaded successfully: {plugin_name}")
+            LOG.info(f"Plugin loaded successfully: {plugin_name}")
        except ImportError:
-            logging.error(f"Failed to load plugin: {plugin_name}")
+            LOG.error(f"Failed to load plugin: {plugin_name}")
    def get_input_args(self) -> list[str]:
        """Returns a list of Pydantic classes for all registered plugins' input arguments.'
--- a/src/axolotl/integrations/cut_cross_entropy/init.py
+++ b/src/axolotl/integrations/cut_cross_entropy/init.py
@@ -19,17 +19,16 @@ Cut Cross Entropy is an optimized implementation of cross entropy loss
 from Apple's ML team.
 """
 import importlib
 import logging
 import torch
 from axolotl.integrations.base import BasePlugin
 from axolotl.utils import get_pytorch_version
-from axolotl.utils.distributed import is_main_process
+from axolotl.utils.logging import get_logger
 from .args import CutCrossEntropyArgs  # pylint: disable=unused-import. # noqa: F401
-LOG = logging.getLogger("axolotl.integrations.cut_cross_entropy")
+LOG = get_logger(__name__, use_environ=True)
 _CCE_INSTALL_MESSAGE = (
    "Please install cut_cross_entropy with transformers support using "
@@ -76,10 +75,9 @@ class CutCrossEntropyPlugin(BasePlugin):
                cce_patch,
            )
-            if is_main_process(use_environ=True):
+            LOG.info(
-                LOG.info(
+                f"Applying Cut Cross Entropy to model type: {cfg.model_config_type}"
-                    f"Applying Cut Cross Entropy to model type: {cfg.model_config_type}"
+            )
                )
            # The patch checks model_type internally
            cce_patch(cfg.model_config_type)
--- a/src/axolotl/integrations/cut_cross_entropy/args.py
+++ b/src/axolotl/integrations/cut_cross_entropy/args.py
@@ -15,12 +15,13 @@
 """
 Module for handling Cut Cross Entropy input arguments.
 """
 import logging
 from typing import Optional
 from pydantic import BaseModel, model_validator
-LOG = logging.getLogger("axolotl.integrations.cut_cross_entropy.args")
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 class CutCrossEntropyArgs(BaseModel):
--- a/src/axolotl/integrations/grokfast/init.py
+++ b/src/axolotl/integrations/grokfast/init.py
@@ -2,15 +2,15 @@
 Grokfast plugin for Axolotl
 """
 import logging
 from transformers.trainer_callback import TrainerCallback
 from axolotl.utils.logging import get_logger
 from ..base import BasePlugin
 from .args import GrokfastArgs  # pylint: disable=unused-import. # noqa: F401
 from .optimizer import gradfilter_ema
-LOG = logging.getLogger("axolotl.integrations.grokfast")
+LOG = get_logger(__name__)
 class GrokfastCallbackHandler(TrainerCallback):
--- a/src/axolotl/integrations/liger/init.py
+++ b/src/axolotl/integrations/liger/init.py
@@ -19,16 +19,15 @@ Liger Kernel is the collection of Triton-native kernels for LLM Training.
 It is designed to be performant, correct, and light-weight.
 """
 import inspect
 import logging
 import sys
 from axolotl.integrations.base import BasePlugin
-from axolotl.utils.distributed import is_main_process
+from axolotl.utils.logging import get_logger
 from .args import LigerArgs  # pylint: disable=unused-import. # noqa: F401
 from .utils import patch_with_compile_disable
-LOG = logging.getLogger("axolotl.integrations.liger")
+LOG = get_logger(__name__, use_environ=True)
 class LigerPlugin(BasePlugin):
@@ -85,10 +84,7 @@ class LigerPlugin(BasePlugin):
                kwargs["geglu"] = cfg.liger_glu_activation
            elif "swiglu" in liger_fn_sig.parameters:
                kwargs["swiglu"] = cfg.liger_glu_activation
-            if is_main_process(use_environ=True):
+            LOG.info(f"Applying LIGER to {cfg.model_config_type} with kwargs: {kwargs}")
                LOG.info(
                    f"Applying LIGER to {cfg.model_config_type} with kwargs: {kwargs}"
                )
            apply_liger_fn(**kwargs)
        elif cfg.model_config_type == "jamba":
            from transformers.models.jamba import modeling_jamba
@@ -124,9 +120,9 @@ class LigerPlugin(BasePlugin):
            if cfg.liger_rope:
                # The DeepseekV2 version of RoPE is different than upstream LLaMA.
                # See https://github.com/linkedin/Liger-Kernel/issues/129#issuecomment-2313763528
-                logging.warning("Fused liger_rope is not supported for DeepseekV2.")
+                LOG.warning("Fused liger_rope is not supported for DeepseekV2.")
            if cfg.liger_glu_activation:
-                logging.warning("liger_glu_activation is not supported for DeepseekV2.")
+                LOG.warning("liger_glu_activation is not supported for DeepseekV2.")
            if cfg.liger_rms_norm:
                modeling_mod.DeepseekV2RMSNorm = LigerRMSNorm
            if cfg.liger_glu_activation:
@@ -186,6 +182,6 @@ class LigerPlugin(BasePlugin):
                swiglu=cfg.liger_glu_activation,
            )
        else:
-            logging.warning(
+            LOG.warning(
                f"Unsupported model config type: {cfg.model_config_type}. Liger not applied."
            )
--- a/src/axolotl/integrations/liger/args.py
+++ b/src/axolotl/integrations/liger/args.py
@@ -15,12 +15,13 @@
 """
 Module for handling LIGER input arguments.
 """
 import logging
 from typing import Optional
 from pydantic import BaseModel, model_validator
-LOG = logging.getLogger("axolotl.integrations.liger.args")
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 class LigerArgs(BaseModel):
--- a/src/axolotl/integrations/llm_compressor/plugin.py
+++ b/src/axolotl/integrations/llm_compressor/plugin.py
@@ -3,7 +3,6 @@ Sparse Finetuning plugin for Axolotl — enables handling of sparse neural netwo
 by maintaining masks for zero weights during training.
 """
 import logging
 from functools import wraps
 from typing import Any, Callable, Concatenate, ParamSpec, TypeVar
@@ -16,11 +15,12 @@ from transformers.trainer_callback import TrainerCallback, TrainerControl, Train
 from transformers.training_args import TrainingArguments
 from axolotl.integrations.base import BasePlugin
 from axolotl.utils.logging import get_logger
 P = ParamSpec("P")  # Params for generic function signatures
 R = TypeVar("R")  # Return type for generic function signatures
-LOG = logging.getLogger("axolotl.integrations.llm_compressor")
+LOG = get_logger(__name__)
 class LLMCompressorCallbackHandler(TrainerCallback):
--- a/src/axolotl/integrations/spectrum/init.py
+++ b/src/axolotl/integrations/spectrum/init.py
@@ -17,14 +17,16 @@ Spectrum Plugin to automatically generate unfrozen parameters based on SNR data.
 """
 import json
 import logging
 import requests
 from axolotl.integrations.base import BasePlugin
 from axolotl.utils.logging import get_logger
 from .args import SpectrumArgs  # pylint: disable=unused-import. # noqa: F401
 LOG = get_logger(__name__)
 def _generate_unfrozen_params_yaml(snr_data, top_fraction=0.5):
    unfrozen_parameters = {}
@@ -83,17 +85,17 @@ class SpectrumPlugin(BasePlugin):
        except FileNotFoundError:
            pass
        except Exception as exc:  # pylint: disable=broad-exception-caught
-            logging.warning(f"Failed to read SNR data from {snr_path}: {exc}")
+            LOG.warning(f"Failed to read SNR data from {snr_path}: {exc}")
        if not snr_data:
            try:
                snr_data = requests.get(snr_url, timeout=60).json()
            except requests.exceptions.RequestException as exc:
-                logging.warning(f"Failed to fetch SNR data from {snr_url}: {exc}")
+                LOG.warning(f"Failed to fetch SNR data from {snr_url}: {exc}")
                return
            # also catch json parsing errors
            except json.JSONDecodeError as exc:
-                logging.warning(f"Failed to parse SNR data from {snr_url}: {exc}")
+                LOG.warning(f"Failed to parse SNR data from {snr_url}: {exc}")
                return
        unfrozen_parameters = _generate_unfrozen_params_yaml(
--- a/src/axolotl/loaders/adapter.py
+++ b/src/axolotl/loaders/adapter.py
@@ -1,6 +1,5 @@
 """Adapter loading functionality, including LoRA / QLoRA and associated utils"""
 import logging
 import os
 import types
 from typing import Any
@@ -21,8 +20,9 @@ from transformers import PreTrainedModel
 from axolotl.loaders.utils import get_linear_embedding_layers
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def setup_quantized_meta_for_peft(model: torch.nn.Module):
--- a/src/axolotl/loaders/model.py
+++ b/src/axolotl/loaders/model.py
@@ -3,7 +3,6 @@ models.
 """
 import gc
 import logging
 import math
 import os
 from functools import cached_property
@@ -47,10 +46,11 @@ from axolotl.utils.distributed import (
    get_device_count,
    get_device_type,
 )
 from axolotl.utils.logging import get_logger
 from axolotl.utils.model_shard_quant import load_sharded_model_quant
 from axolotl.utils.schemas.enums import RLType
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 PLUGIN_MANAGER = PluginManager.get_instance()
--- a/src/axolotl/loaders/patch_manager.py
+++ b/src/axolotl/loaders/patch_manager.py
@@ -4,7 +4,6 @@ Applies pre- and post-model load patches for various fixes and optimizations.
 """
 import importlib.util
 import logging
 from functools import cached_property
 import addict
@@ -17,8 +16,9 @@ from axolotl.monkeypatch.multipack import (
    patch_for_multipack,
 )
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 PLUGIN_MANAGER = PluginManager.get_instance()
--- a/src/axolotl/loaders/processor.py
+++ b/src/axolotl/loaders/processor.py
@@ -1,6 +1,5 @@
 """Processor loading functionality for multi-modal models"""
 import logging
 from typing import Any
 import transformers
@@ -10,8 +9,9 @@ from transformers import (
 )
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def load_processor(cfg: DictDefault, tokenizer: PreTrainedTokenizerBase):
--- a/src/axolotl/loaders/tokenizer.py
+++ b/src/axolotl/loaders/tokenizer.py
@@ -1,7 +1,6 @@
 """Tokenizer loading functionality and associated utils"""
 import json
 import logging
 import os
 import transformers
@@ -19,8 +18,9 @@ from axolotl.utils.distributed import (
    is_local_main_process,
    is_main_process,
 )
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 PLUGIN_MANAGER = PluginManager.get_instance()
--- a/src/axolotl/loaders/utils.py
+++ b/src/axolotl/loaders/utils.py
@@ -1,7 +1,6 @@
 """Utilities for axolotl.loaders module"""
 import contextlib
 import logging
 from typing import Type
 import addict
@@ -9,8 +8,9 @@ import torch
 from transformers import AutoConfig, PretrainedConfig, PreTrainedModel
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def get_module_class_from_name(
--- a/src/axolotl/monkeypatch/accelerate/fsdp2.py
+++ b/src/axolotl/monkeypatch/accelerate/fsdp2.py
@@ -2,12 +2,13 @@
 monkeypatch for accelerate fsdp2 fix when modifying ordereddict during interation, and saving full state dicts
 """
 import logging
 import sys
 import torch
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 def fsdp2_load_full_state_dict(accelerator, model: torch.nn.Module, full_sd: dict):
--- a/src/axolotl/monkeypatch/btlm_attn_hijack_flash.py
+++ b/src/axolotl/monkeypatch/btlm_attn_hijack_flash.py
@@ -3,7 +3,6 @@ Flash attention monkey patch for cerebras btlm model
 """
 import importlib
 import logging
 from typing import Optional, Tuple
 import torch
@@ -11,7 +10,9 @@ from accelerate import init_empty_weights
 from flash_attn.flash_attn_interface import flash_attn_func
 from transformers import AutoConfig, AutoModelForCausalLM
-LOG = logging.getLogger("axolotl")
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 def replace_btlm_attn_with_flash_attn(model_name="cerebras/btlm-3b-8k-base"):
--- a/src/axolotl/monkeypatch/gradient_checkpointing/offload_disk.py
+++ b/src/axolotl/monkeypatch/gradient_checkpointing/offload_disk.py
@@ -18,7 +18,6 @@ DISCO - DIsk-based Storage and Checkpointing with Optimized prefetching
 import atexit
 import concurrent.futures
 import logging
 import os
 import queue
 import shutil
@@ -32,11 +31,13 @@ from typing import Dict
 import torch
 from axolotl.utils.logging import get_logger
 torch_cuda_amp_custom_fwd = torch.amp.custom_fwd(device_type="cuda")
 torch_cuda_amp_custom_bwd = torch.amp.custom_bwd(device_type="cuda")
 # Setup logger
-logger = logging.getLogger(__name__)
+logger = get_logger(__name__)
 class DiskOffloadManager:
--- a/src/axolotl/monkeypatch/llama_attn_hijack_flash.py
+++ b/src/axolotl/monkeypatch/llama_attn_hijack_flash.py
@@ -2,7 +2,6 @@
 # copied from https://github.com/lm-sys/FastChat/blob/main/fastchat/train/llama_flash_attn_monkey_patch.py
 import logging
 import warnings
 from typing import List, Optional, Tuple, Union
@@ -25,6 +24,7 @@ from transformers.models.llama.modeling_llama import (
 )
 from axolotl.monkeypatch.utils import get_cu_seqlens_from_pos_ids, set_module_name
 from axolotl.utils.logging import get_logger
 try:
    from flash_attn.flash_attn_interface import (  # pylint: disable=ungrouped-imports
@@ -41,7 +41,7 @@ except ImportError:
    )
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__)
 def is_xformers_available() -> bool:
@@ -612,9 +612,10 @@ def generate_qkv(
            q, query_padding_mask
        )
-        output_pad_fn = lambda output_unpad: pad_input(  # noqa: E731
+        def output_pad_fn(output_unpad):
-            output_unpad, indices_q, batch_size, seqlen_q
+            return pad_input(  # noqa: E731
-        )
+                output_unpad, indices_q, batch_size, seqlen_q
            )
    else:
        q_unpad = rearrange(q, "b s h d -> (b s) h d")
@@ -627,9 +628,10 @@ def generate_qkv(
        )
        max_seqlen_q = seqlen_q
-        output_pad_fn = lambda output_unpad: rearrange(  # noqa: E731
+        def output_pad_fn(output_unpad):
-            output_unpad, "(b s) h d -> b s h d", b=batch_size
+            return rearrange(  # noqa: E731
-        )
+                output_unpad, "(b s) h d -> b s h d", b=batch_size
            )
    if key_padding_mask is not None:
        k_unpad, _, cu_seqlens_k, max_seqlen_k = unpad_input(k, key_padding_mask)
--- a/src/axolotl/monkeypatch/llama_attn_hijack_xformers.py
+++ b/src/axolotl/monkeypatch/llama_attn_hijack_xformers.py
@@ -2,7 +2,6 @@
 Directly copied the code from https://raw.githubusercontent.com/oobabooga/text-generation-webui/main/modules/llama_attn_hijack.py and made some adjustments
 """
 import logging
 import warnings
 from typing import Optional, Tuple
@@ -11,10 +10,14 @@ import torch.nn.functional as F
 import transformers.models.llama.modeling_llama
 from transformers.models.llama.modeling_llama import apply_rotary_pos_emb, repeat_kv
 from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 try:
    import xformers.ops
 except ImportError:
-    logging.error("xformers not found! Please install it before trying to use it.")
+    LOG.error("xformers not found! Please install it before trying to use it.")
 def hijack_llama_attention():
--- a/src/axolotl/monkeypatch/lora_kernels.py
+++ b/src/axolotl/monkeypatch/lora_kernels.py
@@ -7,7 +7,6 @@ import types
 from typing import Generator, Tuple, Type
 import torch
 from accelerate.logging import get_logger
 from peft import PeftModelForCausalLM
 from torch import nn
 from transformers import AutoConfig
@@ -20,6 +19,7 @@ from axolotl.kernels.lora import (
 )
 from axolotl.monkeypatch.utils import detab_code
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
--- a/src/axolotl/monkeypatch/mistral_attn_hijack_flash.py
+++ b/src/axolotl/monkeypatch/mistral_attn_hijack_flash.py
@@ -2,7 +2,6 @@
 # pylint: disable=duplicate-code
 import logging
 from functools import partial
 from typing import List, Optional, Tuple, Union
@@ -28,8 +27,9 @@ from transformers.models.mistral.modeling_mistral import (
 )
 from axolotl.monkeypatch.utils import get_cu_seqlens_from_pos_ids
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl.monkeypatch.mistral")
+LOG = get_logger(__name__)
 def replace_mistral_attn_with_flash_attn(
@@ -359,9 +359,10 @@ def generate_qkv(
            q, query_padding_mask
        )
-        output_pad_fn = lambda output_unpad: pad_input(  # noqa: E731
+        def output_pad_fn(output_unpad):
-            output_unpad, indices_q, batch_size, seqlen_q
+            return pad_input(  # noqa: E731
-        )
+                output_unpad, indices_q, batch_size, seqlen_q
            )
    else:
        q_unpad = rearrange(q, "b s h d -> (b s) h d")
@@ -374,9 +375,10 @@ def generate_qkv(
        )
        max_seqlen_q = seqlen_q
-        output_pad_fn = lambda output_unpad: rearrange(  # noqa: E731
+        def output_pad_fn(output_unpad):
-            output_unpad, "(b s) h d -> b s h d", b=batch_size
+            return rearrange(  # noqa: E731
-        )
+                output_unpad, "(b s) h d -> b s h d", b=batch_size
            )
    if key_padding_mask is not None:
        k_unpad, _, cu_seqlens_k, max_seqlen_k = unpad_input(k, key_padding_mask)
--- a/src/axolotl/monkeypatch/peft/utils.py
+++ b/src/axolotl/monkeypatch/peft/utils.py
@@ -3,14 +3,14 @@ Patch prepare_model_for_kbit_training to not upcast everything
 """
 import inspect
 import logging
 import peft
 import axolotl
 from axolotl.monkeypatch.utils import detab_code
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 ORIGINAL_PREPARE_CODE = """
        for param in model.parameters():
--- a/src/axolotl/monkeypatch/relora.py
+++ b/src/axolotl/monkeypatch/relora.py
@@ -2,7 +2,6 @@
 import glob
 import json
 import logging
 import os.path
 import shutil
 from functools import partial
@@ -27,8 +26,9 @@ from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.distributed import barrier, is_main_process
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl.relora")
+LOG = get_logger(__name__)
@torch.no_grad()
--- a/src/axolotl/monkeypatch/stablelm_attn_hijack_flash.py
+++ b/src/axolotl/monkeypatch/stablelm_attn_hijack_flash.py
@@ -32,11 +32,11 @@ from flash_attn.flash_attn_interface import (  # pylint: disable=ungrouped-impor
 from torch import nn
 from transformers import AutoConfig, AutoModelForCausalLM
 from transformers.modeling_outputs import BaseModelOutputWithPast
 from transformers.utils import logging
 from axolotl.monkeypatch.utils import get_cu_seqlens_from_pos_ids
 from axolotl.utils.logging import get_logger
-logger = logging.get_logger(__name__)
+logger = get_logger(__name__)
 def replace_stablelm_attn_with_flash_attn(model_name="stabilityai/stablelm-3b-4e1t"):
--- a/src/axolotl/monkeypatch/trainer/lr.py
+++ b/src/axolotl/monkeypatch/trainer/lr.py
@@ -2,11 +2,11 @@
 monkeypatch for Trainer _get_learning_rate method
 """
 import logging
 import torch
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 # TODO remove this patch once https://github.com/huggingface/transformers/pull/37881 is included in a release
--- a/src/axolotl/monkeypatch/trainer_accelerator_args.py
+++ b/src/axolotl/monkeypatch/trainer_accelerator_args.py
@@ -3,13 +3,13 @@ allow adding additional kwargs to Accelerator init
 """
 import inspect
 import logging
 from transformers import Trainer
 from axolotl.monkeypatch.utils import detab_code
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 ORIGINAL_TRAINER_CODE = """
    # create accelerator object
--- a/src/axolotl/monkeypatch/trainer_eval_guard.py
+++ b/src/axolotl/monkeypatch/trainer_eval_guard.py
@@ -3,13 +3,13 @@ fix for FSDP2 evals when using torch.compile
 """
 import inspect
 import logging
 from transformers import Trainer
 from axolotl.monkeypatch.utils import detab_code
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 ORIGINAL_TRAINER_CODE = """
    model.eval()
--- a/src/axolotl/monkeypatch/trainer_fsdp_optim.py
+++ b/src/axolotl/monkeypatch/trainer_fsdp_optim.py
@@ -3,13 +3,13 @@ fix for FSDP optimizer save in trainer w 4.47.0
 """
 import inspect
 import logging
 from transformers import Trainer
 from axolotl.monkeypatch.utils import detab_code
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl.monkeypatch.trainer_fsdp_save")
+LOG = get_logger(__name__)
 ORIGINAL_TRAINER_CODE = """
--- a/src/axolotl/monkeypatch/transformers_fa_utils.py
+++ b/src/axolotl/monkeypatch/transformers_fa_utils.py
@@ -2,13 +2,14 @@
 see https://github.com/huggingface/transformers/pull/35834
 """
 import logging
 from functools import partial
 from typing import Optional
 import torch
-logger = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 logger = get_logger(__name__)
 def fixed_fa_peft_integration_check(
--- a/src/axolotl/monkeypatch/unsloth_.py
+++ b/src/axolotl/monkeypatch/unsloth_.py
@@ -11,7 +11,7 @@ from transformers.models.llama.modeling_llama import LlamaFlashAttention2
 from axolotl.monkeypatch.utils import detab_code
-LOG = get_logger("axolotl.monkeypatch.unsloth")
+LOG = get_logger(__name__)
 ORIGINAL_QKV_CODE = """
    query_states = self.q_proj(hidden_states)
@@ -133,7 +133,7 @@ def patch_self_attn_lora():
    )
    exec(self_attn_forward, globals())  # pylint: disable=exec-used  # nosec B102
    self_attn_lora_patched = True
-    LOG.info("patching unsloth attn lora", main_process_only=True)
+    LOG.info("patching unsloth attn lora")
    LlamaFlashAttention2.forward = (
        unsloth_attn_forward  # pylint: disable=undefined-variable  # noqa: F821
    )
@@ -153,7 +153,7 @@ def integrate_rope_embeddings():
    ):
        return fast_rope_embedding(q, k, cos, sin)
-    LOG.info("patching unsloth RoPE embeddings", main_process_only=True)
+    LOG.info("patching unsloth RoPE embeddings")
    transformers.models.llama.modeling_llama.apply_rotary_pos_emb = apply_rotary_pos_emb
@@ -189,7 +189,7 @@ def integrate_lora_mlp_patch(peft_model: PeftModelForCausalLM):
        if is_mlp_lora and mlp_no_bias and mlp_not_dora:
            layer.mlp.forward = types.MethodType(apply_lora_mlp, layer.mlp)
        else:
-            LOG.warning("unable to apply unsloth lora mlp patch to layer %d", idx)
+            LOG.warning(f"unable to apply unsloth lora mlp patch to layer {idx}")
 def integrate_lora_patch(peft_model: PeftModelForCausalLM, cfg):
@@ -215,7 +215,7 @@ def integrate_lora_patch(peft_model: PeftModelForCausalLM, cfg):
                layer.self_attn.apply_qkv = apply_lora_qkv
            else:
                layer.self_attn.apply_qkv = original_apply_qkv
-                LOG.warning("unable to apply unsloth lora qkv patch to layer %d", idx)
+                LOG.warning(f"unable to apply unsloth lora qkv patch to layer {idx}")
        if cfg.unsloth_lora_o:
            layer_modules = [
                getattr(layer.self_attn, linear_proj) for linear_proj in ["o_proj"]
@@ -234,9 +234,7 @@ def integrate_lora_patch(peft_model: PeftModelForCausalLM, cfg):
                layer.self_attn.apply_o = apply_lora_o
            else:
                layer.self_attn.apply_o = original_apply_o
-                LOG.warning(
+                LOG.warning(f"unable to apply unsloth lora o_proj patch to layer {idx}")
                    "unable to apply unsloth lora o_proj patch to layer %d", idx
                )
 def patch_unsloth_layernorm():
--- a/src/axolotl/processing_strategies.py
+++ b/src/axolotl/processing_strategies.py
@@ -1,6 +1,5 @@
 """Module containing ProcessingStrategy classes and its derivative for different MultiModal Model types"""
 import logging
 from copy import deepcopy
 from typing import Optional
@@ -10,7 +9,9 @@ from torch import Tensor
 from transformers import ProcessorMixin
 from transformers.image_utils import load_image
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 class ProcessingStrategy:
--- a/src/axolotl/prompt_strategies/init.py
+++ b/src/axolotl/prompt_strategies/init.py
@@ -2,11 +2,11 @@
 import importlib
 import inspect
 import logging
 from axolotl.prompt_strategies.user_defined import UserDefinedDatasetConfig
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl.prompt_strategies")
+LOG = get_logger(__name__)
 def load(strategy, tokenizer, cfg, ds_cfg, processor=None):
--- a/src/axolotl/prompt_strategies/base.py
+++ b/src/axolotl/prompt_strategies/base.py
@@ -3,9 +3,10 @@ module for base dataset transform strategies
 """
 import importlib
 import logging
-LOG = logging.getLogger("axolotl")
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 def load(strategy, cfg, module_base=None, **kwargs):
--- a/src/axolotl/prompt_strategies/bradley_terry/init.py
+++ b/src/axolotl/prompt_strategies/bradley_terry/init.py
@@ -2,11 +2,11 @@
 import importlib
 import inspect
 import logging
 from axolotl.prompt_strategies.user_defined import UserDefinedDatasetConfig
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl.prompt_strategies.bradley_terry")
+LOG = get_logger(__name__)
 def load(strategy, tokenizer, cfg, ds_cfg):
--- a/src/axolotl/prompt_strategies/bradley_terry/chat_template.py
+++ b/src/axolotl/prompt_strategies/bradley_terry/chat_template.py
@@ -2,7 +2,6 @@
 Bradley-Terry model with chat template prompt strategy.
 """
 import logging
 from typing import Any, Dict, Optional
 from axolotl.prompt_strategies.chat_template import (
@@ -10,10 +9,11 @@ from axolotl.prompt_strategies.chat_template import (
    ChatTemplateStrategy,
 )
 from axolotl.utils.chat_templates import get_chat_template_from_config
 from axolotl.utils.logging import get_logger
 # Configure the logger
-LOG = logging.getLogger("axolotl.prompt_strategies.bradley_terry.chat_template")
+LOG = get_logger(__name__)
-LOG.setLevel(logging.INFO)
+LOG.setLevel("INFO")
 class BTChatTemplateStrategy(ChatTemplateStrategy):
@@ -44,7 +44,7 @@ class BTChatTemplateStrategy(ChatTemplateStrategy):
        if len(chosen_tokenized["input_ids"]) > max_length:
            LOG.warning(
-                f"To-be-trimmed chosen sequence exceeds max sequence length: {len(chosen_tokenized['input_ids'])}",
+                f"To-be-trimmed chosen sequence exceeds max sequence length: {len(chosen_tokenized['input_ids'])}"
            )
            chosen_tokenized["input_ids"] = chosen_tokenized["input_ids"][:max_length]
@@ -62,7 +62,7 @@ class BTChatTemplateStrategy(ChatTemplateStrategy):
        if len(rejected_tokenized["input_ids"]) > max_length:
            LOG.warning(
-                f"To-be-trimmed rejected sequence exceeds max sequence length: {len(rejected_tokenized['input_ids'])}",
+                f"To-be-trimmed rejected sequence exceeds max sequence length: {len(rejected_tokenized['input_ids'])}"
            )
            rejected_tokenized["input_ids"] = rejected_tokenized["input_ids"][
--- a/src/axolotl/prompt_strategies/chat_template.py
+++ b/src/axolotl/prompt_strategies/chat_template.py
@@ -2,7 +2,6 @@
 HF Chat Templates prompt strategy
 """
 import logging
 from collections import defaultdict
 from typing import Any, Dict, List, Set, Union
@@ -13,11 +12,12 @@ from axolotl.prompt_strategies.jinja_template_analyzer import JinjaTemplateAnaly
 from axolotl.prompt_tokenizers import PromptTokenizingStrategy
 from axolotl.prompters import IGNORE_TOKEN_ID, Prompter
 from axolotl.utils.chat_templates import get_chat_template_from_config
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.datasets import DatasetConfig
 # Configure the logger
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__)
-LOG.setLevel(logging.INFO)
+LOG.setLevel("INFO")
 class ChatTemplatePrompter(Prompter):
@@ -378,7 +378,9 @@ class ChatTemplateStrategy(PromptTokenizingStrategy):
                add_generation_prompt=True,
                images=images,
            )
-            tokenized_res = self.prompter.build_prompt(turns, images=images)  # type: ignore
+            tokenized_res = self.prompter.build_prompt(
                turns, images=images
            )  # type: ignore
            tokenized_prompt = {}
            if isinstance(tokenized_res, list):
                input_ids = prompt_ids + tokenized_res[len(prompt_ids) :]
@@ -555,8 +557,8 @@ class ChatTemplateStrategy(PromptTokenizingStrategy):
            and turns[0].get("role") == "system"
            and (
                "mistral" in self.tokenizer.name_or_path.lower()
-                # gemma3 uses gemma tokenizer
+                or "gemma"
-                or "gemma" in self.tokenizer.name_or_path.lower()
+                in self.tokenizer.name_or_path.lower()  # gemma3 uses gemma tokenizer
            )
        ):
            return -1, -1
--- a/src/axolotl/prompt_strategies/llama2_chat.py
+++ b/src/axolotl/prompt_strategies/llama2_chat.py
@@ -24,12 +24,14 @@ For a custom system message, the first "from" can be "system" (followed by alter
 Important: Don't use "special_tokens:" in your config.yml if you are not sure what you are doing!
 """
 import logging
 from dataclasses import dataclass, field
 from typing import Generator, List, Sequence
 from axolotl.prompt_tokenizers import PromptTokenizingStrategy
 from axolotl.prompters import ALTERNATING_ASSERTION_FAILED_ROLE, IGNORE_TOKEN_ID
 from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
@dataclass
@@ -129,7 +131,7 @@ class LLama2ChatTokenizingStrategy(PromptTokenizingStrategy):
        if cur_len < self.sequence_len:
            if cur_len != total_len:
                target[:] = IGNORE_TOKEN_ID
-                logging.warning(
+                LOG.warning(
                    f"WARNING: tokenization mismatch: {cur_len} vs. {total_len}."
                    f" (ignored)"
                )
--- a/src/axolotl/prompt_strategies/messages/init.py
+++ b/src/axolotl/prompt_strategies/messages/init.py
@@ -2,9 +2,10 @@
 import importlib
 import inspect
 import logging
-LOG = logging.getLogger("axolotl.prompt_strategies.messages")
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 def load(tokenizer, cfg, ds_cfg, processor=None):
--- a/src/axolotl/prompt_strategies/metharme.py
+++ b/src/axolotl/prompt_strategies/metharme.py
@@ -1,12 +1,12 @@
 """Module containing the MetharmenPromptTokenizingStrategy and MetharmePrompter class"""
 import logging
 from typing import Tuple
 from axolotl.prompt_tokenizers import InstructionPromptTokenizingStrategy
 from axolotl.prompters import AlpacaPrompter
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__)
 IGNORE_TOKEN_ID = -100
--- a/src/axolotl/prompt_strategies/pygmalion.py
+++ b/src/axolotl/prompt_strategies/pygmalion.py
@@ -1,7 +1,6 @@
 """Module containing the PygmalionPromptTokenizingStrategy and PygmalionPrompter class"""
 import copy
 import logging
 from collections import defaultdict
 from typing import Generator, List, Tuple
@@ -10,8 +9,9 @@ from axolotl.prompt_tokenizers import (
    parse_tokenized_to_result,
    tokenize_prompt_default,
 )
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__)
 IGNORE_TOKEN_ID = -100
--- a/src/axolotl/prompt_tokenizers.py
+++ b/src/axolotl/prompt_tokenizers.py
@@ -1,14 +1,14 @@
 """Module containing PromptTokenizingStrategy and Prompter classes"""
 import abc
 import logging
 from typing import Callable, Dict, List, Optional, Tuple, Union
 from transformers import BatchEncoding, PreTrainedTokenizer
 from axolotl.prompters import Prompter
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__)
 IGNORE_INDEX = -100
 LLAMA_DEFAULT_PAD_TOKEN = "<pad>"  # nosec
--- a/src/axolotl/prompters.py
+++ b/src/axolotl/prompters.py
@@ -1,12 +1,13 @@
 """Module containing prompters"""
 import logging
 from enum import Enum
 from typing import Generator, Optional, Union
 from colorama import Fore
-LOG = logging.getLogger("axolotl")
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 IGNORE_TOKEN_ID = -100
 REPR_TEMPLATE = "\n<start>\n" + Fore.CYAN + "{full_prompt}" + Fore.RESET + "\n<end>\n"
--- a/src/axolotl/train.py
+++ b/src/axolotl/train.py
@@ -2,7 +2,6 @@
 import importlib
 import inspect
 import logging
 import os
 import signal
 import sys
@@ -37,6 +36,7 @@ from axolotl.utils.ctx_managers.sequence_parallel import SequenceParallelContext
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.distributed import cleanup_distributed
 from axolotl.utils.freeze import freeze_layers_except
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.enums import RLType
 from axolotl.utils.trainer import setup_trainer
@@ -45,7 +45,7 @@ try:
 except ImportError:
    BetterTransformer = None
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def setup_model_and_tokenizer(
@@ -64,9 +64,7 @@ def setup_model_and_tokenizer(
            `None`), and processor (if multimodal, else `None`).
    """
    # Load tokenizer
-    LOG.debug(
+    LOG.debug(f"loading tokenizer... {cfg.tokenizer_config or cfg.base_model_config}")
        f"loading tokenizer... {cfg.tokenizer_config or cfg.base_model_config}",
    )
    tokenizer = load_tokenizer(cfg)
    # Load processor for multimodal models if needed
--- a/src/axolotl/utils/callbacks/init.py
+++ b/src/axolotl/utils/callbacks/init.py
@@ -4,7 +4,6 @@ from __future__ import annotations
 import gc
 import json
 import logging
 import os
 import traceback
 from shutil import copyfile
@@ -43,6 +42,7 @@ from axolotl.utils.distributed import (
    is_main_process,
    zero_first,
 )
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.config import AxolotlInputConfig
 if TYPE_CHECKING:
@@ -50,7 +50,7 @@ if TYPE_CHECKING:
 IGNORE_INDEX = -100
-LOG = logging.getLogger("axolotl.callbacks")
+LOG = get_logger(__name__)
 class EvalFirstStepCallback(
@@ -753,7 +753,14 @@ def log_prediction_callback_factory(trainer: Trainer, tokenizer, logger: str):
                        ].append(pred_step_text)
                        row_index += 1
                if logger == "wandb":
-                    wandb.run.log({f"{name} - Predictions vs Ground Truth": pd.DataFrame(table_data)})  # type: ignore[attr-defined]
+                    # type: ignore[attr-defined]
                    wandb.run.log(
                        {
                            f"{name} - Predictions vs Ground Truth": pd.DataFrame(
                                table_data
                            )
                        }
                    )
                elif logger == "mlflow" and is_mlflow_available():
                    import mlflow
--- a/src/axolotl/utils/callbacks/comet_.py
+++ b/src/axolotl/utils/callbacks/comet_.py
@@ -1,17 +1,17 @@
 """Comet module for trainer callbacks"""
 import logging
 from typing import TYPE_CHECKING
 import comet_ml
 from transformers import TrainerCallback, TrainerControl, TrainerState
 from axolotl.utils.distributed import is_main_process
 from axolotl.utils.logging import get_logger
 if TYPE_CHECKING:
    from axolotl.core.trainer_builder import AxolotlTrainingArguments
-LOG = logging.getLogger("axolotl.callbacks")
+LOG = get_logger(__name__)
 class SaveAxolotlConfigtoCometCallback(TrainerCallback):
--- a/src/axolotl/utils/callbacks/lisa.py
+++ b/src/axolotl/utils/callbacks/lisa.py
@@ -6,17 +6,18 @@ Arxiv: https://arxiv.org/abs/2403.17919
 License: Apache 2.0
 """
 import logging
 from functools import reduce
 from typing import TYPE_CHECKING
 import numpy as np
 from transformers import TrainerCallback
 from axolotl.utils.logging import get_logger
 if TYPE_CHECKING:
    from axolotl.core.trainer_builder import AxolotlTrainer
-LOG = logging.getLogger("axolotl.callbacks.lisa")
+LOG = get_logger(__name__)
 def lisa_callback_factory(trainer: "AxolotlTrainer"):
--- a/src/axolotl/utils/callbacks/mlflow_.py
+++ b/src/axolotl/utils/callbacks/mlflow_.py
@@ -1,6 +1,5 @@
 """MLFlow module for trainer callbacks"""
 import logging
 import os
 from shutil import copyfile
 from tempfile import NamedTemporaryFile
@@ -10,11 +9,12 @@ import mlflow
 from transformers import TrainerCallback, TrainerControl, TrainerState
 from axolotl.utils.distributed import is_main_process
 from axolotl.utils.logging import get_logger
 if TYPE_CHECKING:
    from axolotl.core.trainer_builder import AxolotlTrainingArguments
-LOG = logging.getLogger("axolotl.callbacks")
+LOG = get_logger(__name__)
 def should_log_artifacts() -> bool:
--- a/src/axolotl/utils/callbacks/qat.py
+++ b/src/axolotl/utils/callbacks/qat.py
@@ -1,6 +1,5 @@
 """QAT Callback for HF Causal Trainer"""
 import logging
 from functools import partial
 from torch import nn
@@ -8,9 +7,10 @@ from torchao.quantization.qat.embedding import FakeQuantizedEmbedding
 from torchao.quantization.qat.linear import FakeQuantizedLinear
 from transformers import TrainerCallback
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.quantization import QATConfig
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def toggle_fake_quant(mod: nn.Module, enable: bool):
--- a/src/axolotl/utils/chat_templates.py
+++ b/src/axolotl/utils/chat_templates.py
--- a/src/axolotl/utils/comet_.py
+++ b/src/axolotl/utils/comet_.py
@@ -1,11 +1,11 @@
 """Module for wandb utilities"""
 import logging
 import os
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl.utils.comet_")
+LOG = get_logger(__name__)
 COMET_ENV_MAPPING_OVERRIDE = {
    "comet_mode": "COMET_START_MODE",
--- a/src/axolotl/utils/config/init.py
+++ b/src/axolotl/utils/config/init.py
@@ -1,7 +1,6 @@
 """Module for working with config dicts"""
 import json
 import logging
 import os
 from typing import Optional
@@ -15,13 +14,14 @@ from axolotl.loaders import MULTIMODAL_AUTO_MODEL_MAPPING
 from axolotl.loaders.utils import load_model_config
 from axolotl.utils.bench import log_gpu_memory_usage
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.config import (
    AxolotlConfigWCapabilities as AxolotlConfigWCapabilitiesBase,
 )
 from axolotl.utils.schemas.config import AxolotlInputConfig as AxolotlInputConfigBase
 from axolotl.utils.schemas.datasets import DPODataset, KTODataset, SFTDataset
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__, use_environ=True)
 def choose_device(cfg):
--- a/src/axolotl/utils/data/pretraining.py
+++ b/src/axolotl/utils/data/pretraining.py
@@ -1,7 +1,6 @@
 """data handling specific to pretraining"""
 import functools
 import logging
 from collections import defaultdict
 from typing import Callable, Dict, List, Optional
@@ -11,10 +10,11 @@ from torch.utils.data import RandomSampler
 from transformers import PreTrainedTokenizerBase
 from axolotl.utils.collators import PretrainingBatchSamplerDataCollatorForSeq2Seq
 from axolotl.utils.logging import get_logger
 from axolotl.utils.samplers import MultipackBatchSampler, get_dataset_lengths
 from axolotl.utils.trainer import process_pretraining_datasets_for_packing
-LOG = logging.getLogger("axolotl")
+LOG = get_logger(__name__)
 def encode_pretraining(
--- a/src/axolotl/utils/data/rl.py
+++ b/src/axolotl/utils/data/rl.py
@@ -1,7 +1,6 @@
 """data handling specific to DPO"""
 import inspect
 import logging
 from functools import partial
 from pathlib import Path
 from typing import Any, List, Union
@@ -18,9 +17,10 @@ from axolotl.utils.data.shared import datasets_w_name_generator, load_dataset_w_
 from axolotl.utils.data.utils import deduplicate_and_log_datasets, md5
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.distributed import is_main_process, zero_first
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.enums import RLType
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def _get_path(ds_hash, cfg):
@@ -217,7 +217,7 @@ def load_prepare_preference_datasets(cfg):
                    + "|"
                    + "train"
                    + "|"
-                    + str(seed)
+                    + str(cfg.seed or 42)
                )
                to_hash_test = (
                    train_dataset._fingerprint  # pylint: disable=protected-access
@@ -226,7 +226,7 @@ def load_prepare_preference_datasets(cfg):
                    + "|"
                    + "test"
                    + "|"
-                    + str(seed)
+                    + str(cfg.seed or 42)
                )
                train_fingerprint = md5(to_hash_train)
                test_fingerprint = md5(to_hash_test)
--- a/src/axolotl/utils/data/sft.py
+++ b/src/axolotl/utils/data/sft.py
@@ -1,7 +1,6 @@
 """data handling specific to SFT"""
 import functools
 import logging
 import os
 import tempfile
 from pathlib import Path
@@ -54,12 +53,13 @@ from axolotl.utils.data.utils import (
 )
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.distributed import is_local_main_process, zero_first
 from axolotl.utils.logging import get_logger
 from axolotl.utils.trainer import (
    calculate_total_num_steps,
    process_datasets_for_packing,
 )
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
@retry_on_request_exceptions(max_retries=3, delay=5)
@@ -182,10 +182,9 @@ def prepare_dataset(cfg, tokenizer, processor=None, preprocess_iterable=None):
        total_num_steps = min(
            calculate_total_num_steps(cfg, train_dataset), cfg.max_steps
        )
        LOG.info(f"Maximum number of steps set at {total_num_steps}")
    else:
        total_num_steps = calculate_total_num_steps(cfg, train_dataset)
-
+    LOG.info(f"Maximum number of steps set at {total_num_steps}")
    return train_dataset, eval_dataset, total_num_steps, prompters
@@ -331,12 +330,12 @@ def load_tokenized_prepared_datasets(
        if len(datasets) == 1:
            dataset = datasets[0]
        else:
-            LOG.info("merging datasets")
+            LOG.info("Merging datasets...")
            dataset = concatenate_datasets(datasets)
        if len(datasets) > 1:
            if cfg.shuffle_merged_datasets:
-                LOG.debug("shuffle merged datasets")
+                LOG.debug("Shuffling merged datasets...")
                dataset = dataset.shuffle(seed=seed)
            else:
                LOG.debug("NOT shuffling merged datasets")
@@ -426,7 +425,7 @@ def load_prepare_datasets(
            + "|"
            + "train"
            + "|"
-            + str(seed)
+            + str(cfg.seed or 42)
        )
        to_hash_test = (
            dataset._fingerprint  # pylint: disable=protected-access
@@ -435,7 +434,7 @@ def load_prepare_datasets(
            + "|"
            + "test"
            + "|"
-            + str(seed)
+            + str(cfg.seed or 42)
        )
        train_fingerprint = md5(to_hash_train)
        test_fingerprint = md5(to_hash_test)
--- a/src/axolotl/utils/data/utils.py
+++ b/src/axolotl/utils/data/utils.py
@@ -2,7 +2,6 @@
 import functools
 import hashlib
 import logging
 import time
 from enum import Enum
@@ -12,10 +11,11 @@ import requests
 from datasets import Dataset, IterableDataset
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from axolotl.utils.samplers.utils import get_dataset_lengths
 from axolotl.utils.trainer import drop_long_seq
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class RetryStrategy(Enum):
--- a/src/axolotl/utils/logging.py
+++ b/src/axolotl/utils/logging.py
@@ -0,0 +1,62 @@
 """
 logging helpers to only log on main process
 """
 import functools
 import logging
 import os
 from axolotl.utils.distributed import is_main_process
 # Adapted from Accelerate
 # https://github.com/huggingface/accelerate/blob/main/src/accelerate/logging.py
 class MultiProcessAdapter(logging.LoggerAdapter):
    """
    logger adapter for distributed logging, specifically to only log on main process
    """
    def __init__(self, logger, use_environ=False, extra=None):
        super().__init__(logger, extra)
        self.use_environ = use_environ
    @staticmethod
    def _should_log(main_process_only, use_environ=False):
        return not main_process_only or (
            main_process_only and is_main_process(use_environ=use_environ)
        )
    def log(self, level, msg, *args, **kwargs):
        use_environ = kwargs.pop("use_environ", self.use_environ)
        main_process_only = kwargs.pop("main_process_only", True)
        kwargs.setdefault("stacklevel", 2)
        if self.isEnabledFor(level) and self._should_log(
            main_process_only, use_environ=use_environ
        ):
            msg, kwargs = self.process(msg, kwargs)
            self.logger.log(level, msg, *args, **kwargs)
    @functools.lru_cache(maxsize=10)
    def warning_once(self, *args, **kwargs):
        """
        This method is identical to `logger.warning()`, but will emit the warning with the same message only once
        Note: The cache is for the function arguments, so 2 different callers using the same arguments will hit the
        cache. The assumption here is that all warning messages are unique across the code. If they aren't then need to
        switch to another type of cache that includes the caller frame information in the hashing function.
        """
        self.warning(*args, **kwargs)
 def get_logger(
    name: str, log_level: str | None = None, use_environ: bool = False
 ) -> MultiProcessAdapter:
    if log_level is None:
        log_level = os.environ.get("AXOLOTL_LOG_LEVEL", None)
    logger = logging.getLogger(name)
    if log_level is not None:
        logger.setLevel(log_level.upper())
        logger.root.setLevel(log_level.upper())
    return MultiProcessAdapter(logger, use_environ=use_environ, extra={})
--- a/src/axolotl/utils/quantization.py
+++ b/src/axolotl/utils/quantization.py
@@ -2,8 +2,6 @@
 Utilities for quantization including QAT and PTQ using torchao.
 """
 import logging
 import torch
 from torch import nn
 from torchao.core.config import AOBaseConfig
@@ -25,8 +23,6 @@ from torchao.quantization.quant_api import (
 from axolotl.utils.schemas.enums import TorchIntDType
 LOG = logging.getLogger(__name__)
 def get_ptq_config(
    weight_dtype: TorchIntDType,
--- a/src/axolotl/utils/samplers/multipack.py
+++ b/src/axolotl/utils/samplers/multipack.py
@@ -3,7 +3,6 @@ Multipack Batch Sampler - An efficient batch sampler for packing variable-length
 into fixed-capacity batches to optimize memory usage and training throughput.
 """
 import logging
 import math
 from concurrent.futures import ProcessPoolExecutor
 from multiprocessing import cpu_count, get_context
@@ -14,9 +13,9 @@ import numpy as np
 from torch.utils.data import BatchSampler, Sampler, SequentialSampler
 from axolotl.utils.distributed import reduce_and_broadcast
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 LOG.setLevel(logging.INFO)
@numba.njit
--- a/src/axolotl/utils/schemas/config.py
+++ b/src/axolotl/utils/schemas/config.py
@@ -2,7 +2,6 @@
 # pylint: disable=too-many-lines
 import logging
 import os
 from typing import Annotated, Any, Literal
@@ -18,6 +17,7 @@ from pydantic import (
 )
 from transformers.utils.import_utils import is_torch_npu_available
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.datasets import (
    DatasetConfig,
    DPODataset,
@@ -49,7 +49,7 @@ from axolotl.utils.schemas.training import HyperparametersConfig
 from axolotl.utils.schemas.trl import TRLConfig
 from axolotl.utils.schemas.vllm import VllmConfig
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__, use_environ=True)
 SUPPORTED_METRICS = {"sacrebleu", "comet", "ter", "chrf", "perplexity"}
--- a/src/axolotl/utils/schemas/deprecated.py
+++ b/src/axolotl/utils/schemas/deprecated.py
@@ -1,11 +1,12 @@
 """Pydantic models for deprecated and remapped configuration parameters"""
 import logging
 from typing import Any
 from pydantic import BaseModel, Field, field_validator
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 class DeprecatedParameters(BaseModel):
--- a/src/axolotl/utils/schemas/enums.py
+++ b/src/axolotl/utils/schemas/enums.py
@@ -64,6 +64,7 @@ class ChatTemplate(str, Enum):
    command_a_rag = "command_a_rag"  # pylint: disable=invalid-name
    aya = "aya"  # pylint: disable=invalid-name
 class CustomSupportedOptimizers(str, Enum):
    """Custom supported optimizers"""
--- a/src/axolotl/utils/schemas/integrations.py
+++ b/src/axolotl/utils/schemas/integrations.py
@@ -1,11 +1,12 @@
 """Pydantic models for Axolotl integrations"""
 import logging
 from typing import Any
 from pydantic import BaseModel, Field, model_validator
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 class MLFlowConfig(BaseModel):
--- a/src/axolotl/utils/schemas/model.py
+++ b/src/axolotl/utils/schemas/model.py
@@ -1,10 +1,10 @@
 """Pydantic models for model input / output, etc. configuration"""
 import logging
 from pydantic import BaseModel, Field, field_validator
-LOG = logging.getLogger(__name__)
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__, use_environ=True)
 class ModelInputConfig(BaseModel):
--- a/src/axolotl/utils/schemas/training.py
+++ b/src/axolotl/utils/schemas/training.py
@@ -1,15 +1,15 @@
 """Pydantic models for training hyperparameters"""
 import logging
 from typing import Any, Literal
 from pydantic import BaseModel, Field, field_validator
 from transformers import SchedulerType
 from transformers.training_args import OptimizerNames
 from axolotl.utils.logging import get_logger
 from axolotl.utils.schemas.enums import CustomSupportedOptimizers
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 class LrGroup(BaseModel):
--- a/src/axolotl/utils/schemas/utils.py
+++ b/src/axolotl/utils/schemas/utils.py
@@ -1,8 +1,8 @@
 """Utilities for Axolotl Pydantic models"""
-import logging
+from axolotl.utils.logging import get_logger
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 def handle_legacy_message_fields_logic(data: dict) -> dict:
--- a/src/axolotl/utils/tokenization.py
+++ b/src/axolotl/utils/tokenization.py
@@ -1,10 +1,10 @@
 """Module for tokenization utilities"""
 import logging
 from termcolor import colored
-LOG = logging.getLogger("axolotl")
+from axolotl.utils.logging import get_logger
 LOG = get_logger(__name__)
 def check_dataset_labels(
--- a/src/axolotl/utils/trainer.py
+++ b/src/axolotl/utils/trainer.py
@@ -22,7 +22,7 @@ from axolotl.utils.distributed import reduce_and_broadcast
 from axolotl.utils.environment import check_cuda_p2p_ib_support
 from axolotl.utils.samplers import MultipackBatchSampler, get_dataset_lengths
-LOG = get_logger("axolotl")
+LOG = get_logger(__name__)
@torch.jit.script
@@ -402,7 +402,7 @@ def calculate_total_num_steps(cfg, train_dataset, update=True):
            .apply(len)
            .values
        )
-        LOG.debug(f"total_num_tokens: {total_num_tokens:_}", main_process_only=True)
+        LOG.debug(f"total_num_tokens: {total_num_tokens:_}")
        if update:
            cfg.total_num_tokens = total_num_tokens
@@ -420,10 +420,7 @@ def calculate_total_num_steps(cfg, train_dataset, update=True):
            .apply(lambda x: np.sum(np.array(x) != -100))
            .sum()
        )
-        LOG.debug(
+        LOG.debug(f"`total_supervised_tokens: {total_supervised_tokens:_}`")
            f"`total_supervised_tokens: {total_supervised_tokens:_}`",
            main_process_only=True,
        )
        if update:
            cfg.total_supervised_tokens = total_supervised_tokens
@@ -448,8 +445,7 @@ def calculate_total_num_steps(cfg, train_dataset, update=True):
                * cfg.sequence_parallel_degree
            )
            LOG.debug(
-                f"total_num_tokens: {cfg.total_num_tokens:_}, total_num_steps: {total_num_steps:_}",
+                f"total_num_tokens: {cfg.total_num_tokens:_}, total_num_steps: {total_num_steps:_}"
                main_process_only=True,
            )
        else:
            if cfg.flash_attention and not cfg.multipack_real_batches:
@@ -478,7 +474,7 @@ def calculate_total_num_steps(cfg, train_dataset, update=True):
                batch_sampler=sampler,
            )
            data_loader_len = len(data_loader) * cfg.micro_batch_size // cfg.batch_size
-            LOG.debug(f"data_loader_len: {data_loader_len}", main_process_only=True)
+            LOG.debug(f"data_loader_len: {data_loader_len}")
            # FIXME: is there a bug here somewhere? the total num steps depends
            # on the agreed on value for sample_packing_eff_est
            total_num_steps = int(
@@ -500,10 +496,7 @@ def calculate_total_num_steps(cfg, train_dataset, update=True):
            )
            if update:
                cfg.sample_packing_eff_est = sample_packing_eff_est
-            LOG.debug(
+            LOG.debug(f"sample_packing_eff_est: {cfg.sample_packing_eff_est}")
                f"sample_packing_eff_est: {cfg.sample_packing_eff_est}",
                main_process_only=True,
            )
    else:
        total_num_steps = int(
            math.ceil(
@@ -513,7 +506,7 @@ def calculate_total_num_steps(cfg, train_dataset, update=True):
                / cfg.batch_size
            )
        )
-    LOG.debug(f"total_num_steps: {total_num_steps}", main_process_only=True)
+    LOG.debug(f"total_num_steps: {total_num_steps}")
    return total_num_steps
--- a/tests/e2e/multigpu/solo/test_flex.py
+++ b/tests/e2e/multigpu/solo/test_flex.py
@@ -2,7 +2,6 @@
 E2E tests for multigpu lora tinyllama
 """
 import logging
 import os
 from pathlib import Path
@@ -14,10 +13,11 @@ from transformers.testing_utils import get_torch_dist_unique_port
 from transformers.utils import is_torch_bf16_gpu_available
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from tests.e2e.utils import check_tensorboard, require_torch_2_6_0
-LOG = logging.getLogger("axolotl.tests.e2e.multigpu")
+LOG = get_logger("axolotl.tests.e2e.multigpu")
 os.environ["WANDB_DISABLED"] = "true"
 AXOLOTL_ROOT = Path(__file__).parent.parent.parent.parent
--- a/tests/e2e/multigpu/test_eval.py
+++ b/tests/e2e/multigpu/test_eval.py
@@ -2,7 +2,6 @@
 E2E tests for multigpu eval
 """
 import logging
 import os
 from pathlib import Path
@@ -11,10 +10,11 @@ from accelerate.test_utils import execute_subprocess_async
 from transformers.testing_utils import get_torch_dist_unique_port
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from ..utils import check_tensorboard
-LOG = logging.getLogger("axolotl.tests.e2e.multigpu")
+LOG = get_logger("axolotl.tests.e2e.multigpu")
 os.environ["WANDB_DISABLED"] = "true"
 AXOLOTL_ROOT = Path(__file__).parent.parent.parent.parent
--- a/tests/e2e/multigpu/test_gemma3.py
+++ b/tests/e2e/multigpu/test_gemma3.py
@@ -2,7 +2,6 @@
 E2E tests for multigpu lora tinyllama
 """
 import logging
 import os
 from pathlib import Path
@@ -13,10 +12,11 @@ from huggingface_hub import snapshot_download
 from transformers.testing_utils import get_torch_dist_unique_port
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from tests.e2e.utils import check_tensorboard
-LOG = logging.getLogger("axolotl.tests.e2e.multigpu")
+LOG = get_logger("axolotl.tests.e2e.multigpu")
 os.environ["WANDB_DISABLED"] = "true"
 AXOLOTL_ROOT = Path(__file__).parent.parent.parent.parent
--- a/tests/e2e/multigpu/test_llama.py
+++ b/tests/e2e/multigpu/test_llama.py
@@ -2,7 +2,6 @@
 E2E tests for multigpu lora tinyllama
 """
 import logging
 import os
 from pathlib import Path
@@ -15,10 +14,11 @@ from packaging import version
 from transformers.testing_utils import get_torch_dist_unique_port
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from tests.e2e.utils import check_tensorboard, require_torch_2_6_0
-LOG = logging.getLogger("axolotl.tests.e2e.multigpu")
+LOG = get_logger("axolotl.tests.e2e.multigpu")
 os.environ["WANDB_DISABLED"] = "true"
 AXOLOTL_ROOT = Path(__file__).parent.parent.parent.parent
--- a/tests/e2e/multigpu/test_qwen2.py
+++ b/tests/e2e/multigpu/test_qwen2.py
@@ -2,7 +2,6 @@
 E2E tests for multigpu qwen2
 """
 import logging
 import os
 from pathlib import Path
@@ -12,8 +11,9 @@ from accelerate.test_utils import execute_subprocess_async
 from transformers.testing_utils import get_torch_dist_unique_port
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
-LOG = logging.getLogger("axolotl.tests.e2e.multigpu")
+LOG = get_logger("axolotl.tests.e2e.multigpu")
 os.environ["WANDB_DISABLED"] = "true"
--- a/tests/e2e/multigpu/test_ray.py
+++ b/tests/e2e/multigpu/test_ray.py
@@ -2,7 +2,6 @@
 E2E tests for multigpu post-training use Ray Train
 """
 import logging
 import os
 from pathlib import Path
@@ -11,10 +10,11 @@ import yaml
 from accelerate.test_utils import execute_subprocess_async
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from tests.e2e.utils import check_tensorboard, require_torch_lt_2_6_0
-LOG = logging.getLogger(__name__)
+LOG = get_logger(__name__)
 os.environ["WANDB_DISABLED"] = "true"
 AXOLOTL_ROOT = Path(__file__).parent.parent.parent.parent
--- a/tests/e2e/patched/test_4d_multipack_llama.py
+++ b/tests/e2e/patched/test_4d_multipack_llama.py
@@ -2,7 +2,6 @@
 E2E tests for multipack fft llama using 4d attention masks
 """
 import logging
 import os
 import unittest
@@ -11,10 +10,11 @@ from axolotl.common.datasets import load_datasets
 from axolotl.train import train
 from axolotl.utils.config import normalize_config, validate_config
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from ..utils import check_model_output_exists, with_temp_dir
-LOG = logging.getLogger("axolotl.tests.e2e")
+LOG = get_logger("axolotl.tests.e2e")
 os.environ["WANDB_DISABLED"] = "true"
--- a/tests/e2e/patched/test_fa_xentropy.py
+++ b/tests/e2e/patched/test_fa_xentropy.py
@@ -2,7 +2,6 @@
 E2E tests for lora llama
 """
 import logging
 import os
 import pytest
@@ -13,10 +12,11 @@ from axolotl.common.datasets import load_datasets
 from axolotl.train import train
 from axolotl.utils.config import normalize_config, validate_config
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from ..utils import check_model_output_exists, check_tensorboard
-LOG = logging.getLogger("axolotl.tests.e2e")
+LOG = get_logger("axolotl.tests.e2e")
 os.environ["WANDB_DISABLED"] = "true"
--- a/tests/e2e/patched/test_falcon_samplepack.py
+++ b/tests/e2e/patched/test_falcon_samplepack.py
@@ -2,7 +2,6 @@
 E2E tests for falcon
 """
 import logging
 import os
 import unittest
@@ -13,10 +12,11 @@ from axolotl.common.datasets import load_datasets
 from axolotl.train import train
 from axolotl.utils.config import normalize_config, validate_config
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from ..utils import check_model_output_exists, with_temp_dir
-LOG = logging.getLogger("axolotl.tests.e2e")
+LOG = get_logger("axolotl.tests.e2e")
 os.environ["WANDB_DISABLED"] = "true"
--- a/tests/e2e/patched/test_fused_llama.py
+++ b/tests/e2e/patched/test_fused_llama.py
@@ -2,7 +2,6 @@
 E2E tests for lora llama
 """
 import logging
 import os
 import unittest
@@ -14,10 +13,11 @@ from axolotl.common.datasets import load_datasets
 from axolotl.train import train
 from axolotl.utils.config import normalize_config, validate_config
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from ..utils import check_model_output_exists, with_temp_dir
-LOG = logging.getLogger("axolotl.tests.e2e")
+LOG = get_logger("axolotl.tests.e2e")
 os.environ["WANDB_DISABLED"] = "true"
--- a/tests/e2e/patched/test_llama_s2_attention.py
+++ b/tests/e2e/patched/test_llama_s2_attention.py
@@ -2,7 +2,6 @@
 E2E tests for llama w/ S2 attn
 """
 import logging
 import os
 import unittest
@@ -13,10 +12,11 @@ from axolotl.common.datasets import load_datasets
 from axolotl.train import train
 from axolotl.utils.config import normalize_config, validate_config
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from ..utils import check_model_output_exists, with_temp_dir
-LOG = logging.getLogger("axolotl.tests.e2e")
+LOG = get_logger("axolotl.tests.e2e")
 os.environ["WANDB_DISABLED"] = "true"
--- a/tests/e2e/patched/test_lora_llama_multipack.py
+++ b/tests/e2e/patched/test_lora_llama_multipack.py
@@ -2,7 +2,6 @@
 E2E tests for lora llama
 """
 import logging
 import os
 import unittest
@@ -14,10 +13,11 @@ from axolotl.common.datasets import load_datasets
 from axolotl.train import train
 from axolotl.utils.config import normalize_config, validate_config
 from axolotl.utils.dict import DictDefault
 from axolotl.utils.logging import get_logger
 from ..utils import check_model_output_exists, with_temp_dir
-LOG = logging.getLogger("axolotl.tests.e2e")
+LOG = get_logger("axolotl.tests.e2e")
 os.environ["WANDB_DISABLED"] = "true"
--- a/Show More
+++ b/Show More