fix: voxtralprocessor broken (#3255) [skip ci]

* fix: voxtralprocessor broken * chore: add todo * chore: wording
2025-11-13 22:18:42 +07:00
parent dd78f2e0cc
commit 9901ee5602
4 changed files with 26 additions and 6 deletions
--- a/docs/multimodal.qmd
+++ b/docs/multimodal.qmd
@@ -124,6 +124,8 @@ Please make sure to install audio lib via `pip3 install librosa==0.11.0 'mistral
 ```yaml
 base_model: mistralai/Voxtral-Mini-3B-2507
 processor_type: VoxtralProcessor
 ```
 ### Gemma-3 {#sec-gemma-3}
--- a/examples/voxtral/voxtral-mini-audio-qlora.yml
+++ b/examples/voxtral/voxtral-mini-audio-qlora.yml
@@ -1,5 +1,5 @@
 base_model: mistralai/Voxtral-Mini-3B-2507
-processor_type: AutoProcessor
+processor_type: VoxtralProcessor
 # Automatically upload checkpoint and final model to HF
 # hub_model_id: username/custom_model_name
--- a/src/axolotl/loaders/processor.py
+++ b/src/axolotl/loaders/processor.py
@@ -1,7 +1,5 @@
 """Processor loading functionality for multi-modal models"""
 from typing import Any
 import transformers
 from transformers import (
    AutoProcessor,
@@ -15,13 +13,33 @@ LOG = get_logger(__name__)
 def load_processor(cfg: DictDefault, tokenizer: PreTrainedTokenizerBase):
    processor_kwargs: dict[str, Any] = {}  # Do we actually need this?
    processor_cls = AutoProcessor
    if cfg.processor_type:
        processor_cls = getattr(transformers, cfg.processor_type)
    if cfg.tokenizer_use_mistral_common:
        def _patch_mistralcommontokenizer():
            """
            Transformers v5 stops reading the sub-processor.
            We need to patch this, so both processors use this.
            """
            import transformers.tokenization_mistral_common as tokenization_mistral_common
            from axolotl.utils.mistral import HFMistralTokenizer
            tokenization_mistral_common.MistralCommonTokenizer = HFMistralTokenizer
        _patch_mistralcommontokenizer()
        from transformers import VoxtralProcessor
        if processor_cls == VoxtralProcessor:
            return VoxtralProcessor.from_pretrained(
                cfg.processor_config,
            )
        from axolotl.utils.mistral import Mistral3Processor
        return Mistral3Processor(
@@ -32,7 +50,6 @@ def load_processor(cfg: DictDefault, tokenizer: PreTrainedTokenizerBase):
        cfg.processor_config,
        trust_remote_code=cfg.trust_remote_code or False,
        tokenizer=tokenizer,
        **processor_kwargs,
    )
    # Attempt to load image size from processor if available
--- a/src/axolotl/utils/mistral/mistral3_processor.py
+++ b/src/axolotl/utils/mistral/mistral3_processor.py
@@ -30,6 +30,7 @@ class Mistral3Processor(ProcessorMixin):
    Wraps HFMistralTokenizer and adds image processing capabilities.
    """
    # TODO(nano): This should be removed in transformers V5
    attributes = ["tokenizer"]
    tokenizer_class = "HFMistralTokenizer"