handle padding/collation for KD datasets

2024-12-18 18:07:27 -05:00
parent 21caaaa2e9
commit e2aba41939
5 changed files with 161 additions and 7 deletions
--- a/src/axolotl/core/trainer_builder.py
+++ b/src/axolotl/core/trainer_builder.py
@@ -63,6 +63,7 @@ from axolotl.utils.callbacks.profiler import PytorchProfilerCallback
 from axolotl.utils.chat_templates import get_chat_template_from_config
 from axolotl.utils.collators import (
    BatchSamplerDataCollatorForSeq2Seq,
+    DataCollatorForKD,
    DataCollatorForSeq2Seq,
    MambaDataCollator,
    V2BatchSamplerDataCollatorForSeq2Seq,
@@ -772,6 +773,7 @@ class HFCausalTrainerBuilder(TrainerBuilderBase):
            Union[
                V2BatchSamplerDataCollatorForSeq2Seq,
                BatchSamplerDataCollatorForSeq2Seq,
+                DataCollatorForKD,
                DataCollatorForSeq2Seq,
                DataCollatorWithFlattening,
                RewardDataCollatorWithPadding,
@@ -802,6 +804,8 @@ class HFCausalTrainerBuilder(TrainerBuilderBase):
                collator_args.pop(0)
                kwargs.pop("pad_to_multiple_of", None)
                kwargs.pop("padding", None)
+            elif self.cfg.trainer == "kd":
+                collator = DataCollatorForKD
            else:
                collator = DataCollatorForSeq2Seq

--- a/src/axolotl/datasets.py
+++ b/src/axolotl/datasets.py
@@ -56,7 +56,7 @@ class TokenizedPromptDataset(Dataset):
            dataset = dataset.filter(
                self.prompt_tokenizer.filter_rows,
                num_proc=num_proc,
-                desc="Filtering Rows",
+                desc="Strategy Filtering Rows",
            )
        return dataset.map(
            self.prompt_tokenizer.tokenize_prompt,
--- a/src/axolotl/prompt_strategies/chat_template.py
+++ b/src/axolotl/prompt_strategies/chat_template.py
@@ -479,12 +479,6 @@ class ChatTemplateStrategyWithKD(ChatTemplateStrategy):
        self.logprobs_field = logprobs_field
        self.temperature = temperature

-        # remove rows where the logprob field is not available
-        self.filter_rows = (
-            lambda row: self.logprobs_field in row
-            and row[self.logprobs_field] is not None
-        )
-
        super().__init__(
            prompter,
            tokenizer,
@@ -541,7 +535,9 @@ class ChatTemplateStrategyWithKD(ChatTemplateStrategy):
        return sample

    def tokenize_prompt(self, prompt):
+        logprobs = prompt.pop(self.logprobs_field)
        tokenized_prompt = super().tokenize_prompt(prompt)
+        tokenized_prompt[self.logprobs_field] = logprobs
        return self.transform_logprobs(tokenized_prompt)


--- a/src/axolotl/utils/collators/init.py
+++ b/src/axolotl/utils/collators/init.py
@@ -7,4 +7,5 @@ from .batching import (  # noqa: F401
    PretrainingBatchSamplerDataCollatorForSeq2Seq,
    V2BatchSamplerDataCollatorForSeq2Seq,
 )
+from .kd import DataCollatorForKD  # noqa: F401
 from .mamba import MambaDataCollator  # noqa: F401
--- a/src/axolotl/utils/collators/kd.py
+++ b/src/axolotl/utils/collators/kd.py
@@ -0,0 +1,153 @@
+"""
+DataCollator for axolotl to handle KD fields
+"""
+
+from dataclasses import dataclass
+from typing import Any, Optional, Union
+
+import numpy as np
+import torch
+from transformers import PreTrainedTokenizerBase
+from transformers.utils import PaddingStrategy
+
+from axolotl.utils.collators.batching import DataCollatorForSeq2Seq
+
+
+@dataclass
+class DataCollatorForKD(DataCollatorForSeq2Seq):
+    """
+    Data collator for KD, including handling KD-specific fields.
+    """
+
+    tokenizer: PreTrainedTokenizerBase
+    model: Optional[Any] = None
+    padding: Union[bool, str, PaddingStrategy] = True
+    max_length: Optional[int] = None
+    pad_to_multiple_of: Optional[int] = None
+    label_pad_token_id: int = -100
+    position_pad_token_id: int = 0
+    return_tensors: str = "pt"
+
+    def __call__(self, features, return_tensors=None):
+        if return_tensors is None:
+            return_tensors = self.return_tensors
+
+        # Extract labels and position_ids first (as in original code)
+        for feature_name, pad_token_id in [
+            ("labels", self.label_pad_token_id),
+            ("position_ids", self.position_pad_token_id),
+        ]:
+            if feature_name in features[0]:
+                feat = [f[feature_name] for f in features]
+                max_len = max(len(x) for x in feat)
+                if self.pad_to_multiple_of is not None:
+                    max_len = (
+                        (max_len + self.pad_to_multiple_of - 1)
+                        // self.pad_to_multiple_of
+                    ) * self.pad_to_multiple_of
+
+                padding_side = self.tokenizer.padding_side
+                for f in features:  # pylint: disable=invalid-name
+                    remainder = [pad_token_id] * (max_len - len(f[feature_name]))
+                    if isinstance(f[feature_name], list):
+                        f[feature_name] = (
+                            f[feature_name] + remainder
+                            if padding_side == "right"
+                            else remainder + f[feature_name]
+                        )
+                    else:
+                        # If they are numpy arrays
+                        if padding_side == "right":
+                            f[feature_name] = np.concatenate(
+                                [f[feature_name], remainder]
+                            ).astype(np.int64)
+                        else:
+                            f[feature_name] = np.concatenate(
+                                [remainder, f[feature_name]]
+                            ).astype(np.int64)
+
+        # Handle target_logprobs and target_token_ids manually
+        target_logprobs_list = []
+        target_token_ids_list = []
+        has_teacher_data = ("target_logprobs" in features[0]) and (
+            "target_token_ids" in features[0]
+        )
+
+        if has_teacher_data:
+            # Extract these fields
+            for f in features:  # pylint: disable=invalid-name
+                target_logprobs_list.append(f.pop("target_logprobs"))
+                target_token_ids_list.append(f.pop("target_token_ids"))
+
+            # Determine max lengths to pad
+            max_teacher_seq_len = max(len(seq) for seq in target_logprobs_list)
+            max_k = max(len(seq_k) for seq in target_logprobs_list for seq_k in seq)
+
+            # Pad target_logprobs and target_token_ids
+            padded_target_logprobs = []
+            padded_target_token_ids = []
+            for t_logprobs, t_ids in zip(target_logprobs_list, target_token_ids_list):
+                # Pad seq dimension
+                t_logprobs_padded = []
+                t_ids_padded = []
+                for i in range(  # pylint: disable=consider-using-enumerate
+                    len(t_logprobs)
+                ):
+                    lp = t_logprobs[i]  # pylint: disable=invalid-name
+                    ids = t_ids[i]
+                    # Pad K dimension
+                    lp_len = len(lp)
+                    if lp_len < max_k:
+                        lp = lp + [-float("inf")] * (  # pylint: disable=invalid-name
+                            max_k - lp_len
+                        )  # or some pad value that won't break exp()
+                        ids = ids + [0] * (max_k - lp_len)
+                    t_logprobs_padded.append(lp)
+                    t_ids_padded.append(ids)
+
+                # If sequence is shorter than max_teacher_seq_len
+                seq_len_diff = max_teacher_seq_len - len(t_logprobs_padded)
+                if seq_len_diff > 0:
+                    t_logprobs_padded.extend(
+                        [[-float("inf")] * max_k for _ in range(seq_len_diff)]
+                    )
+                    t_ids_padded.extend([[0] * max_k for _ in range(seq_len_diff)])
+
+                padded_target_logprobs.append(t_logprobs_padded)
+                padded_target_token_ids.append(t_ids_padded)
+
+            # Convert to tensors
+            padded_target_logprobs = torch.tensor(
+                padded_target_logprobs, dtype=torch.float
+            )
+            # We can store token_ids as long tensor
+            padded_target_token_ids = torch.tensor(
+                padded_target_token_ids, dtype=torch.long
+            )
+
+        # Now pad using tokenizer for the remaining fields (input_ids, attention_mask, etc.)
+        features = self.tokenizer.pad(
+            features,
+            padding=self.padding,
+            max_length=self.max_length,
+            pad_to_multiple_of=self.pad_to_multiple_of,
+            return_tensors=return_tensors,
+        )
+
+        # Add back the teacher data if it exists
+        if has_teacher_data:
+            features["target_logprobs"] = padded_target_logprobs
+            features["target_token_ids"] = padded_target_token_ids
+
+        # Prepare decoder_input_ids if applicable
+        if (
+            "labels" in features
+            and self.model is not None
+            and hasattr(self.model, "prepare_decoder_input_ids_from_labels")
+        ):
+            decoder_input_ids = self.model.prepare_decoder_input_ids_from_labels(
+                labels=features["labels"]
+            )
+            features["decoder_input_ids"] = decoder_input_ids
+
+        return features