removing unused code

2025-03-05 15:18:53 +00:00
parent c5071dfd8a
commit f487910444
2 changed files with 2 additions and 123 deletions
--- a/src/axolotl/monkeypatch/sequence_parallel.py
+++ b/src/axolotl/monkeypatch/sequence_parallel.py
@@ -1,123 +0,0 @@
 """
 Utilities for sequence parallelism implementation.
 Modified from:
 https://github.com/Qihoo360/360-LLaMA-Factory/blob/f295a5760cceebe069fb5b975813d2c945598acb/src/llamafactory/model/model_utils/sequence_parallel.py
 """
 from functools import partial
 import torch.distributed as dist
 import transformers
 import transformers.modeling_attn_mask_utils
 from ring_flash_attn import (
    ring_flash_attn_func,
    stripe_flash_attn_func,
    zigzag_ring_flash_attn_func,
 )
 def ring_flash_attn_forward(
    query_states,
    key_states,
    value_states,
    attention_mask,
    q_len,
    dropout=0,
    sliding_window=None,
    is_causal=True,
    group=None,
    **kwargs,
 ):
    attn_output = ring_flash_attn_func(
        query_states, key_states, value_states, dropout, causal=is_causal, group=group
    )
    return attn_output
 def zigzag_flash_attn_forward(
    query_states,
    key_states,
    value_states,
    attention_mask,
    q_len,
    dropout=0,
    sliding_window=None,
    is_causal=True,
    group=None,
    **kwargs,
 ):
    attn_output = zigzag_ring_flash_attn_func(
        query_states, key_states, value_states, dropout, causal=is_causal, group=group
    )
    return attn_output
 def stripe_flash_attn_forward(
    query_states,
    key_states,
    value_states,
    attention_mask,
    q_len,
    dropout=0,
    sliding_window=None,
    is_causal=True,
    group=None,
    **kwargs,
 ):
    attn_output = stripe_flash_attn_func(
        query_states, key_states, value_states, dropout, causal=is_causal, group=group
    )
    return attn_output
 def init_sp_group(sp_size):
    assert dist.is_initialized()
    world_size = dist.get_world_size()
    assert (
        world_size % sp_size == 0
    ), "Total number of GPUs must be a multiple of sequence_parallel_size."
    sp_group_num = world_size // sp_size
    sp_ranks_list = [
        list(range(i * sp_size, i * sp_size + sp_size)) for i in range(sp_group_num)
    ]
    sp_groups = [dist.new_group(sp_ranks_this) for sp_ranks_this in sp_ranks_list]
    global_rank_this = dist.get_rank()
    sp_idx = global_rank_this // sp_size
    return sp_groups[sp_idx]
 def apply_sequence_parallel(cfg):
    if cfg.sequence_parallel_size == 1:
        return None  # no sequence parallelism
    # init sequence-parallel groups here
    group_this = init_sp_group(cfg.sequence_parallel_size)
    if cfg.sequence_parallel_mode == "ring":
        new_flash_attention_forward = partial(ring_flash_attn_forward, group=group_this)
    elif cfg.sequence_parallel_mode == "zigzag-ring":
        new_flash_attention_forward = partial(
            zigzag_flash_attn_forward, group=group_this
        )
    elif cfg.sequence_parallel_mode == "stripe":
        new_flash_attention_forward = partial(
            stripe_flash_attn_forward, group=group_this
        )
    else:
        raise NotImplementedError(
            "Other sequence parallel modes are to be implemented."
        )
    # monkey patching
    transformers.modeling_flash_attention_utils._flash_attention_forward = (
        new_flash_attention_forward
    )
    return group_this
--- a/src/axolotl/utils/schemas/config.py
+++ b/src/axolotl/utils/schemas/config.py
@@ -245,6 +245,8 @@ class AxolotlInputConfig(
    val_set_size: float | None = Field(default=0.0)
    sequence_parallel_size: int | None = 1
    special_tokens: SpecialTokensConfig | None = None
    tokens: list[str] | None = None
    added_tokens_overrides: dict[int, str] | None = None