axolotl

tocmo0nlord/axolotl

Fork 0

Commit Graph

Select branches

Hide Pull Requests

1947fix

1991test

20230920-btlm

20231212-fixes

20240216-updates

20240307-updates

20240404-lisa-determinism

3181

4bit-optimizers

775-option-to-drop-vs-truncate-on-rows-longer-than-context-length

NanoCode012-patch-1

accelerator-args-builder

activation-offloading-torchtune

activations

activeblue/main

async-grpo-patched-v2

attention_enum

attn-implementation-refactor

attn-patches

autodoc

autogptq-tests

axolotl-ci-hf

base-model-readme-update

benchmark-callbacks-next

bursteratom-doc-faq-update

chat-dataset-tool

chat-template-granite

chore/docstring-distributed

cj_tokenizer_default_prompt_template

cli-cloud-modal-math-hard

cli-refactor

codecov-pulls-only

coderabbitai/docstrings/3e51a68

coderabbitai/docstrings/QVUilv72ojQNaYsCLVNpUpfo2rK1ZU5x90oPNXYz0ZfsWzWSHca36pjgaU5JOtZOA4gNjbjVYxShdRmkm7fGSlW

coderabbitai/docstrings/b234532

colab-misc-fixes

colab-misc-fixes-test

completion-json

compute-perplexity-metrics

cp-sdpa

cuda-12.8.1

custom-modeling

custom-trainer-cls

datasets-351

datasets-refactor

debug-hf-home-cache

deepspeed-low-cpu-mem

deepspeed_0_14_4

destroy-pg

dev-base

device-mesh

devstral-support

dft

diff-transformer

diffusion-custom-loss

diffusion-custom-models

diffusion-next-token-trainer

djsaunde-patch-1

docker-base-nvcr-pytorch

docker-cleanup-20231029

docs-lint-20250212

dpo-spawn-fix

dump-config

dynamic-sft

e2e-fsdp-trainer

embeddings-resize

enable_tp

eos-hell

exp-expand-len

fa-261

fa-check

fa3-hopper

feat/beautiful-readme

feat/glm45

feat/glmflash-other

feat/liger-deepseekv3

feat/linearize

feat/lmeval-baseten

feat/phi_35_vision

feat/pref_liger

feat/soap-optim-v2

feat/spaces-ui

feat/torchao-qlora

feat/wizard

feat_hqq

feature/attn-patches

feature/enable-huggingface-dataset-revision

feature/relora-rebased

fix-ddp_find_unused_parameters

fix-l3-lora

fix-merge-lint-issue

fix-preview

fix/cce-linear

fix/cp-waste

fix/diffusion

fix/doc-key

fix/dpo-labels

fix/eval-accu

fix/gemma3-text-only

fix/gemma3n-text-attention

fix/granite-speech

fix/hpc-root

fix/issue-1-build-deps

fix/issue-2-flash-attn-install

fix/issue-3-telemetry-whitelist

fix/issue-4-deepspeed-optional

fix/issue-5-8-docs

fix/issue-6-default-attention

fix/issue-7-hf-token-check

fix/kd-trainer-num-items

fix/merge-lora-fp32

fix/replace_jackllama

fix/rl-trainer-arg

fix/vllm-version

fix/xformers

fix_kto

fixtypo

flan-no-bos

flash-attn-2_5_5

flash-attn-fix-patches-wo-sample-packing

flex_patching_update

flx_attn_support

fp8

fsdp-defaults

fsdp-fft

fsdp-fix

fsdp-qdora

fsdp2

fsdp2_fp32

fused-mlp-ez

gh-pages

grouped_lr_squashed

grpo-path

grpo-path-v2

grpo-ref-model-cleanup

grpo_liger

hamelsmu-patch-1

hf-trainer-refactor

hymba_multipack2

ia3-peft

iterable-optional

jagged-restart-lr-scheduler-v3

kd-fix-20250519-v2

kd-logits-view

kd-logprob-data

kd-trainer

kd-trainer-2

kd-trainer-pre

kd-trainer-rebased

kd-trainer-v2

kd-trainer-zscore

keep_in_memory

kernelize-scattermoe-lora

kto_fix

kwargs-refactor

latent-space

lhl-moe-aux-loss-free

liger-063

liger-065

liger-dpo

lisa

llama-4-examples

llama-4-z3

llama-dropout

llama-flash-attn-fix

llama-multipack

llama4

llama4-patches

llava

llava-train

llmcompressor-sft

llmcompressor-sft-v2

llmcompressor-sft-wing

lora-fsdp2-doc

lora-kernels-deepspeed

lora-kernels-doc-fix

lora-quant-state-offset

lora_bf16

lora_kernels_fsdp

main

main-base

map-dataset-fetcher-fix

maverick-example

merge-lora-on-complete

merge-lora-tests

merged-2554

mistral-support

mixtral_optimized

mixtral_swiglu

mm2

mm3

mm_mc_chat

modal-upgrade-builder

model-loader-refactor

moekernels

mora

multi-gpu-state

multipack

multipack-dpo

multipack-pretraining

muon-validation

nca-pair

nd_parallel

neft-v2

no-bos-tokens-packing

no-seq-len

no-zero-ds-train

offload-activations-disk

olmo-no-position_ids

online-topk-kd

openorca

openorca-fix-mask

openorca-v2

optimizer-checkpoint

optimizer-compile

optimizers-refactor

packing-attn-limit-fa2-rebased

patch_lora_post_model_load

peft-update

phi-moe

pixtral_integration

pre-commit-update

preprocess_grpo-fix

pretrain-dataset

print_venv

pytest-each-flakey

pytest-skip-s2

q-galore

quantize-ptq-cli

quartodoc

quartodoc-fix

rala

rala-v2

reentrant-w-offloading

refactor-flash-attention

relaxed-recursive-transformers

release-0.10.x

release-0.8.x

release-v0.11.x

release-v0.12.x

release-v0.13.x

release-v0.9.x

remove-gptq-warn

revert-2332-fix_sample_packing

revert-2906-checkpoint-on-step-1

revert-multipack-changes

rl-trainers-sp

runpod-sls

sac

sageattention

save_only_model

scatter_moe

scatter_moe_eric

scattermoe-lora-optim-dtypestest

scattermoe-nanotron

sdpa-cp

sdpa-multipack

seq-parallel-ring

sequence-parallelism

shampoo

shampoo-low_bit

shared-prepared-ci

sharegpt-batched

sharegpt-field-conversations

smaller-rand-model

smol-ci

soap-optim

sp-fix-masking

sp-restore-buffers

sp-rl

sp-rl-v3

split-batches-sizes

sppo

squash_position_ids

ssmi-main

stable

streaming

streaming-on-the-fly-preprocess

streaming-remote-dataset

streaming-v2

swe-rebench-rl-rebase

telemetry

telemetry-opt-in

tensor-parallel

tensorboard-loss-check

testingci

textui

tinyllama-example

tool-mpm

topk-logprobs-triton

torch-211-base

torch_tensor_parallel

tp_support

train-refactor

transformers-4511

transformers-4513

transformers-4573

transformers-4_47_0_v2

transformers-fsdp-check

transformers-itl-refactor

tui

unsloth_modules

update-examples-llama3-ez

update-lgpl

update-vllm

upgrade-liger-test

upgrade-torchao-0.15

upgrade-trl-v0.12.0_2

upgrade_liger-tr4.46.1

uv-first

uv-fixup

vendor-moe

version-dev

vllm-0191

wait-distributed-close

weight-scale-norm

xformers-wo-packing

yayi2

zero3-8bit-lora

v0.1.0

v0.10.0

v0.10.1

v0.11.0

v0.11.0.post1

v0.12.0

v0.12.1

v0.12.2

v0.13.0

v0.13.1

v0.13.2

v0.14.0

v0.15.0

v0.16.0

v0.16.1

v0.2.0

v0.2.1

v0.3.0

v0.4.0

v0.5.0

v0.5.1

v0.5.1.post1

v0.5.2

v0.6.0

v0.7.0

v0.7.1

v0.8.0

v0.8.1

v0.9.0

v0.9.1

v0.9.1.post1

v0.9.2

b53a41372f feat: update transformers version to 4.49.0 (#2340) NanoCode012 2025-02-21 09:12:06 +07:00
9413d27add Built site for gh-pages Quarto GHA Workflow Runner 2025-02-20 19:31:01 +00:00
02f45e94be calculate sample length fixes and SFT splitting fixes (#2351) Wing Lian 2025-02-20 14:29:58 -05:00
90dfcd8c03 Revert "Fix sample packing producing longer sequences than specified by `sequ…" revert-2332-fix_sample_packing Sung Ching Liu 2025-02-19 21:13:25 -05:00
1a09d5e844 some refactoring grpo_liger Salman Mohammadi 2025-02-19 17:35:35 +00:00
cf61b4aba7 Merge branch 'main' into grpo_liger Salman Mohammadi 2025-02-19 16:17:42 +00:00
14d274efe6 WIP liger support Salman Mohammadi 2025-02-19 15:34:32 +00:00
109cae8122 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-19 14:24:39 +00:00
954e192f38 quick formatting fix for LoRA optims doc (#2349) Dan Saunders 2025-02-19 09:23:31 -05:00
02efd7e83d quick formatting fix for LoRA optims doc lora-kernels-doc-fix Dan Saunders 2025-02-19 14:17:20 +00:00
d8295344ec Built site for gh-pages Quarto GHA Workflow Runner 2025-02-19 05:03:28 +00:00
8dfadc2b3c Fix sample packing producing longer sequences than specified by sequence_len (#2332) Tobias 2025-02-19 06:02:35 +01:00
beec9a3d21 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-18 21:09:41 +00:00
23a9fcb0a7 make sure chatml dpo dataset loading works (#2333) Wing Lian 2025-02-18 16:08:40 -05:00
822a8a6931 pylint patch_lora_post_model_load Dan Saunders 2025-02-18 19:59:17 +00:00
1a51180637 removing unused function Dan Saunders 2025-02-18 19:36:03 +00:00
7562aadf89 fix Dan Saunders 2025-02-18 19:13:09 +00:00
479f5e18dd Small updates Dan Saunders 2025-02-18 19:08:27 +00:00
945dcc5020 move patching to post-model load to improve applicability Dan Saunders 2025-02-18 19:00:12 +00:00
c6be6e42bd Built site for gh-pages Quarto GHA Workflow Runner 2025-02-18 15:07:29 +00:00
c3d4f6e295 Doc fix: TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL not necessary to use Triton kernel patches (#2343) Dan Saunders 2025-02-18 10:06:31 -05:00
46dcae42f1 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-18 09:31:59 +00:00
7fa690fac8 bump dev version (#2342) Wing Lian 2025-02-18 04:30:59 -05:00
abcbb7138e Built site for gh-pages Quarto GHA Workflow Runner 2025-02-18 09:27:25 +00:00
3c743c4bfb v0.7.0 for release (#2341) v0.7.0 Wing Lian 2025-02-18 04:26:21 -05:00
e847da6a85 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-18 08:40:31 +00:00
91bb95685a chore: cleanup deprecated config elements (#2309) NJordan72 2025-02-18 03:39:24 -05:00
fbf3ca86c9 feat: add support for qwen25 vl for multimodal pixtral_integration NanoCode012 2025-02-18 12:42:29 +07:00
fcea4633b6 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-18 03:00:28 +00:00
b194e17c28 feat: add config for optional parameters in a chat message (#2260) NJordan72 2025-02-17 21:59:27 -05:00
8d9f715cea Built site for gh-pages Quarto GHA Workflow Runner 2025-02-17 20:47:01 +00:00
3aac3b1da9 Move sweeps code to another module (#2338) Dan Saunders 2025-02-17 15:46:04 -05:00
31095fb186 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-17 19:24:11 +00:00
3d8425fa91 Activation function Triton kernels, LoRA custom autograd functions (#2324) Dan Saunders 2025-02-17 14:23:15 -05:00
1405e0f108 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-17 05:08:26 +00:00
97a2fa2781 Select input_ids explicitly after panda conversion (#2335) Seungduk Kim 2025-02-17 14:07:27 +09:00
125e30da31 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-13 22:40:20 +00:00
a98526ef78 add support for include_tokens_per_second in training args (#2269) Wing Lian 2025-02-13 17:39:19 -05:00
365f71e3ff Built site for gh-pages Quarto GHA Workflow Runner 2025-02-13 22:29:18 +00:00
7a13442b94 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-13 22:28:50 +00:00
2e57391bf8 fix: add missing shards_idx, preprocess_shards to docs and validator (#2331) NanoCode012 2025-02-14 05:28:21 +07:00
aa45fed451 Add bos_token and add_generation_prompt to the alpaca chat template (#2322) minpeter 2025-02-14 07:27:55 +09:00
49e480e240 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-13 21:03:12 +00:00
77764de0dd Built site for gh-pages Quarto GHA Workflow Runner 2025-02-13 21:02:41 +00:00
a09a5cfd1c feat(doc): add tensorboard config to docs (#2329) NanoCode012 2025-02-14 04:02:16 +07:00
e16307c27a Built site for gh-pages Quarto GHA Workflow Runner 2025-02-13 21:02:01 +00:00
40362d60e0 feat(doc): Improve guide to dataset types with better examples (#2286) NanoCode012 2025-02-14 04:01:41 +07:00
ffae8d6a95 GRPO (#2307) Wing Lian 2025-02-13 16:01:01 -05:00
da69624dee Built site for gh-pages Quarto GHA Workflow Runner 2025-02-13 13:32:00 +00:00
fdbb1a207c [Fixing #2149] load_from_disk for RL-type training (#2193) Lee Park 2025-02-13 08:31:07 -05:00
82d04ea060 test v2batch w/ flex attn bursteratom 2025-02-13 00:11:45 -05:00
96836d1b5b Built site for gh-pages Quarto GHA Workflow Runner 2025-02-12 23:30:03 +00:00
30046315d9 disable ray tests for latest torch release (#2328) Wing Lian 2025-02-12 18:29:02 -05:00
d63283f386 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-12 15:05:30 +00:00
e37a4a536a lint docs (#2327) Wing Lian 2025-02-12 10:04:26 -05:00
f24efd77a1 lint docs docs-lint-20250212 Wing Lian 2025-02-12 10:04:01 -05:00
0ef1f011fe Merge branch 'main' into flx_attn_support Sung Ching Liu 2025-02-11 23:31:56 -05:00
3755ac54f9 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-11 18:19:28 +00:00
44f64ab627 Update faq.qmd (#2319) Sung Ching Liu 2025-02-11 13:18:31 -05:00
a44f398b14 Update faq.qmd bursteratom-doc-faq-update Sung Ching Liu 2025-02-11 09:17:49 -05:00
356d9b6458 Update faq.qmd Sung Ching Liu 2025-02-11 09:16:40 -05:00
4393d8e649 Merge branch 'main' into bursteratom-doc-faq-update Sung Ching Liu 2025-02-11 08:59:51 -05:00
7ef6b7ee2d Built site for gh-pages Quarto GHA Workflow Runner 2025-02-08 11:02:53 +00:00
826f1b1494 feat(doc): Add multi-node torchrun info (#2304) NanoCode012 2025-02-08 18:02:02 +07:00
526e5ee8b8 fix(config): missing config not being documented and fix model_ override (#2317) NanoCode012 2025-02-08 18:01:48 +07:00
ca4cd4192e Built site for gh-pages Quarto GHA Workflow Runner 2025-02-08 02:35:08 +00:00
8c11f6aa3b Built site for gh-pages Quarto GHA Workflow Runner 2025-02-08 02:34:39 +00:00
fd8cb32547 chore: remove redundant py310 from tests (#2316) NanoCode012 2025-02-08 09:34:16 +07:00
e48e2df4dd feat: update FA to 2.7.4.post1 which includes torch2.6 binary (#2315) NanoCode012 2025-02-08 09:34:01 +07:00
b7616022ab bump transformers to 4.48.3 (#2318) Wing Lian 2025-02-07 21:33:44 -05:00
1faf1a5c5a batch add of spectrum snr results (#2320) Wing Lian 2025-02-07 21:33:14 -05:00
c0a1d205c7 packed doc mask starts at 1, 0 means masked out Sunny Liu 2025-02-07 14:44:52 -05:00
f7bf883470 Update faq.qmd Sung Ching Liu 2025-02-07 11:57:22 -05:00
7591331d0c Update faq.qmd Sung Ching Liu 2025-02-07 11:42:23 -05:00
f89ddf7e23 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-07 12:29:51 +00:00
5bbad5ef93 feat: add torch2.6 to ci (#2311) NanoCode012 2025-02-07 19:28:54 +07:00
6905711e45 set max steps to -1 when empty grpo-path-v2 Wing Lian 2025-02-06 17:27:52 -05:00
bb5a6135eb don't set total num steps for grpo Wing Lian 2025-02-06 17:23:13 -05:00
e637f9b1a4 cleanup pythonpath if axo in it Wing Lian 2025-02-06 17:03:21 -05:00
1a3bfd6e0f test not deleting pythonpath for custom code bundling Wing Lian 2025-02-06 13:40:30 -05:00
3df4df868c make sure to pass kwargs when using accelerate Wing Lian 2025-02-06 14:00:15 -05:00
c82cbdc6d9 make sure to handle num-processes with cloud Wing Lian 2025-02-06 13:50:39 -05:00
c9d842ef2e test not deleting pythonpath for custom code bundling grpo-path Wing Lian 2025-02-06 13:40:30 -05:00
ecea44c902 fix num_processes in passing to accelerate Wing Lian 2025-02-06 13:39:46 -05:00
4f9c57e95d check for src axolotl in PYTHONPATH before removing it Wing Lian 2025-02-06 13:26:23 -05:00
3d38bc82b8 include vllm in build Wing Lian 2025-02-06 11:09:42 -05:00
13d458d0ae feat: update readme with inference instructions feat/linearize NanoCode012 2025-02-06 21:29:36 +07:00
ebd406af1d fix: lin_attn_mask in wrong dtype NanoCode012 2025-02-06 15:25:33 +07:00
756a8332d6 set default on trl config Wing Lian 2025-02-05 22:17:10 -05:00
aded9c500d refactor cfg.grpo_* to use cfg.trl.* Wing Lian 2025-02-05 20:41:14 -05:00
3659d812f7 use cfg.max_completion_length, not sequence_len Wing Lian 2025-02-05 13:20:17 -05:00
bdb0f97082 adding 'reward_processing_classes' Salman Mohammadi 2025-02-05 18:18:42 +00:00
65b6519447 adding 'reward_processing_classes' Salman Mohammadi 2025-02-05 18:13:05 +00:00
a1958b09de seperately include max_completion_len Wing Lian 2025-02-05 13:01:52 -05:00
caa49a9d7d fix: use existing model config NanoCode012 2025-02-06 00:12:14 +07:00
c15ea6b956 fix: load vocab_size NanoCode012 2025-02-05 23:46:59 +07:00
dc05fff332 Built site for gh-pages Quarto GHA Workflow Runner 2025-02-05 14:25:04 +00:00
a971eb4ce6 Torch 2.6 support for base docker image (#2312) Wing Lian 2025-02-05 09:24:02 -05:00
b8f258817e adding reward fn verification Salman Mohammadi 2025-02-05 13:30:02 +00:00
578fa764c8 chore: moved feature map into linear attention NanoCode012 2025-02-05 19:40:11 +07:00

... 24 25 26 27 28 ...