make e2e tests a bit faster by reducing test split size (#2522) [skip ci]

* [ci] make e2e tests a bit faster by reducing test split size * use 10% split of alpaca dataset to speed up dataset loading/tokenization * reduce gas 4->2 for most e2e tests * increase val set size for packing
2025-04-12 07:24:43 -07:00
parent 51267ded04
commit de8a625dd7
24 changed files with 54 additions and 44 deletions
--- a/tests/e2e/test_falcon.py
+++ b/tests/e2e/test_falcon.py
@@ -41,7 +41,7 @@ class TestFalcon(unittest.TestCase):
                    "word_embeddings",
                    "lm_head",
                ],
-                "val_set_size": 0.1,
+                "val_set_size": 0.02,
                "special_tokens": {
                    "bos_token": "<|endoftext|>",
                    "pad_token": "<|endoftext|>",
@@ -92,7 +92,7 @@ class TestFalcon(unittest.TestCase):
                    "word_embeddings",
                    "lm_head",
                ],
-                "val_set_size": 0.1,
+                "val_set_size": 0.02,
                "special_tokens": {
                    "bos_token": "<|endoftext|>",
                    "pad_token": "<|endoftext|>",
@@ -137,7 +137,7 @@ class TestFalcon(unittest.TestCase):
                "base_model": "illuin/tiny-random-FalconForCausalLM",
                "flash_attention": True,
                "sequence_len": 1024,
-                "val_set_size": 0.1,
+                "val_set_size": 0.02,
                "special_tokens": {
                    "bos_token": "<|endoftext|>",
                    "pad_token": "<|endoftext|>",