Remove obsolete DeepSpeed inference code (2023 relic)

2026-04-07 23:53:40 +00:00 · 2026-03-04 17:20:34 -08:00 · 2026-03-04 17:20:34 -08:00 · 387cf9d8df
commit 387cf9d8df
parent 942ff8fcb4
7 changed files with 2 additions and 165 deletions
--- a/modules/shared.py
+++ b/modules/shared.py
@ -144,12 +144,6 @@ group.add_argument('--num_experts_per_token', type=int, default=2, metavar='N',
 group = parser.add_argument_group('TensorRT-LLM')
 group.add_argument('--cpp-runner', action='store_true', help='Use the ModelRunnerCpp runner, which is faster than the default ModelRunner but doesn\'t support streaming yet.')

-# DeepSpeed
-group = parser.add_argument_group('DeepSpeed')
-group.add_argument('--deepspeed', action='store_true', help='Enable the use of DeepSpeed ZeRO-3 for inference via the Transformers integration.')
-group.add_argument('--nvme-offload-dir', type=str, help='DeepSpeed: Directory to use for ZeRO-3 NVME offloading.')
-group.add_argument('--local_rank', type=int, default=0, help='DeepSpeed: Optional argument for distributed setups.')
-
 # RoPE
 group = parser.add_argument_group('RoPE')
 group.add_argument('--alpha_value', type=float, default=1, help='Positional embeddings alpha factor for NTK RoPE scaling. Use either this or compress_pos_emb, not both.')