Merge pull request #511 from neonbjb/deepspeed_integration

revert deepspeed version due to crash in do_tts
2026-04-05 06:25:39 +00:00 · 2023-07-10 00:40:34 +05:30 · 2023-07-10 00:40:34 +05:30 · 8ad7364460
commit 8ad7364460
parent 2cab3c6668 b8893a25f5
2 changed files with 3 additions and 3 deletions
--- a/requirements.txt
+++ b/requirements.txt
@ -18,4 +18,4 @@ appdirs
 nbconvert==5.3.1
 tornado==4.2
 pydantic==1.9.0
-deepspeed==9.0.0
+deepspeed==0.8.3
--- a/tortoise/do_tts.py
+++ b/tortoise/do_tts.py
@ -13,6 +13,7 @@ if __name__ == '__main__':
    parser.add_argument('--voice', type=str, help='Selects the voice to use for generation. See options in voices/ directory (and add your own!) '
                                                 'Use the & character to join two voices together. Use a comma to perform inference on multiple voices.', default='random')
    parser.add_argument('--preset', type=str, help='Which voice preset to use.', default='fast')
+    parser.add_argument('--use_deepspeed', type=str, help='Which voice preset to use.', default=False)
    parser.add_argument('--output_path', type=str, help='Where to store outputs.', default='results/')
    parser.add_argument('--model_dir', type=str, help='Where to find pretrained model checkpoints. Tortoise automatically downloads these to .models, so this'
                                                      'should only be specified if you have custom checkpoints.', default=MODELS_DIR)
@ -23,8 +24,7 @@ if __name__ == '__main__':
                                                          'Increasing this can in some cases reduce the likelihood of multiple speakers. Defaults to 0 (disabled)', default=.0)
    args = parser.parse_args()
    os.makedirs(args.output_path, exist_ok=True)
-
-    tts = TextToSpeech(models_dir=args.model_dir)
+    tts = TextToSpeech(models_dir=args.model_dir, use_deepspeed=args.use_deepspeed)

    selected_voices = args.voice.split(',')
    for k, selected_voice in enumerate(selected_voices):