llama.cpp: Add StreamingLLM (--streaming-llm)

2026-04-04 14:17:28 +00:00 · 2025-04-25 16:21:35 -07:00 · 2025-04-25 16:21:35 -07:00 · 877cf44c08
commit 877cf44c08
parent d35818f4e1
3 changed files with 4 additions and 0 deletions
--- a/modules/llama_cpp_server.py
+++ b/modules/llama_cpp_server.py
@ -301,6 +301,8 @@ class LlamaServer:
                cmd += ["--device-draft", shared.args.device_draft]
            if shared.args.ctx_size_draft > 0:
                cmd += ["--ctx-size-draft", str(shared.args.ctx_size_draft)]
+        if shared.args.streaming_llm:
+            cmd += ["--cache-reuse", "1"]
        if shared.args.extra_flags:
            # Clean up the input
            extra_flags = shared.args.extra_flags.strip()