text-generation-webui

mirror of https://github.com/oobabooga/text-generation-webui.git synced 2025-12-06 07:12:10 +01:00

Author	SHA1	Message	Date
oobabooga	cbd4d967cc	Update a --help message	2025-04-26 05:09:52 -07:00
oobabooga	d9de14d1f7	Restructure the repository (#6904 )	2025-04-26 08:56:54 -03:00
oobabooga	d4017fbb6d	ExLlamaV3: Add kv cache quantization (#6903 )	2025-04-25 21:32:00 -03:00
oobabooga	d4b1e31c49	Use `--ctx-size` to specify the context size for all loaders Old flags are still recognized as alternatives.	2025-04-25 16:59:03 -07:00
oobabooga	877cf44c08	llama.cpp: Add StreamingLLM (`--streaming-llm`)	2025-04-25 16:21:41 -07:00
oobabooga	d35818f4e1	UI: Add a collapsible thinking block to messages with `<think>` steps (#6902 )	2025-04-25 18:02:02 -03:00
oobabooga	98f4c694b9	llama.cpp: Add --extra-flags parameter for passing additional flags to llama-server	2025-04-25 07:32:51 -07:00
Matthew Jenkins	8f2493cc60	Prevent llamacpp defaults from locking up consumer hardware (#6870 )	2025-04-24 23:38:57 -03:00
oobabooga	93fd4ad25d	llama.cpp: Document the --device-draft syntax	2025-04-24 09:20:11 -07:00
oobabooga	c71a2af5ab	Handle CMD_FLAGS.txt in the main code (closes #6896 )	2025-04-24 08:21:06 -07:00
oobabooga	bfbde73409	Make 'instruct' the default chat mode	2025-04-24 07:08:49 -07:00
oobabooga	e99c20bcb0	llama.cpp: Add speculative decoding (#6891 )	2025-04-23 20:10:16 -03:00
oobabooga	8cfd7f976b	Revert "Remove the old --model-menu flag" This reverts commit `109de34e3b`.	2025-04-20 13:35:42 -07:00
oobabooga	ae02ffc605	Refactor the transformers loader (#6859 )	2025-04-20 13:33:47 -03:00
oobabooga	d68f0fbdf7	Remove obsolete references to llamacpp_HF	2025-04-18 07:46:04 -07:00
oobabooga	c6901aba9f	Remove deprecation warning code	2025-04-18 06:05:47 -07:00
oobabooga	8144e1031e	Remove deprecated command-line flags	2025-04-18 06:02:28 -07:00
oobabooga	ae54d8faaa	New llama.cpp loader (#6846 )	2025-04-18 09:59:37 -03:00
oobabooga	4ed0da74a8	Remove the obsolete 'multimodal' extension	2025-04-09 20:09:48 -07:00
oobabooga	8b8d39ec4e	Add ExLlamaV3 support (#6832 )	2025-04-09 00:07:08 -03:00
oobabooga	a5855c345c	Set context lengths to at most 8192 by default (to prevent out of memory errors) (#6835 )	2025-04-07 21:42:33 -03:00
oobabooga	109de34e3b	Remove the old --model-menu flag	2025-03-31 09:24:03 -07:00
oobabooga	0360f54ae8	UI: add a "Show after" parameter (to use with DeepSeek </think>)	2025-02-02 15:30:09 -08:00
oobabooga	c832953ff7	UI: Activate auto_max_new_tokens by default	2025-01-14 05:59:55 -08:00
oobabooga	d2f6c0f65f	Update README	2025-01-10 13:25:40 -08:00
oobabooga	c393f7650d	Update settings-template.yaml, organize modules/shared.py	2025-01-10 13:22:18 -08:00
oobabooga	83c426e96b	Organize internals (#6646 )	2025-01-10 18:04:32 -03:00
oobabooga	7fe46764fb	Improve the --help message about --tensorcores as well	2025-01-10 07:07:41 -08:00
oobabooga	da6d868f58	Remove old deprecated flags (~6 months or more)	2025-01-09 16:11:46 -08:00
BPplays	619265b32c	add ipv6 support to the API (#6559 )	2025-01-09 10:23:44 -03:00
oobabooga	91a8a87887	Remove obsolete code	2025-01-08 15:07:21 -08:00
oobabooga	7157257c3f	Remove the AutoGPTQ loader (#6641 )	2025-01-08 19:28:56 -03:00
oobabooga	c0f600c887	Add a --torch-compile flag for transformers	2025-01-05 05:47:00 -08:00
oobabooga	11af199aff	Add a "Static KV cache" option for transformers	2025-01-04 17:52:57 -08:00
oobabooga	60c93e0c66	UI: Set cache_type to fp16 by default	2024-12-17 19:44:20 -08:00
Diner Burger	addad3c63e	Allow more granular KV cache settings (#6561 )	2024-12-17 17:43:48 -03:00
oobabooga	d769618591	Improved UI (#6575 )	2024-12-17 00:47:41 -03:00
RandoInternetPreson	46996f6519	ExllamaV2 tensor parallelism to increase multi gpu inference speeds (#6356 )	2024-09-28 00:26:03 -03:00
oobabooga	e926c03b3d	Add a --tokenizer-dir command-line flag for llamacpp_HF	2024-08-06 19:41:18 -07:00
oobabooga	9dcff21da9	Remove unnecessary shared.previous_model_name variable	2024-07-28 18:35:11 -07:00
oobabooga	7050bb880e	UI: make n_ctx/max_seq_len/truncation_length numbers rather than sliders	2024-07-27 23:11:53 -07:00
oobabooga	e6181e834a	Remove AutoAWQ as a standalone loader (it works better through transformers)	2024-07-23 15:31:17 -07:00
oobabooga	f18c947a86	Update the tensorcores description	2024-07-22 18:06:41 -07:00
oobabooga	aa809e420e	Bump llama-cpp-python to 0.2.83, add back tensorcore wheels Also add back the progress bar patch	2024-07-22 18:05:11 -07:00
oobabooga	11bbf71aa5	Bump back llama-cpp-python (#6257 )	2024-07-22 16:19:41 -03:00
oobabooga	0f53a736c1	Revert the llama-cpp-python update	2024-07-22 12:02:25 -07:00
oobabooga	a687f950ba	Remove the tensorcores llama.cpp wheels They are not faster than the default wheels anymore and they use a lot of space.	2024-07-22 11:54:35 -07:00
oobabooga	e9d4bff7d0	Update the --tensor_split description	2024-07-20 22:04:48 -07:00
Alberto Cano	a14c510afb	Customize the subpath for gradio, use with reverse proxy (#5106 )	2024-07-20 19:10:39 -03:00
oobabooga	aa7c14a463	Use chat-instruct mode by default	2024-07-19 21:43:52 -07:00
oobabooga	e436d69e2b	Add --no_xformers and --no_sdpa flags for ExllamaV2	2024-07-11 15:47:37 -07:00
GralchemOz	8a39f579d8	transformers: Add eager attention option to make Gemma-2 work properly (#6188 )	2024-07-01 12:08:08 -03:00
oobabooga	577a8cd3ee	Add TensorRT-LLM support (#5715 )	2024-06-24 02:30:03 -03:00
oobabooga	bd7cc4234d	Backend cleanup (#6025 )	2024-05-21 13:32:02 -03:00
oobabooga	9f77ed1b98	--idle-timeout flag to unload the model if unused for N minutes (#6026 )	2024-05-19 23:29:39 -03:00
oobabooga	e61055253c	Bump llama-cpp-python to 0.2.69, add --flash-attn option	2024-05-03 04:31:22 -07:00
oobabooga	51fb766bea	Add back my llama-cpp-python wheels, bump to 0.2.65 (#5964 )	2024-04-30 09:11:31 -03:00
oobabooga	70845c76fb	Add back the max_updates_second parameter (#5937 )	2024-04-26 10:14:51 -03:00
oobabooga	9b623b8a78	Bump llama-cpp-python to 0.2.64, use official wheels (#5921 )	2024-04-23 23:17:05 -03:00
oobabooga	cbd65ba767	Add a simple min_p preset, make it the default (#5836 )	2024-04-09 12:50:16 -03:00
oobabooga	168a0f4f67	UI: do not load the "gallery" extension by default	2024-04-06 12:43:21 -07:00
oobabooga	d423021a48	Remove CTransformers support (#5807 )	2024-04-04 20:23:58 -03:00
oobabooga	2a92a842ce	Bump gradio to 4.23 (#5758 )	2024-03-26 16:32:20 -03:00
oobabooga	28076928ac	UI: Add a new "User description" field for user personality/biography (#5691 )	2024-03-11 23:41:57 -03:00
oobabooga	056717923f	Document StreamingLLM	2024-03-10 19:15:23 -07:00
oobabooga	afb51bd5d6	Add StreamingLLM for llamacpp & llamacpp_HF (2nd attempt) (#5669 )	2024-03-09 00:25:33 -03:00
Bartowski	104573f7d4	Update cache_4bit documentation (#5649 ) --------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com>	2024-03-07 13:08:21 -03:00
oobabooga	2ec1d96c91	Add cache_4bit option for ExLlamaV2 (#5645 )	2024-03-06 23:02:25 -03:00
oobabooga	2174958362	Revert gradio to 3.50.2 (#5640 )	2024-03-06 11:52:46 -03:00
oobabooga	63a1d4afc8	Bump gradio to 4.19 (#5522 )	2024-03-05 07:32:28 -03:00
oobabooga	a6730f88f7	Add --autosplit flag for ExLlamaV2 (#5524 )	2024-02-16 15:26:10 -03:00
oobabooga	76d28eaa9e	Add a menu for customizing the instruction template for the model (#5521 )	2024-02-16 14:21:17 -03:00
oobabooga	080f7132c0	Revert gradio to 3.50.2 (#5513 )	2024-02-15 20:40:23 -03:00
oobabooga	7123ac3f77	Remove "Maximum UI updates/second" parameter (#5507 )	2024-02-14 23:34:30 -03:00
oobabooga	acfbe6b3b3	Minor doc changes	2024-02-06 06:35:01 -08:00
oobabooga	8a6d9abb41	Small fixes	2024-02-06 06:26:27 -08:00
oobabooga	2a1063eff5	Revert "Remove non-HF ExLlamaV2 loader (#5431 )" This reverts commit `cde000d478`.	2024-02-06 06:21:36 -08:00
oobabooga	8c35fefb3b	Add custom sampler order support (#5443 )	2024-02-06 11:20:10 -03:00
Forkoz	2a45620c85	Split by rows instead of layers for llama.cpp multi-gpu (#5435 )	2024-02-04 23:36:40 -03:00
oobabooga	cde000d478	Remove non-HF ExLlamaV2 loader (#5431 )	2024-02-04 01:15:51 -03:00
oobabooga	e055967974	Add prompt_lookup_num_tokens parameter (#5296 )	2024-01-17 17:09:36 -03:00
oobabooga	53dc1d8197	UI: Do not save unchanged settings to settings.yaml	2024-01-09 18:59:04 -08:00
oobabooga	2aad91f3c9	Remove deprecated command-line flags (#5131 )	2023-12-31 02:07:48 -03:00
oobabooga	2734ce3e4c	Remove RWKV loader (#5130 )	2023-12-31 02:01:40 -03:00
oobabooga	0e54a09bcb	Remove exllamav1 loaders (#5128 )	2023-12-31 01:57:06 -03:00
oobabooga	8e397915c9	Remove --sdp-attention, --xformers flags (#5126 )	2023-12-31 01:36:51 -03:00
oobabooga	8c60495878	UI: add "Maximum UI updates/second" parameter	2023-12-24 09:17:40 -08:00
oobabooga	2706149c65	Organize the CMD arguments by group (#5027 )	2023-12-21 00:33:55 -03:00
oobabooga	9992f7d8c0	Improve several log messages	2023-12-19 20:54:32 -08:00
oobabooga	de138b8ba6	Add llama-cpp-python wheels with tensor cores support (#5003 )	2023-12-19 17:30:53 -03:00
oobabooga	0a299d5959	Bump llama-cpp-python to 0.2.24 (#5001 )	2023-12-19 15:22:21 -03:00
oobabooga	a23a004434	Update the example template	2023-12-18 17:47:35 -08:00
Water	674be9a09a	Add HQQ quant loader (#4888 ) --------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com>	2023-12-18 21:23:16 -03:00
oobabooga	f1f2c4c3f4	Add --num_experts_per_token parameter (ExLlamav2) (#4955 )	2023-12-17 12:08:33 -03:00
oobabooga	3bbf6c601d	AutoGPTQ: Add --disable_exllamav2 flag (Mixtral CPU offloading needs this)	2023-12-15 06:46:13 -08:00
oobabooga	1c531a3713	Minor cleanup	2023-12-12 13:25:21 -08:00
oobabooga	39d2fe1ed9	Jinja templates for Instruct and Chat (#4874 )	2023-12-12 17:23:14 -03:00
oobabooga	8c8825b777	Add QuIP# to README	2023-12-08 08:40:42 -08:00
oobabooga	2c5a1e67f9	Parameters: change max_new_tokens & repetition_penalty_range defaults (#4842 )	2023-12-07 20:04:52 -03:00
oobabooga	98361af4d5	Add QuIP# support (#4803 ) It has to be installed manually for now.	2023-12-06 00:01:01 -03:00

1 2 3 4 5 ...

386 commits