text-generation-webui/modules/models.py

import sys
import time

import modules.shared as shared
from modules.logging_colors import logger
from modules.models_settings import get_model_metadata
from modules.utils import resolve_model_path

last_generation_time = time.time()


def load_model(model_name, loader=None):
    logger.info(f"Loading \"{model_name}\"")
    t0 = time.time()

    shared.is_seq2seq = False
    shared.model_name = model_name
    load_func_map = {
        'llama.cpp': llama_cpp_server_loader,
        'Transformers': transformers_loader,
        'ExLlamav3_HF': ExLlamav3_HF_loader,
        'ExLlamav3': ExLlamav3_loader,
        'ExLlamav2_HF': ExLlamav2_HF_loader,
        'ExLlamav2': ExLlamav2_loader,
        'TensorRT-LLM': TensorRT_LLM_loader,
        'ktransformers': ktransformers_loader,
    }

    metadata = get_model_metadata(model_name)
    if loader is None:
        if shared.args.loader is not None:
            loader = shared.args.loader
        else:
            loader = metadata['loader']
            if loader is None:
                logger.error('The path to the model does not exist. Exiting.')
                raise ValueError

    if loader != 'llama.cpp' and 'sampler_hijack' not in sys.modules:
        from modules import sampler_hijack
        sampler_hijack.hijack_samplers()

    shared.args.loader = loader
    output = load_func_map[loader](model_name)
    if type(output) is tuple:
        model, tokenizer = output
    else:
        model = output
        if model is not None:
            from modules.transformers_loader import load_tokenizer
            tokenizer = load_tokenizer(model_name)

    if model is None:
        return None, None

    shared.settings.update({k: v for k, v in metadata.items() if k in shared.settings})
    if loader.lower().startswith('exllama') or loader.lower().startswith('tensorrt') or loader == 'llama.cpp':
        shared.settings['truncation_length'] = shared.args.ctx_size

    shared.is_multimodal = False
    if loader.lower() in ('exllamav3', 'llama.cpp') and hasattr(model, 'is_multimodal'):
        shared.is_multimodal = model.is_multimodal()

    logger.info(f"Loaded \"{model_name}\" in {(time.time()-t0):.2f} seconds.")
    logger.info(f"LOADER: \"{loader}\"")
    logger.info(f"TRUNCATION LENGTH: {shared.settings['truncation_length']}")
    logger.info(f"INSTRUCTION TEMPLATE: \"{metadata['instruction_template']}\"")
    return model, tokenizer


def llama_cpp_server_loader(model_name):
    from modules.llama_cpp_server import LlamaServer

    path = resolve_model_path(model_name)

    if path.is_file():
        model_file = path
    else:
        gguf_files = sorted(path.glob('*.gguf'))
        if not gguf_files:
            logger.error(f"No .gguf models found in the directory: {path}")
            return None, None

        model_file = gguf_files[0]

    try:
        model = LlamaServer(model_file)
        return model, model
    except Exception as e:
        logger.error(f"Error loading the model with llama.cpp: {str(e)}")
        return None, None


def transformers_loader(model_name):
    from modules.transformers_loader import load_model_HF
    return load_model_HF(model_name)


def ExLlamav3_HF_loader(model_name):
    from modules.exllamav3_hf import Exllamav3HF

    return Exllamav3HF.from_pretrained(model_name)


def ExLlamav3_loader(model_name):
    from modules.exllamav3 import Exllamav3Model

    model, tokenizer = Exllamav3Model.from_pretrained(model_name)
    return model, tokenizer


def ExLlamav2_HF_loader(model_name):
    from modules.exllamav2_hf import Exllamav2HF

    return Exllamav2HF.from_pretrained(model_name)


def ExLlamav2_loader(model_name):
    from modules.exllamav2 import Exllamav2Model

    model, tokenizer = Exllamav2Model.from_pretrained(model_name)
    return model, tokenizer


def TensorRT_LLM_loader(model_name):
    try:
        from modules.tensorrt_llm import TensorRTLLMModel
    except ModuleNotFoundError:
        raise ModuleNotFoundError("Failed to import 'tensorrt_llm'. Please install it manually following the instructions in the TensorRT-LLM GitHub repository.")

    model = TensorRTLLMModel.from_pretrained(model_name)
    return model


def ktransformers_loader(model_name):
    try:
        import ktransformers  # aktiviert die Patches / Beschleuniger
    except ModuleNotFoundError as e:
        from modules.logging_colors import logger
        logger.error("KTransformers ist nicht installiert: pip install ktransformers")
        raise 
    from modules.transformers_loader import load_model_HF
    return load_model_HF(model_name)


def unload_model(keep_model_name=False):
    if shared.model is None:
        return

    model_class_name = shared.model.__class__.__name__
    is_llamacpp = (model_class_name == 'LlamaServer')

    if model_class_name in ['Exllamav3Model', 'Exllamav3HF']:
        shared.model.unload()
    elif model_class_name in ['Exllamav2Model', 'Exllamav2HF'] and hasattr(shared.model, 'unload'):
        shared.model.unload()

    shared.model = shared.tokenizer = None
    shared.lora_names = []
    shared.model_dirty_from_training = False

    if not is_llamacpp:
        from modules.torch_utils import clear_torch_cache
        clear_torch_cache()

    if not keep_model_name:
        shared.model_name = 'None'


def reload_model():
    unload_model()
    shared.model, shared.tokenizer = load_model(shared.model_name)


def unload_model_if_idle():
    global last_generation_time

    logger.info(f"Setting a timeout of {shared.args.idle_timeout} minutes to unload the model in case of inactivity.")

    while True:
        shared.generation_lock.acquire()
        try:
            if time.time() - last_generation_time > shared.args.idle_timeout * 60:
                if shared.model is not None:
                    logger.info("Unloading the model for inactivity.")
                    unload_model(keep_model_name=True)
        finally:
            shared.generation_lock.release()

        time.sleep(60)
Fix ExLlamaV2_HF and ExLlamaV3_HF after ae02ffc605d90b19a507132c09055c7ff11df52b 2025-04-20 20:32:48 +02:00			`import sys`
Further refactor 2023-02-23 17:28:30 +01:00			`import time`

Improve the imports 2023-02-23 18:41:42 +01:00			`import modules.shared as shared`
Prevent unwanted log messages from modules 2023-05-22 03:42:34 +02:00			`from modules.logging_colors import logger`
Read GGUF metadata (#3873) 2023-09-11 23:49:30 +02:00			`from modules.models_settings import get_model_metadata`
Make --model work with absolute paths, eg --model /tmp/gemma-3-270m-it-IQ4_NL.gguf 2025-08-22 20:46:02 +02:00			`from modules.utils import resolve_model_path`
Further refactor 2023-02-23 17:28:30 +01:00
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-20 04:29:39 +02:00			`last_generation_time = time.time()`


Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`def load_model(model_name, loader=None):`
Minor logging improvements 2024-02-06 17:22:08 +01:00			`logger.info(f"Loading \"{model_name}\"")`
Further refactor 2023-02-23 17:28:30 +01:00			`t0 = time.time()`

Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`shared.is_seq2seq = False`
Cleanup: set shared.model_name only once 2023-12-08 15:35:23 +01:00			`shared.model_name = model_name`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`load_func_map = {`
New llama.cpp loader (#6846) 2025-04-18 14:59:37 +02:00			`'llama.cpp': llama_cpp_server_loader,`
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`'Transformers': transformers_loader,`
Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`'ExLlamav3_HF': ExLlamav3_HF_loader,`
Add multimodal support (ExLlamaV3) (#7174) 2025-08-09 04:31:16 +02:00			`'ExLlamav3': ExLlamav3_loader,`
Add ExLlamaV2 and ExLlamav2_HF loaders (#3881) 2023-09-12 19:33:07 +02:00			`'ExLlamav2_HF': ExLlamav2_HF_loader,`
Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`'ExLlamav2': ExLlamav2_loader,`
Add TensorRT-LLM support (#5715) 2024-06-24 07:30:03 +02:00			`'TensorRT-LLM': TensorRT_LLM_loader,`
Update models.py the def load_model(model_name, loader=None) we fill in ktransformers . before the def unload_model(keep_model_name=False) fill def ktransformers_loader 2025-10-24 07:53:23 +02:00			`'ktransformers': ktransformers_loader,`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`}`

Make OpenAI API the default API (#4430) 2023-11-06 06:38:29 +01:00			`metadata = get_model_metadata(model_name)`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`if loader is None:`
			`if shared.args.loader is not None:`
			`loader = shared.args.loader`
			`else:`
Make OpenAI API the default API (#4430) 2023-11-06 06:38:29 +01:00			`loader = metadata['loader']`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`if loader is None:`
			`logger.error('The path to the model does not exist. Exiting.')`
Add /v1/internal/model/load endpoint (tentative) 2023-11-08 05:58:06 +01:00			`raise ValueError`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00
Fix ExLlamaV2_HF and ExLlamaV3_HF after ae02ffc605d90b19a507132c09055c7ff11df52b 2025-04-20 20:32:48 +02:00			`if loader != 'llama.cpp' and 'sampler_hijack' not in sys.modules:`
			`from modules import sampler_hijack`
			`sampler_hijack.hijack_samplers()`

Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`shared.args.loader = loader`
			`output = load_func_map[loader](model_name)`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00			`if type(output) is tuple:`
			`model, tokenizer = output`
			`else:`
			`model = output`
Slightly more robust model loading 2025-09-02 19:16:26 +02:00			`if model is not None:`
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`from modules.transformers_loader import load_tokenizer`
Add a --tokenizer-dir command-line flag for llamacpp_HF 2024-08-07 04:41:18 +02:00			`tokenizer = load_tokenizer(model_name)`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00
Slightly more robust model loading 2025-09-02 19:16:26 +02:00			`if model is None:`
			`return None, None`

Make OpenAI API the default API (#4430) 2023-11-06 06:38:29 +01:00			`shared.settings.update({k: v for k, v in metadata.items() if k in shared.settings})`
Use `--ctx-size` to specify the context size for all loaders Old flags are still recognized as alternatives. 2025-04-26 01:59:03 +02:00			`if loader.lower().startswith('exllama') or loader.lower().startswith('tensorrt') or loader == 'llama.cpp':`
			`shared.settings['truncation_length'] = shared.args.ctx_size`
Print context length / instruction template to terminal when loading models 2023-11-16 01:00:51 +01:00
Lint 2025-08-19 15:50:40 +02:00			`shared.is_multimodal = False`
Safer check for is_multimodal when loading models Avoids unrelated multimodal error when a model fails to load due to lack of memory. 2025-08-28 20:13:19 +02:00			`if loader.lower() in ('exllamav3', 'llama.cpp') and hasattr(model, 'is_multimodal'):`
Set multimodal status during Model Loading (#7199) 2025-08-13 21:47:27 +02:00			`shared.is_multimodal = model.is_multimodal()`

Improve the logging messages while loading models 2024-05-03 17:10:44 +02:00			`logger.info(f"Loaded \"{model_name}\" in {(time.time()-t0):.2f} seconds.")`
Improve some log messages 2024-02-06 15:31:27 +01:00			`logger.info(f"LOADER: \"{loader}\"")`
Add more info messages for truncation / instruction template 2023-11-16 01:13:36 +01:00			`logger.info(f"TRUNCATION LENGTH: {shared.settings['truncation_length']}")`
Improve some log messages 2024-02-06 15:31:27 +01:00			`logger.info(f"INSTRUCTION TEMPLATE: \"{metadata['instruction_template']}\"")`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00			`return model, tokenizer`


New llama.cpp loader (#6846) 2025-04-18 14:59:37 +02:00			`def llama_cpp_server_loader(model_name):`
			`from modules.llama_cpp_server import LlamaServer`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00
Make --model work with absolute paths, eg --model /tmp/gemma-3-270m-it-IQ4_NL.gguf 2025-08-22 20:46:02 +02:00			`path = resolve_model_path(model_name)`

Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00			`if path.is_file():`
			`model_file = path`
Further refactor 2023-02-23 17:28:30 +01:00			`else:`
Make --model work with absolute paths, eg --model /tmp/gemma-3-270m-it-IQ4_NL.gguf 2025-08-22 20:46:02 +02:00			`gguf_files = sorted(path.glob('*.gguf'))`
			`if not gguf_files:`
			`logger.error(f"No .gguf models found in the directory: {path}")`
			`return None, None`

			`model_file = gguf_files[0]`
Further refactor 2023-02-23 17:28:30 +01:00
New llama.cpp loader (#6846) 2025-04-18 14:59:37 +02:00			`try:`
			`model = LlamaServer(model_file)`
			`return model, model`
			`except Exception as e:`
			`logger.error(f"Error loading the model with llama.cpp: {str(e)}")`
Make --model work with absolute paths, eg --model /tmp/gemma-3-270m-it-IQ4_NL.gguf 2025-08-22 20:46:02 +02:00			`return None, None`
Create llamacpp_HF loader (#3062) 2023-07-16 07:21:13 +02:00

Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`def transformers_loader(model_name):`
			`from modules.transformers_loader import load_model_HF`
			`return load_model_HF(model_name)`


Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`def ExLlamav3_HF_loader(model_name):`
			`from modules.exllamav3_hf import Exllamav3HF`
Revert "Remove non-HF ExLlamaV2 loader (#5431)" This reverts commit cde000d47801fa13c5a88f9e435da64132bd96bc. 2024-02-06 15:21:17 +01:00
Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`return Exllamav3HF.from_pretrained(model_name)`
Revert "Remove non-HF ExLlamaV2 loader (#5431)" This reverts commit cde000d47801fa13c5a88f9e435da64132bd96bc. 2024-02-06 15:21:17 +01:00

Add multimodal support (ExLlamaV3) (#7174) 2025-08-09 04:31:16 +02:00			`def ExLlamav3_loader(model_name):`
			`from modules.exllamav3 import Exllamav3Model`

exllamav3: Implement the logits function for /v1/internal/logits 2025-10-09 20:24:25 +02:00			`model, tokenizer = Exllamav3Model.from_pretrained(model_name)`
Add multimodal support (ExLlamaV3) (#7174) 2025-08-09 04:31:16 +02:00			`return model, tokenizer`


Add ExLlamaV2 and ExLlamav2_HF loaders (#3881) 2023-09-12 19:33:07 +02:00			`def ExLlamav2_HF_loader(model_name):`
			`from modules.exllamav2_hf import Exllamav2HF`

			`return Exllamav2HF.from_pretrained(model_name)`


Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`def ExLlamav2_loader(model_name):`
			`from modules.exllamav2 import Exllamav2Model`

			`model, tokenizer = Exllamav2Model.from_pretrained(model_name)`
			`return model, tokenizer`


Add TensorRT-LLM support (#5715) 2024-06-24 07:30:03 +02:00			`def TensorRT_LLM_loader(model_name):`
Add warnings for when AutoGPTQ, TensorRT-LLM, or HQQ are missing 2024-09-29 05:30:24 +02:00			`try:`
			`from modules.tensorrt_llm import TensorRTLLMModel`
			`except ModuleNotFoundError:`
			`raise ModuleNotFoundError("Failed to import 'tensorrt_llm'. Please install it manually following the instructions in the TensorRT-LLM GitHub repository.")`
Add TensorRT-LLM support (#5715) 2024-06-24 07:30:03 +02:00
			`model = TensorRTLLMModel.from_pretrained(model_name)`
			`return model`


Update models.py the def load_model(model_name, loader=None) we fill in ktransformers . before the def unload_model(keep_model_name=False) fill def ktransformers_loader 2025-10-24 07:53:23 +02:00			`def ktransformers_loader(model_name):`
			`try:`
			`import ktransformers # aktiviert die Patches / Beschleuniger`
			`except ModuleNotFoundError as e:`
			`from modules.logging_colors import logger`
			`logger.error("KTransformers ist nicht installiert: pip install ktransformers")`
			`raise`
			`from modules.transformers_loader import load_model_HF`
			`return load_model_HF(model_name)`


Fix UI error caused by --idle-timeout 2024-07-29 03:30:06 +02:00			`def unload_model(keep_model_name=False):`
Small change to the unload_model() function 2025-04-21 05:00:56 +02:00			`if shared.model is None:`
			`return`

Fix model unloading when switching loaders (closes #7203) 2025-08-18 18:05:47 +02:00			`model_class_name = shared.model.__class__.__name__`
			`is_llamacpp = (model_class_name == 'LlamaServer')`

			`if model_class_name in ['Exllamav3Model', 'Exllamav3HF']:`
Add multimodal support (ExLlamaV3) (#7174) 2025-08-09 04:31:16 +02:00			`shared.model.unload()`
Fix model unloading when switching loaders (closes #7203) 2025-08-18 18:05:47 +02:00			`elif model_class_name in ['Exllamav2Model', 'Exllamav2HF'] and hasattr(shared.model, 'unload'):`
Fix exllamav3_hf models failing to unload (closes #7031) 2025-05-30 21:05:49 +02:00			`shared.model.unload()`
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00
SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00			`shared.model = shared.tokenizer = None`
Update models.py to clear LORA names after unload (#2951) 2023-07-03 22:39:06 +02:00			`shared.lora_names = []`
More robust and error prone training (#3058) 2023-07-12 20:29:43 +02:00			`shared.model_dirty_from_training = False`
Fix exllamav3_hf models failing to unload (closes #7031) 2025-05-30 21:05:49 +02:00
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`if not is_llamacpp:`
			`from modules.torch_utils import clear_torch_cache`
			`clear_torch_cache()`
SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00
Fix UI error caused by --idle-timeout 2024-07-29 03:30:06 +02:00			`if not keep_model_name:`
			`shared.model_name = 'None'`

SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00
			`def reload_model():`
Simplify a function 2023-04-08 02:37:41 +02:00			`unload_model()`
SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00			`shared.model, shared.tokenizer = load_model(shared.model_name)`
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-20 04:29:39 +02:00

			`def unload_model_if_idle():`
			`global last_generation_time`

			`logger.info(f"Setting a timeout of {shared.args.idle_timeout} minutes to unload the model in case of inactivity.")`

			`while True:`
			`shared.generation_lock.acquire()`
			`try:`
			`if time.time() - last_generation_time > shared.args.idle_timeout * 60:`
			`if shared.model is not None:`
			`logger.info("Unloading the model for inactivity.")`
Fix UI error caused by --idle-timeout 2024-07-29 03:30:06 +02:00			`unload_model(keep_model_name=True)`
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-20 04:29:39 +02:00			`finally:`
			`shared.generation_lock.release()`

			`time.sleep(60)`