text-generation-webui/modules/models.py

import sys
import time
from pathlib import Path

import modules.shared as shared
from modules.logging_colors import logger
from modules.models_settings import get_model_metadata

last_generation_time = time.time()


def load_model(model_name, loader=None):
    logger.info(f"Loading \"{model_name}\"")
    t0 = time.time()

    shared.is_seq2seq = False
    shared.model_name = model_name
    load_func_map = {
        'llama.cpp': llama_cpp_server_loader,
        'Transformers': transformers_loader,
        'ExLlamav3_HF': ExLlamav3_HF_loader,
        'ExLlamav2_HF': ExLlamav2_HF_loader,
        'ExLlamav2': ExLlamav2_loader,
        'HQQ': HQQ_loader,
        'TensorRT-LLM': TensorRT_LLM_loader,
    }

    metadata = get_model_metadata(model_name)
    if loader is None:
        if shared.args.loader is not None:
            loader = shared.args.loader
        else:
            loader = metadata['loader']
            if loader is None:
                logger.error('The path to the model does not exist. Exiting.')
                raise ValueError

    if loader != 'llama.cpp' and 'sampler_hijack' not in sys.modules:
        from modules import sampler_hijack
        sampler_hijack.hijack_samplers()

    shared.args.loader = loader
    output = load_func_map[loader](model_name)
    if type(output) is tuple:
        model, tokenizer = output
    else:
        model = output
        if model is None:
            return None, None
        else:
            from modules.transformers_loader import load_tokenizer
            tokenizer = load_tokenizer(model_name)

    shared.settings.update({k: v for k, v in metadata.items() if k in shared.settings})
    if loader.lower().startswith('exllama') or loader.lower().startswith('tensorrt'):
        shared.settings['truncation_length'] = shared.args.max_seq_len
    elif loader == 'llama.cpp':
        shared.settings['truncation_length'] = shared.args.n_ctx

    logger.info(f"Loaded \"{model_name}\" in {(time.time()-t0):.2f} seconds.")
    logger.info(f"LOADER: \"{loader}\"")
    logger.info(f"TRUNCATION LENGTH: {shared.settings['truncation_length']}")
    logger.info(f"INSTRUCTION TEMPLATE: \"{metadata['instruction_template']}\"")
    return model, tokenizer


def llama_cpp_server_loader(model_name):
    from modules.llama_cpp_server import LlamaServer

    path = Path(f'{shared.args.model_dir}/{model_name}')
    if path.is_file():
        model_file = path
    else:
        model_file = sorted(Path(f'{shared.args.model_dir}/{model_name}').glob('*.gguf'))[0]

    logger.info(f"llama.cpp weights detected: \"{model_file}\"")
    try:
        model = LlamaServer(model_file)
        return model, model
    except Exception as e:
        logger.error(f"Error loading the model with llama.cpp: {str(e)}")


def transformers_loader(model_name):
    from modules.transformers_loader import load_model_HF
    return load_model_HF(model_name)


def ExLlamav3_HF_loader(model_name):
    from modules.exllamav3_hf import Exllamav3HF

    return Exllamav3HF.from_pretrained(model_name)


def ExLlamav2_HF_loader(model_name):
    from modules.exllamav2_hf import Exllamav2HF

    return Exllamav2HF.from_pretrained(model_name)


def ExLlamav2_loader(model_name):
    from modules.exllamav2 import Exllamav2Model

    model, tokenizer = Exllamav2Model.from_pretrained(model_name)
    return model, tokenizer


def HQQ_loader(model_name):
    try:
        from hqq.core.quantize import HQQBackend, HQQLinear
        from hqq.models.hf.base import AutoHQQHFModel
    except ModuleNotFoundError:
        raise ModuleNotFoundError("Failed to import 'hqq'. Please install it manually following the instructions in the HQQ GitHub repository.")

    logger.info(f"Loading HQQ model with backend: \"{shared.args.hqq_backend}\"")

    model_dir = Path(f'{shared.args.model_dir}/{model_name}')
    model = AutoHQQHFModel.from_quantized(str(model_dir))
    HQQLinear.set_backend(getattr(HQQBackend, shared.args.hqq_backend))
    return model


def TensorRT_LLM_loader(model_name):
    try:
        from modules.tensorrt_llm import TensorRTLLMModel
    except ModuleNotFoundError:
        raise ModuleNotFoundError("Failed to import 'tensorrt_llm'. Please install it manually following the instructions in the TensorRT-LLM GitHub repository.")

    model = TensorRTLLMModel.from_pretrained(model_name)
    return model


def unload_model(keep_model_name=False):
    is_llamacpp = (shared.model.__class__.__name__ == 'LlamaServer')

    shared.model = shared.tokenizer = None
    shared.lora_names = []
    shared.model_dirty_from_training = False
    if not is_llamacpp:
        from modules.torch_utils import clear_torch_cache
        clear_torch_cache()

    if not keep_model_name:
        shared.model_name = 'None'


def reload_model():
    unload_model()
    shared.model, shared.tokenizer = load_model(shared.model_name)


def unload_model_if_idle():
    global last_generation_time

    logger.info(f"Setting a timeout of {shared.args.idle_timeout} minutes to unload the model in case of inactivity.")

    while True:
        shared.generation_lock.acquire()
        try:
            if time.time() - last_generation_time > shared.args.idle_timeout * 60:
                if shared.model is not None:
                    logger.info("Unloading the model for inactivity.")
                    unload_model(keep_model_name=True)
        finally:
            shared.generation_lock.release()

        time.sleep(60)
Fix ExLlamaV2_HF and ExLlamaV3_HF after ae02ffc605d90b19a507132c09055c7ff11df52b 2025-04-20 20:32:48 +02:00			`import sys`
Further refactor 2023-02-23 17:28:30 +01:00			`import time`
			`from pathlib import Path`

Improve the imports 2023-02-23 18:41:42 +01:00			`import modules.shared as shared`
Prevent unwanted log messages from modules 2023-05-22 03:42:34 +02:00			`from modules.logging_colors import logger`
Read GGUF metadata (#3873) 2023-09-11 23:49:30 +02:00			`from modules.models_settings import get_model_metadata`
Further refactor 2023-02-23 17:28:30 +01:00
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-20 04:29:39 +02:00			`last_generation_time = time.time()`


Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`def load_model(model_name, loader=None):`
Minor logging improvements 2024-02-06 17:22:08 +01:00			`logger.info(f"Loading \"{model_name}\"")`
Further refactor 2023-02-23 17:28:30 +01:00			`t0 = time.time()`

Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`shared.is_seq2seq = False`
Cleanup: set shared.model_name only once 2023-12-08 15:35:23 +01:00			`shared.model_name = model_name`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`load_func_map = {`
New llama.cpp loader (#6846) 2025-04-18 14:59:37 +02:00			`'llama.cpp': llama_cpp_server_loader,`
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`'Transformers': transformers_loader,`
Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`'ExLlamav3_HF': ExLlamav3_HF_loader,`
Add ExLlamaV2 and ExLlamav2_HF loaders (#3881) 2023-09-12 19:33:07 +02:00			`'ExLlamav2_HF': ExLlamav2_HF_loader,`
Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`'ExLlamav2': ExLlamav2_loader,`
Add HQQ quant loader (#4888) --------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com> 2023-12-19 01:23:16 +01:00			`'HQQ': HQQ_loader,`
Add TensorRT-LLM support (#5715) 2024-06-24 07:30:03 +02:00			`'TensorRT-LLM': TensorRT_LLM_loader,`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`}`

Make OpenAI API the default API (#4430) 2023-11-06 06:38:29 +01:00			`metadata = get_model_metadata(model_name)`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`if loader is None:`
			`if shared.args.loader is not None:`
			`loader = shared.args.loader`
			`else:`
Make OpenAI API the default API (#4430) 2023-11-06 06:38:29 +01:00			`loader = metadata['loader']`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`if loader is None:`
			`logger.error('The path to the model does not exist. Exiting.')`
Add /v1/internal/model/load endpoint (tentative) 2023-11-08 05:58:06 +01:00			`raise ValueError`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00
Fix ExLlamaV2_HF and ExLlamaV3_HF after ae02ffc605d90b19a507132c09055c7ff11df52b 2025-04-20 20:32:48 +02:00			`if loader != 'llama.cpp' and 'sampler_hijack' not in sys.modules:`
			`from modules import sampler_hijack`
			`sampler_hijack.hijack_samplers()`

Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`shared.args.loader = loader`
			`output = load_func_map[loader](model_name)`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00			`if type(output) is tuple:`
			`model, tokenizer = output`
			`else:`
			`model = output`
Improve error handling while loading GPTQ models 2023-05-19 16:20:08 +02:00			`if model is None:`
			`return None, None`
			`else:`
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`from modules.transformers_loader import load_tokenizer`
Add a --tokenizer-dir command-line flag for llamacpp_HF 2024-08-07 04:41:18 +02:00			`tokenizer = load_tokenizer(model_name)`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00
Make OpenAI API the default API (#4430) 2023-11-06 06:38:29 +01:00			`shared.settings.update({k: v for k, v in metadata.items() if k in shared.settings})`
Add TensorRT-LLM support (#5715) 2024-06-24 07:30:03 +02:00			`if loader.lower().startswith('exllama') or loader.lower().startswith('tensorrt'):`
Print context length / instruction template to terminal when loading models 2023-11-16 01:00:51 +01:00			`shared.settings['truncation_length'] = shared.args.max_seq_len`
New llama.cpp loader (#6846) 2025-04-18 14:59:37 +02:00			`elif loader == 'llama.cpp':`
Print context length / instruction template to terminal when loading models 2023-11-16 01:00:51 +01:00			`shared.settings['truncation_length'] = shared.args.n_ctx`

Improve the logging messages while loading models 2024-05-03 17:10:44 +02:00			`logger.info(f"Loaded \"{model_name}\" in {(time.time()-t0):.2f} seconds.")`
Improve some log messages 2024-02-06 15:31:27 +01:00			`logger.info(f"LOADER: \"{loader}\"")`
Add more info messages for truncation / instruction template 2023-11-16 01:13:36 +01:00			`logger.info(f"TRUNCATION LENGTH: {shared.settings['truncation_length']}")`
Improve some log messages 2024-02-06 15:31:27 +01:00			`logger.info(f"INSTRUCTION TEMPLATE: \"{metadata['instruction_template']}\"")`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00			`return model, tokenizer`


New llama.cpp loader (#6846) 2025-04-18 14:59:37 +02:00			`def llama_cpp_server_loader(model_name):`
			`from modules.llama_cpp_server import LlamaServer`
Refactor models.py (#2113) 2023-05-17 00:52:22 +02:00
			`path = Path(f'{shared.args.model_dir}/{model_name}')`
			`if path.is_file():`
			`model_file = path`
Further refactor 2023-02-23 17:28:30 +01:00			`else:`
Lint 2024-06-13 04:00:21 +02:00			`model_file = sorted(Path(f'{shared.args.model_dir}/{model_name}').glob('*.gguf'))[0]`
Further refactor 2023-02-23 17:28:30 +01:00
Minor logging improvements 2024-02-06 17:22:08 +01:00			`logger.info(f"llama.cpp weights detected: \"{model_file}\"")`
New llama.cpp loader (#6846) 2025-04-18 14:59:37 +02:00			`try:`
			`model = LlamaServer(model_file)`
			`return model, model`
			`except Exception as e:`
			`logger.error(f"Error loading the model with llama.cpp: {str(e)}")`
Create llamacpp_HF loader (#3062) 2023-07-16 07:21:13 +02:00

Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`def transformers_loader(model_name):`
			`from modules.transformers_loader import load_model_HF`
			`return load_model_HF(model_name)`


Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`def ExLlamav3_HF_loader(model_name):`
			`from modules.exllamav3_hf import Exllamav3HF`
Revert "Remove non-HF ExLlamaV2 loader (#5431)" This reverts commit cde000d47801fa13c5a88f9e435da64132bd96bc. 2024-02-06 15:21:17 +01:00
Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`return Exllamav3HF.from_pretrained(model_name)`
Revert "Remove non-HF ExLlamaV2 loader (#5431)" This reverts commit cde000d47801fa13c5a88f9e435da64132bd96bc. 2024-02-06 15:21:17 +01:00

Add ExLlamaV2 and ExLlamav2_HF loaders (#3881) 2023-09-12 19:33:07 +02:00			`def ExLlamav2_HF_loader(model_name):`
			`from modules.exllamav2_hf import Exllamav2HF`

			`return Exllamav2HF.from_pretrained(model_name)`


Add ExLlamaV3 support (#6832) 2025-04-09 05:07:08 +02:00			`def ExLlamav2_loader(model_name):`
			`from modules.exllamav2 import Exllamav2Model`

			`model, tokenizer = Exllamav2Model.from_pretrained(model_name)`
			`return model, tokenizer`


Add HQQ quant loader (#4888) --------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com> 2023-12-19 01:23:16 +01:00			`def HQQ_loader(model_name):`
Add warnings for when AutoGPTQ, TensorRT-LLM, or HQQ are missing 2024-09-29 05:30:24 +02:00			`try:`
			`from hqq.core.quantize import HQQBackend, HQQLinear`
			`from hqq.models.hf.base import AutoHQQHFModel`
			`except ModuleNotFoundError:`
			`raise ModuleNotFoundError("Failed to import 'hqq'. Please install it manually following the instructions in the HQQ GitHub repository.")`
Add HQQ quant loader (#4888) --------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com> 2023-12-19 01:23:16 +01:00
Minor logging improvements 2024-02-06 17:22:08 +01:00			`logger.info(f"Loading HQQ model with backend: \"{shared.args.hqq_backend}\"")`
Add HQQ quant loader (#4888) --------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com> 2023-12-19 01:23:16 +01:00
			`model_dir = Path(f'{shared.args.model_dir}/{model_name}')`
Backend cleanup (#6025) 2024-05-21 18:32:02 +02:00			`model = AutoHQQHFModel.from_quantized(str(model_dir))`
Add HQQ quant loader (#4888) --------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com> 2023-12-19 01:23:16 +01:00			`HQQLinear.set_backend(getattr(HQQBackend, shared.args.hqq_backend))`
			`return model`


Add TensorRT-LLM support (#5715) 2024-06-24 07:30:03 +02:00			`def TensorRT_LLM_loader(model_name):`
Add warnings for when AutoGPTQ, TensorRT-LLM, or HQQ are missing 2024-09-29 05:30:24 +02:00			`try:`
			`from modules.tensorrt_llm import TensorRTLLMModel`
			`except ModuleNotFoundError:`
			`raise ModuleNotFoundError("Failed to import 'tensorrt_llm'. Please install it manually following the instructions in the TensorRT-LLM GitHub repository.")`
Add TensorRT-LLM support (#5715) 2024-06-24 07:30:03 +02:00
			`model = TensorRTLLMModel.from_pretrained(model_name)`
			`return model`


Fix UI error caused by --idle-timeout 2024-07-29 03:30:06 +02:00			`def unload_model(keep_model_name=False):`
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`is_llamacpp = (shared.model.__class__.__name__ == 'LlamaServer')`

SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00			`shared.model = shared.tokenizer = None`
Update models.py to clear LORA names after unload (#2951) 2023-07-03 22:39:06 +02:00			`shared.lora_names = []`
More robust and error prone training (#3058) 2023-07-12 20:29:43 +02:00			`shared.model_dirty_from_training = False`
Refactor the transformers loader (#6859) 2025-04-20 18:33:47 +02:00			`if not is_llamacpp:`
			`from modules.torch_utils import clear_torch_cache`
			`clear_torch_cache()`
SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00
Fix UI error caused by --idle-timeout 2024-07-29 03:30:06 +02:00			`if not keep_model_name:`
			`shared.model_name = 'None'`

SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00
			`def reload_model():`
Simplify a function 2023-04-08 02:37:41 +02:00			`unload_model()`
SD Api Pics extension, v.1.1 (#596) 2023-04-08 02:36:04 +02:00			`shared.model, shared.tokenizer = load_model(shared.model_name)`
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-20 04:29:39 +02:00

			`def unload_model_if_idle():`
			`global last_generation_time`

			`logger.info(f"Setting a timeout of {shared.args.idle_timeout} minutes to unload the model in case of inactivity.")`

			`while True:`
			`shared.generation_lock.acquire()`
			`try:`
			`if time.time() - last_generation_time > shared.args.idle_timeout * 60:`
			`if shared.model is not None:`
			`logger.info("Unloading the model for inactivity.")`
Fix UI error caused by --idle-timeout 2024-07-29 03:30:06 +02:00			`unload_model(keep_model_name=True)`
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-20 04:29:39 +02:00			`finally:`
			`shared.generation_lock.release()`

			`time.sleep(60)`