text-generation-webui/modules/models.py

import sys
import time
from pathlib import Path

import modules.shared as shared
from modules.logging_colors import logger
from modules.models_settings import get_model_metadata

last_generation_time = time.time()


def load_model(model_name, loader=None):
    logger.info(f"Loading \"{model_name}\"")
    t0 = time.time()

    shared.is_seq2seq = False
    shared.model_name = model_name
    load_func_map = {
        'llama.cpp': llama_cpp_server_loader,
        'Transformers': transformers_loader,
        'ExLlamav3_HF': ExLlamav3_HF_loader,
        'ExLlamav2_HF': ExLlamav2_HF_loader,
        'ExLlamav2': ExLlamav2_loader,
        'TensorRT-LLM': TensorRT_LLM_loader,
    }

    metadata = get_model_metadata(model_name)
    if loader is None:
        if shared.args.loader is not None:
            loader = shared.args.loader
        else:
            loader = metadata['loader']
            if loader is None:
                logger.error('The path to the model does not exist. Exiting.')
                raise ValueError

    if loader != 'llama.cpp' and 'sampler_hijack' not in sys.modules:
        from modules import sampler_hijack
        sampler_hijack.hijack_samplers()

    shared.args.loader = loader
    output = load_func_map[loader](model_name)
    if type(output) is tuple:
        model, tokenizer = output
    else:
        model = output
        if model is None:
            return None, None
        else:
            from modules.transformers_loader import load_tokenizer
            tokenizer = load_tokenizer(model_name)

    shared.settings.update({k: v for k, v in metadata.items() if k in shared.settings})
    if loader.lower().startswith('exllama') or loader.lower().startswith('tensorrt') or loader == 'llama.cpp':
        shared.settings['truncation_length'] = shared.args.ctx_size

    logger.info(f"Loaded \"{model_name}\" in {(time.time()-t0):.2f} seconds.")
    logger.info(f"LOADER: \"{loader}\"")
    logger.info(f"TRUNCATION LENGTH: {shared.settings['truncation_length']}")
    logger.info(f"INSTRUCTION TEMPLATE: \"{metadata['instruction_template']}\"")
    return model, tokenizer


def llama_cpp_server_loader(model_name):
    from modules.llama_cpp_server import LlamaServer

    path = Path(f'{shared.args.model_dir}/{model_name}')
    if path.is_file():
        model_file = path
    else:
        model_file = sorted(Path(f'{shared.args.model_dir}/{model_name}').glob('*.gguf'))[0]

    try:
        model = LlamaServer(model_file)
        return model, model
    except Exception as e:
        logger.error(f"Error loading the model with llama.cpp: {str(e)}")


def transformers_loader(model_name):
    from modules.transformers_loader import load_model_HF
    return load_model_HF(model_name)


def ExLlamav3_HF_loader(model_name):
    from modules.exllamav3_hf import Exllamav3HF

    return Exllamav3HF.from_pretrained(model_name)


def ExLlamav2_HF_loader(model_name):
    from modules.exllamav2_hf import Exllamav2HF

    return Exllamav2HF.from_pretrained(model_name)


def ExLlamav2_loader(model_name):
    from modules.exllamav2 import Exllamav2Model

    model, tokenizer = Exllamav2Model.from_pretrained(model_name)
    return model, tokenizer


def TensorRT_LLM_loader(model_name):
    try:
        from modules.tensorrt_llm import TensorRTLLMModel
    except ModuleNotFoundError:
        raise ModuleNotFoundError("Failed to import 'tensorrt_llm'. Please install it manually following the instructions in the TensorRT-LLM GitHub repository.")

    model = TensorRTLLMModel.from_pretrained(model_name)
    return model


def unload_model(keep_model_name=False):
    if shared.model is None:
        return

    is_llamacpp = (shared.model.__class__.__name__ == 'LlamaServer')
    if shared.model.__class__.__name__ == 'Exllamav3HF':
        shared.model.unload()

    shared.model = shared.tokenizer = None
    shared.lora_names = []
    shared.model_dirty_from_training = False

    if not is_llamacpp:
        from modules.torch_utils import clear_torch_cache
        clear_torch_cache()

    if not keep_model_name:
        shared.model_name = 'None'


def reload_model():
    unload_model()
    shared.model, shared.tokenizer = load_model(shared.model_name)


def unload_model_if_idle():
    global last_generation_time

    logger.info(f"Setting a timeout of {shared.args.idle_timeout} minutes to unload the model in case of inactivity.")

    while True:
        shared.generation_lock.acquire()
        try:
            if time.time() - last_generation_time > shared.args.idle_timeout * 60:
                if shared.model is not None:
                    logger.info("Unloading the model for inactivity.")
                    unload_model(keep_model_name=True)
        finally:
            shared.generation_lock.release()

        time.sleep(60)
Fix ExLlamaV2_HF and ExLlamaV3_HF after ae02ffc605d90b19a507132c09055c7ff11df52b 2025-04-20 11:32:48 -07:00			`import sys`
Further refactor 2023-02-23 13:28:30 -03:00			`import time`
			`from pathlib import Path`

Improve the imports 2023-02-23 14:41:42 -03:00			`import modules.shared as shared`
Prevent unwanted log messages from modules 2023-05-21 22:42:34 -03:00			`from modules.logging_colors import logger`
Read GGUF metadata (#3873) 2023-09-11 18:49:30 -03:00			`from modules.models_settings import get_model_metadata`
Further refactor 2023-02-23 13:28:30 -03:00
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-19 23:29:39 -03:00			`last_generation_time = time.time()`


Reorganize model loading UI completely (#2720) 2023-06-16 19:00:37 -03:00			`def load_model(model_name, loader=None):`
Minor logging improvements 2024-02-06 08:22:08 -08:00			`logger.info(f"Loading \"{model_name}\"")`
Further refactor 2023-02-23 13:28:30 -03:00			`t0 = time.time()`

Reorganize model loading UI completely (#2720) 2023-06-16 19:00:37 -03:00			`shared.is_seq2seq = False`
Cleanup: set shared.model_name only once 2023-12-08 06:35:23 -08:00			`shared.model_name = model_name`
Reorganize model loading UI completely (#2720) 2023-06-16 19:00:37 -03:00			`load_func_map = {`
New llama.cpp loader (#6846) 2025-04-18 09:59:37 -03:00			`'llama.cpp': llama_cpp_server_loader,`
Refactor the transformers loader (#6859) 2025-04-20 13:33:47 -03:00			`'Transformers': transformers_loader,`
Add ExLlamaV3 support (#6832) 2025-04-09 00:07:08 -03:00			`'ExLlamav3_HF': ExLlamav3_HF_loader,`
Add ExLlamaV2 and ExLlamav2_HF loaders (#3881) 2023-09-12 14:33:07 -03:00			`'ExLlamav2_HF': ExLlamav2_HF_loader,`
Add ExLlamaV3 support (#6832) 2025-04-09 00:07:08 -03:00			`'ExLlamav2': ExLlamav2_loader,`
Add TensorRT-LLM support (#5715) 2024-06-24 02:30:03 -03:00			`'TensorRT-LLM': TensorRT_LLM_loader,`
Reorganize model loading UI completely (#2720) 2023-06-16 19:00:37 -03:00			`}`

Make OpenAI API the default API (#4430) 2023-11-06 02:38:29 -03:00			`metadata = get_model_metadata(model_name)`
Reorganize model loading UI completely (#2720) 2023-06-16 19:00:37 -03:00			`if loader is None:`
			`if shared.args.loader is not None:`
			`loader = shared.args.loader`
			`else:`
Make OpenAI API the default API (#4430) 2023-11-06 02:38:29 -03:00			`loader = metadata['loader']`
Reorganize model loading UI completely (#2720) 2023-06-16 19:00:37 -03:00			`if loader is None:`
			`logger.error('The path to the model does not exist. Exiting.')`
Add /v1/internal/model/load endpoint (tentative) 2023-11-07 20:58:06 -08:00			`raise ValueError`
Refactor models.py (#2113) 2023-05-16 19:52:22 -03:00
Fix ExLlamaV2_HF and ExLlamaV3_HF after ae02ffc605d90b19a507132c09055c7ff11df52b 2025-04-20 11:32:48 -07:00			`if loader != 'llama.cpp' and 'sampler_hijack' not in sys.modules:`
			`from modules import sampler_hijack`
			`sampler_hijack.hijack_samplers()`

Reorganize model loading UI completely (#2720) 2023-06-16 19:00:37 -03:00			`shared.args.loader = loader`
			`output = load_func_map[loader](model_name)`
Refactor models.py (#2113) 2023-05-16 19:52:22 -03:00			`if type(output) is tuple:`
			`model, tokenizer = output`
			`else:`
			`model = output`
Improve error handling while loading GPTQ models 2023-05-19 11:20:08 -03:00			`if model is None:`
			`return None, None`
			`else:`
Refactor the transformers loader (#6859) 2025-04-20 13:33:47 -03:00			`from modules.transformers_loader import load_tokenizer`
Add a --tokenizer-dir command-line flag for llamacpp_HF 2024-08-06 19:41:18 -07:00			`tokenizer = load_tokenizer(model_name)`
Refactor models.py (#2113) 2023-05-16 19:52:22 -03:00
Make OpenAI API the default API (#4430) 2023-11-06 02:38:29 -03:00			`shared.settings.update({k: v for k, v in metadata.items() if k in shared.settings})`
Use `--ctx-size` to specify the context size for all loaders Old flags are still recognized as alternatives. 2025-04-25 16:59:03 -07:00			`if loader.lower().startswith('exllama') or loader.lower().startswith('tensorrt') or loader == 'llama.cpp':`
			`shared.settings['truncation_length'] = shared.args.ctx_size`
Print context length / instruction template to terminal when loading models 2023-11-15 16:00:51 -08:00
Improve the logging messages while loading models 2024-05-03 08:10:44 -07:00			`logger.info(f"Loaded \"{model_name}\" in {(time.time()-t0):.2f} seconds.")`
Improve some log messages 2024-02-06 06:31:27 -08:00			`logger.info(f"LOADER: \"{loader}\"")`
Add more info messages for truncation / instruction template 2023-11-15 16:13:36 -08:00			`logger.info(f"TRUNCATION LENGTH: {shared.settings['truncation_length']}")`
Improve some log messages 2024-02-06 06:31:27 -08:00			`logger.info(f"INSTRUCTION TEMPLATE: \"{metadata['instruction_template']}\"")`
Refactor models.py (#2113) 2023-05-16 19:52:22 -03:00			`return model, tokenizer`


New llama.cpp loader (#6846) 2025-04-18 09:59:37 -03:00			`def llama_cpp_server_loader(model_name):`
			`from modules.llama_cpp_server import LlamaServer`
Refactor models.py (#2113) 2023-05-16 19:52:22 -03:00
			`path = Path(f'{shared.args.model_dir}/{model_name}')`
			`if path.is_file():`
			`model_file = path`
Further refactor 2023-02-23 13:28:30 -03:00			`else:`
Lint 2024-06-12 19:00:21 -07:00			`model_file = sorted(Path(f'{shared.args.model_dir}/{model_name}').glob('*.gguf'))[0]`
Further refactor 2023-02-23 13:28:30 -03:00
New llama.cpp loader (#6846) 2025-04-18 09:59:37 -03:00			`try:`
			`model = LlamaServer(model_file)`
			`return model, model`
			`except Exception as e:`
			`logger.error(f"Error loading the model with llama.cpp: {str(e)}")`
Create llamacpp_HF loader (#3062) 2023-07-16 02:21:13 -03:00

Refactor the transformers loader (#6859) 2025-04-20 13:33:47 -03:00			`def transformers_loader(model_name):`
			`from modules.transformers_loader import load_model_HF`
			`return load_model_HF(model_name)`


Add ExLlamaV3 support (#6832) 2025-04-09 00:07:08 -03:00			`def ExLlamav3_HF_loader(model_name):`
			`from modules.exllamav3_hf import Exllamav3HF`
Revert "Remove non-HF ExLlamaV2 loader (#5431)" This reverts commit cde000d47801fa13c5a88f9e435da64132bd96bc. 2024-02-06 06:21:17 -08:00
Add ExLlamaV3 support (#6832) 2025-04-09 00:07:08 -03:00			`return Exllamav3HF.from_pretrained(model_name)`
Revert "Remove non-HF ExLlamaV2 loader (#5431)" This reverts commit cde000d47801fa13c5a88f9e435da64132bd96bc. 2024-02-06 06:21:17 -08:00

Add ExLlamaV2 and ExLlamav2_HF loaders (#3881) 2023-09-12 14:33:07 -03:00			`def ExLlamav2_HF_loader(model_name):`
			`from modules.exllamav2_hf import Exllamav2HF`

			`return Exllamav2HF.from_pretrained(model_name)`


Add ExLlamaV3 support (#6832) 2025-04-09 00:07:08 -03:00			`def ExLlamav2_loader(model_name):`
			`from modules.exllamav2 import Exllamav2Model`

			`model, tokenizer = Exllamav2Model.from_pretrained(model_name)`
			`return model, tokenizer`


Add TensorRT-LLM support (#5715) 2024-06-24 02:30:03 -03:00			`def TensorRT_LLM_loader(model_name):`
Add warnings for when AutoGPTQ, TensorRT-LLM, or HQQ are missing 2024-09-28 20:30:24 -07:00			`try:`
			`from modules.tensorrt_llm import TensorRTLLMModel`
			`except ModuleNotFoundError:`
			`raise ModuleNotFoundError("Failed to import 'tensorrt_llm'. Please install it manually following the instructions in the TensorRT-LLM GitHub repository.")`
Add TensorRT-LLM support (#5715) 2024-06-24 02:30:03 -03:00
			`model = TensorRTLLMModel.from_pretrained(model_name)`
			`return model`


Fix UI error caused by --idle-timeout 2024-07-28 18:30:06 -07:00			`def unload_model(keep_model_name=False):`
Small change to the unload_model() function 2025-04-20 20:00:56 -07:00			`if shared.model is None:`
			`return`

Refactor the transformers loader (#6859) 2025-04-20 13:33:47 -03:00			`is_llamacpp = (shared.model.__class__.__name__ == 'LlamaServer')`
Fix after 219f0a773166deeb0326c2874b29e66e382df524 2025-06-01 19:27:14 -07:00			`if shared.model.__class__.__name__ == 'Exllamav3HF':`
Fix exllamav3_hf models failing to unload (closes #7031) 2025-05-30 12:05:49 -07:00			`shared.model.unload()`
Refactor the transformers loader (#6859) 2025-04-20 13:33:47 -03:00
SD Api Pics extension, v.1.1 (#596) 2023-04-08 03:36:04 +03:00			`shared.model = shared.tokenizer = None`
Update models.py to clear LORA names after unload (#2951) 2023-07-03 16:39:06 -04:00			`shared.lora_names = []`
More robust and error prone training (#3058) 2023-07-12 14:29:43 -04:00			`shared.model_dirty_from_training = False`
Fix exllamav3_hf models failing to unload (closes #7031) 2025-05-30 12:05:49 -07:00
Refactor the transformers loader (#6859) 2025-04-20 13:33:47 -03:00			`if not is_llamacpp:`
			`from modules.torch_utils import clear_torch_cache`
			`clear_torch_cache()`
SD Api Pics extension, v.1.1 (#596) 2023-04-08 03:36:04 +03:00
Fix UI error caused by --idle-timeout 2024-07-28 18:30:06 -07:00			`if not keep_model_name:`
			`shared.model_name = 'None'`

SD Api Pics extension, v.1.1 (#596) 2023-04-08 03:36:04 +03:00
			`def reload_model():`
Simplify a function 2023-04-07 21:37:41 -03:00			`unload_model()`
SD Api Pics extension, v.1.1 (#596) 2023-04-08 03:36:04 +03:00			`shared.model, shared.tokenizer = load_model(shared.model_name)`
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-19 23:29:39 -03:00

			`def unload_model_if_idle():`
			`global last_generation_time`

			`logger.info(f"Setting a timeout of {shared.args.idle_timeout} minutes to unload the model in case of inactivity.")`

			`while True:`
			`shared.generation_lock.acquire()`
			`try:`
			`if time.time() - last_generation_time > shared.args.idle_timeout * 60:`
			`if shared.model is not None:`
			`logger.info("Unloading the model for inactivity.")`
Fix UI error caused by --idle-timeout 2024-07-28 18:30:06 -07:00			`unload_model(keep_model_name=True)`
--idle-timeout flag to unload the model if unused for N minutes (#6026) 2024-05-19 23:29:39 -03:00			`finally:`
			`shared.generation_lock.release()`

			`time.sleep(60)`