mtmd: Better way to detect if an EXL3 model is multimodal

2026-03-07 06:03:51 +01:00 · 2025-08-09 07:31:36 -07:00 · 2025-08-09 07:31:36 -07:00 · f396b82a4f
parent fa9be444fa
commit f396b82a4f
1 changed files with 10 additions and 7 deletions
--- a/modules/exllamav3.py
+++ b/modules/exllamav3.py
@ -98,13 +98,16 @@ class Exllamav3Model:

        # Load vision model component (ExLlamaV3 native)
        vision_model = None
-        try:
-            logger.info("Loading vision model component...")
-            vision_model = Model.from_config(config, component="vision")
-            vision_model.load(progressbar=True)
-            logger.info("Vision model loaded successfully")
-        except Exception as e:
-            logger.warning(f"Vision model loading failed (multimodal disabled): {e}")
+        if "vision_config" in config.config_dict:
+            logger.info("Vision component detected in model config. Attempting to load...")
+            try:
+                vision_model = Model.from_config(config, component="vision")
+                vision_model.load(progressbar=True)
+                logger.info("Vision model loaded successfully.")
+            except Exception as e:
+                logger.warning(f"Vision model loading failed (multimodal disabled): {e}")
+        else:
+            logger.info("No vision component in model config. Skipping multimodal setup.")

        generator = Generator(
            model=model,