Model: Lazyload backends

2025-06-05 21:59:24 +02:00 · 2023-03-13 20:29:29 -05:00
parent adc11fdbc9
commit b93c339145
5 changed files with 15 additions and 13 deletions
--- a/aiserver.py
+++ b/aiserver.py
@@ -586,12 +586,6 @@ utils.socketio = socketio

 # Weird import position to steal koboldai_vars from utils
 from modeling.patches import patch_transformers
-from modeling.inference_models.api import APIInferenceModel
-from modeling.inference_models.generic_hf_torch import GenericHFTorchInferenceModel
-from modeling.inference_models.legacy_gpt2_hf import CustomGPT2HFTorchInferenceModel
-from modeling.inference_models.hf_mtj import HFMTJInferenceModel
-from modeling.inference_models.horde import HordeInferenceModel
-from modeling.inference_models.openai import OpenAIAPIInferenceModel


 old_socketio_on = socketio.on
@@ -1877,12 +1871,16 @@ def load_model(use_gpu=True, gpu_layers=None, disk_layers=None, initial_load=Fal
        print(":P")
    elif koboldai_vars.model in ["Colab", "API", "CLUSTER", "OAI"]:
        if koboldai_vars.model == "Colab":
-            model = APIInferenceModel()
+            from modeling.inference_models.basic_api import BasicAPIInferenceModel
+            model = BasicAPIInferenceModel()
        elif koboldai_vars.model == "API":
+            from modeling.inference_models.api import APIInferenceModel
            model = APIInferenceModel()
        elif koboldai_vars.model == "CLUSTER":
+            from modeling.inference_models.horde import HordeInferenceModel
            model = HordeInferenceModel()
        elif koboldai_vars.model == "OAI":
+            from modeling.inference_models.openai import OpenAIAPIInferenceModel
            model = OpenAIAPIInferenceModel()

        koboldai_vars.colaburl = url or koboldai_vars.colaburl
@@ -1906,11 +1904,13 @@ def load_model(use_gpu=True, gpu_layers=None, disk_layers=None, initial_load=Fal
                pass

        if koboldai_vars.model_type == "gpt2":
+            from modeling.inference_models.legacy_gpt2_hf import CustomGPT2HFTorchInferenceModel
            model = CustomGPT2HFTorchInferenceModel(
                koboldai_vars.model,
                low_mem=args.lowmem
            )
        else:
+            from modeling.inference_models.generic_hf_torch import GenericHFTorchInferenceModel
            model = GenericHFTorchInferenceModel(
                koboldai_vars.model,
                lazy_load=koboldai_vars.lazy_load,
@@ -1923,6 +1923,7 @@ def load_model(use_gpu=True, gpu_layers=None, disk_layers=None, initial_load=Fal
        logger.info(f"Pipeline created: {koboldai_vars.model}")
    else:
        # TPU
+        from modeling.inference_models.hf_mtj import HFMTJInferenceModel
        model = HFMTJInferenceModel(
            koboldai_vars.model
        )
@@ -5586,7 +5587,7 @@ def final_startup():
        file.close()

    # Precompile TPU backend if required
-    if isinstance(model, HFMTJInferenceModel):
+    if model and model.capabilties.uses_tpu:
        model.raw_generate([23403, 727, 20185], max_new=1)

    # Set the initial RNG seed
--- a/modeling/inference_model.py
+++ b/modeling/inference_model.py
@@ -156,6 +156,9 @@ class ModelCapabilities:
    # Some models cannot be hosted over the API, namely the API itself.
    api_host: bool = True

+    # Some models need to warm up the TPU before use
+    uses_tpu: bool = False
+

 class InferenceModel:
    """Root class for all models."""
--- a/modeling/inference_models/hf_mtj.py
+++ b/modeling/inference_models/hf_mtj.py
@@ -38,6 +38,7 @@ class HFMTJInferenceModel(HFInferenceModel):
            post_token_hooks=False,
            stopper_hooks=False,
            post_token_probs=False,
+            uses_tpu=True
        )

    def setup_mtj(self) -> None:
--- a/modeling/test_generation.py
+++ b/modeling/test_generation.py
@@ -1,11 +1,11 @@
 import torch

 # We have to go through aiserver to initalize koboldai_vars :(
-from aiserver import GenericHFTorchInferenceModel
 from aiserver import koboldai_vars

 from modeling.inference_model import InferenceModel
 from modeling.inference_models.api import APIInferenceModel
+from modeling.inference_models.generic_hf_torch import GenericHFTorchInferenceModel
 from modeling.inference_models.horde import HordeInferenceModel

 model: InferenceModel
--- a/modeling/warpers.py
+++ b/modeling/warpers.py
@@ -42,13 +42,10 @@ import utils
 import torch
 import numpy as np

-try:
+if utils.koboldai_vars.use_colab_tpu:
    import jax
    import jax.numpy as jnp
    import tpu_mtj_backend
-except ImportError as e:
-    if utils.koboldai_vars.use_colab_tpu:
-        raise e


 def update_settings():