Fix exllama model unload

2025-06-05 21:59:24 +02:00 · 2023-06-05 18:43:57 +02:00
parent b35f61e987
commit 94520d5c80
1 changed files with 36 additions and 4 deletions
--- a/modeling/inference_models/exllama/class.py
+++ b/modeling/inference_models/exllama/class.py
@@ -9,6 +9,8 @@ import os
 import glob
 from pathlib import Path
 import re
 import warnings
 import gc
 import utils
 from logger import logger
@@ -26,8 +28,6 @@ from exllama.model import ExLlama, ExLlamaCache, ExLlamaConfig
 from transformers import LlamaTokenizer
 from exllama.generator import ExLlamaGenerator
 import traceback
 model_backend_name = "ExLlama"
@@ -60,8 +60,10 @@ class model_backend(InferenceModel):
        self.model = None
        self.tokenizer = None
        self.cache = None
        self.generator = None
-        self.model_name = None
+        self.model_name = ""
        self.path = None
    def is_valid(self, model_name, model_path, menu_path):
@@ -84,7 +86,7 @@ class model_backend(InferenceModel):
    def _load(self, save_model: bool, initial_load: bool) -> None:
        self.model = self._get_model(self.get_local_model_path(), {})
-        self.tokenizer = self._get_tokenizer(os.path.join(self.get_local_model_path(), "tokenizer.model"))
+        self.tokenizer = self._get_tokenizer(self.get_local_model_path()))
        self.cache = ExLlamaCache(self.model)
@@ -174,6 +176,33 @@ class model_backend(InferenceModel):
            return result
        object.__setattr__(self.tokenizer, '__call__', call_wrapper.__get__(self.tokenizer))
    def unload(self):
        self.model_config = None
        self.model = None
        self.tokenizer = None
        self.cache = None
        self.generator = None
        self.model_name = ""
        self.path = None
        with torch.no_grad():
            with warnings.catch_warnings():
                warnings.filterwarnings("ignore", message="torch.distributed.reduce_op is deprecated")
                for tensor in gc.get_objects():
                    try:
                        if torch.is_tensor(tensor):
                            tensor.set_(torch.tensor((), device=tensor.device, dtype=tensor.dtype))
                    except:
                        pass
        gc.collect()
        try:
            with torch.no_grad():
                torch.cuda.empty_cache()
        except:
            pass
    def _raw_generate(
        self,
        prompt_tokens: Union[List[int], torch.Tensor],
@@ -184,6 +213,9 @@ class model_backend(InferenceModel):
        seed: Optional[int] = None,
        **kwargs,
    ) -> GenerationResult:
        if seed:
            torch.manual_seed(seed)
        if not isinstance(prompt_tokens, torch.Tensor):
            gen_in = torch.tensor(prompt_tokens, dtype=torch.long)[None]
        else: