Add Claude tokenizer

2025-06-05 21:59:27 +02:00 · 2023-06-26 13:36:56 +03:00
parent 7354003db1
commit 68f967ea78
7 changed files with 68 additions and 106 deletions
--- a/package-lock.json
+++ b/package-lock.json
@@ -10,6 +10,7 @@
            "license": "AGPL-3.0",
            "dependencies": {
                "@dqbd/tiktoken": "^1.0.2",
+                "@mlc-ai/web-tokenizers": "^0.1.0",
                "axios": "^1.4.0",
                "command-exists": "^1.2.9",
                "compression": "^1",
@@ -561,6 +562,11 @@
            "integrity": "sha512-XPSJHWmi394fuUuzDnGz1wiKqWfo1yXecHQMRf2l6hztTO+nPru658AyDngaBe7isIxEkRsPR3FZh+s7iVa4Uw==",
            "dev": true
        },
+        "node_modules/@mlc-ai/web-tokenizers": {
+            "version": "0.1.0",
+            "resolved": "https://registry.npmjs.org/@mlc-ai/web-tokenizers/-/web-tokenizers-0.1.0.tgz",
+            "integrity": "sha512-whiQ+40ohtAFoFOGcje1Io7BMr434Wh3hM3nBCWlJMpXxL5Rlig/AH9wjyUPsytKwWTEe7RoYPyXSbFw5Vs6Tw=="
+        },
        "node_modules/@nodelib/fs.scandir": {
            "version": "2.1.5",
            "resolved": "https://registry.npmjs.org/@nodelib/fs.scandir/-/fs.scandir-2.1.5.tgz",
--- a/package.json
+++ b/package.json
@@ -1,6 +1,7 @@
 {
    "dependencies": {
        "@dqbd/tiktoken": "^1.0.2",
+        "@mlc-ai/web-tokenizers": "^0.1.0",
        "axios": "^1.4.0",
        "command-exists": "^1.2.9",
        "compression": "^1",
--- a/public/css/notes.css
+++ b/public/css/notes.css
@@ -1,73 +0,0 @@
-body {
-    margin: 0;
-    padding: 0;
-    width: 100%;
-    background-color: rgb(36, 37, 37);
-    background-repeat: no-repeat;
-    background-attachment: fixed;
-    background-size: cover;
-    font-family: "Noto Sans", "Noto Color Emoji", sans-serif;
-    font-size: 16px;
-    /*1rem*/
-    color: #999;
-    box-sizing: border-box;
-    -webkit-font-smoothing: antialiased;
-    -moz-osx-font-smoothing: grayscale;
-    /*z-index:0;*/
-}
-
-#main {
-    padding-top: 20px;
-    /*z-index:1;*/
-}
-
-#content {
-    margin: 0 auto;
-    max-width: 700px;
-    border: 1px solid #333;
-    padding: 20px;
-    border-radius: 20px;
-    background-color: rgba(0, 0, 0, 0.5);
-    line-height: 1.5rem;
-    box-shadow: 0 0 5px black;
-    /*z-index: 2;*/
-}
-
-code {
-    border: 1px solid #999;
-    background-color: rgba(0, 0, 0, 0.5);
-    padding: 5px;
-    border-radius: 5px;
-    display: block;
-    white-space: pre-line;
-}
-
-a {
-    color: orange;
-    text-decoration: none;
-    border-bottom: 1px dotted orange;
-}
-
-h2,
-h3 {
-    color: #ccc;
-}
-
-hr {
-    border: 1px solid #999;
-}
-
-table {
-    width: 100%;
-}
-
-table,
-th,
-td {
-    border: 1px solid;
-    border-collapse: collapse;
-}
-
-table img {
-    max-width: 200px;
-}
--- a/public/notes/index.html
+++ b/public/notes/index.html
@@ -1,23 +0,0 @@
-<!DOCTYPE html>
-<html lang="en">
-
-<head>
-    <title>SillyTavern Documentation</title>
-    <link rel="stylesheet" href="/css/notes.css">
-    <meta charset="UTF-8">
-    <meta name="viewport" content="width=device-width, initial-scale=1.0">
-    <link href="/webfonts/NotoSans/stylesheet.css" rel="stylesheet">
-</head>
-
-<body>
-    <div id="main">
-        <div id="content">
-            <h2>You weren't supposed to be able to get here, you know.</h1>
-            <h3>All help materials has been moved here:</h3>
-            <h3><a href="https://docs.sillytavern.app/">SillyTavern Documentation</a></h3>
-
-        </div>
-    </div>
-</body>
-
-</html>
--- a/public/scripts/openai.js
+++ b/public/scripts/openai.js
@@ -927,16 +927,15 @@ function getTokenizerModel() {
            return turboTokenizer;
        }
        else if (oai_settings.windowai_model.includes('claude')) {
-            return turboTokenizer;
+            return 'claude';
        }
        else if (oai_settings.windowai_model.includes('GPT-NeoXT')) {
            return 'gpt2';
        }
    }

-    // We don't have a Claude tokenizer for JS yet. Turbo 3.5 should be able to handle this.
    if (oai_settings.chat_completion_source == chat_completion_sources.CLAUDE) {
-        return turboTokenizer;
+        return 'claude';
    }

    // Default to Turbo 3.5
--- a/server.js
+++ b/server.js
@@ -128,10 +128,13 @@ let response_getstatus;
 const delay = ms => new Promise(resolve => setTimeout(resolve, ms))

 const { SentencePieceProcessor, cleanText } = require("sentencepiece-js");
+const { Tokenizer } = require('@mlc-ai/web-tokenizers');
+const CHARS_PER_TOKEN = 3.35;

 let spp_llama;
 let spp_nerd;
 let spp_nerd_v2;
+let claude_tokenizer;

 async function loadSentencepieceTokenizer(modelPath) {
    try {
@@ -147,7 +150,7 @@ async function loadSentencepieceTokenizer(modelPath) {
 async function countSentencepieceTokens(spp, text) {
    // Fallback to strlen estimation
    if (!spp) {
-        return Math.ceil(text.length / 3.35);
+        return Math.ceil(text.length / CHARS_PER_TOKEN);
    }

    let cleaned = cleanText(text);
@@ -156,9 +159,36 @@ async function countSentencepieceTokens(spp, text) {
    return ids.length;
 }

+async function loadClaudeTokenizer(modelPath) {
+    try {
+        const arrayBuffer = fs.readFileSync(modelPath).buffer;
+        const instance = await Tokenizer.fromJSON(arrayBuffer);
+        return instance;
+    } catch (error) {
+        console.error("Claude tokenizer failed to load: " + modelPath, error);
+        return null;
+    }
+}
+
+function countClaudeTokens(tokenizer, messages) {
+    const convertedPrompt = convertClaudePrompt(messages, false, false);
+
+    // Fallback to strlen estimation
+    if (!tokenizer) {
+        return Math.ceil(convertedPrompt.length / CHARS_PER_TOKEN);
+    }
+
+    const count = tokenizer.encode(convertedPrompt).length;
+    return count;
+}
+
 const tokenizersCache = {};

 function getTokenizerModel(requestModel) {
+    if (requestModel.includes('claude')) {
+        return 'claude';
+    }
+
    if (requestModel.includes('gpt-4-32k')) {
        return 'gpt-4-32k';
    }
@@ -2870,6 +2900,12 @@ app.post("/openai_bias", jsonParser, async function (request, response) {
    let result = {};

    const model = getTokenizerModel(String(request.query.model || ''));
+
+    // no bias for claude
+    if (model == 'claude') {
+        return response.send(result);
+    }
+
    const tokenizer = getTiktokenTokenizer(model);

    for (const entry of request.body) {
@@ -2942,7 +2978,7 @@ app.post("/deletepreset_openai", jsonParser, function (request, response) {
 });

 // Prompt Conversion script taken from RisuAI by @kwaroran (GPLv3).
-function convertClaudePrompt(messages) {
+function convertClaudePrompt(messages, addHumanPrefix, addAssistantPostfix) {
    // Claude doesn't support message names, so we'll just add them to the message content.
    for (const message of messages) {
        if (message.name && message.role !== "system") {
@@ -2972,7 +3008,16 @@ function convertClaudePrompt(messages) {
                break
        }
        return prefix + v.content;
-    }).join('') + '\n\nAssistant: ';
+    }).join('');
+
+    if (addHumanPrefix) {
+        requestPrompt = "\n\nHuman: " + requestPrompt;
+    }
+
+    if (addAssistantPostfix) {
+        requestPrompt = requestPrompt + '\n\nAssistant: ';
+    }
+
    return requestPrompt;
 }

@@ -2993,14 +3038,14 @@ async function sendClaudeRequest(request, response) {
            controller.abort();
        });

-        const requestPrompt = convertClaudePrompt(request.body.messages);
+        const requestPrompt = convertClaudePrompt(request.body.messages, true, true);
        console.log('Claude request:', requestPrompt);

        const generateResponse = await fetch(api_url + '/complete', {
            method: "POST",
            signal: controller.signal,
            body: JSON.stringify({
-                prompt: "\n\nHuman: " + requestPrompt,
+                prompt: requestPrompt,
                model: request.body.model,
                max_tokens_to_sample: request.body.max_tokens,
                stop_sequences: ["\n\nHuman:", "\n\nSystem:", "\n\nAssistant:"],
@@ -3166,15 +3211,20 @@ app.post("/generate_openai", jsonParser, function (request, response_generate_op
 app.post("/tokenize_openai", jsonParser, function (request, response_tokenize_openai = response) {
    if (!request.body) return response_tokenize_openai.sendStatus(400);

+    let num_tokens = 0;
    const model = getTokenizerModel(String(request.query.model || ''));

+    if (model == 'claude') {
+        num_tokens = countClaudeTokens(claude_tokenizer, request.body);
+        return response_tokenize_openai.send({ "token_count": num_tokens });
+    }
+
    const tokensPerName = model.includes('gpt-4') ? 1 : -1;
    const tokensPerMessage = model.includes('gpt-4') ? 3 : 4;
    const tokensPadding = 3;

    const tokenizer = getTiktokenTokenizer(model);

-    let num_tokens = 0;
    for (const msg of request.body) {
        num_tokens += tokensPerMessage;
        for (const [key, value] of Object.entries(msg)) {
@@ -3282,10 +3332,11 @@ const setupTasks = async function () {
    // Colab users could run the embedded tool
    if (!is_colab) await convertWebp();

-    [spp_llama, spp_nerd, spp_nerd_v2] = await Promise.all([
+    [spp_llama, spp_nerd, spp_nerd_v2, claude_tokenizer] = await Promise.all([
        loadSentencepieceTokenizer('src/sentencepiece/tokenizer.model'),
        loadSentencepieceTokenizer('src/sentencepiece/nerdstash.model'),
        loadSentencepieceTokenizer('src/sentencepiece/nerdstash_v2.model'),
+        loadClaudeTokenizer('src/claude.json'),
    ]);

    console.log('Launching...');
--- a/src/claude.json
+++ b/src/claude.json