smellslikeml · March 11, 2024 18:27 · Mar 11, 2024 · Mar 11, 2024 · Mar 11, 2024 · Mar 11, 2024
diff --git a/llm_worker.py b/llm_worker.py
@@ -1,6 +1,5 @@
 # Launch nats-server
-# Download weights from https://huggingface.co/remyxai/stablelm-zephyr-3B_localmentor/blob/main/ggml-model-q4_0.gguf
-# to stablelm-localmentor.gguf
+# wget https://huggingface.co/remyxai/stablelm-zephyr-3B_localmentor/resolve/main/ggml-model-q4_0.gguf -o stablelm-localmentor_2.gguf
 import nats
 import asyncio
 from llama_cpp import Llama

diff --git a/llm_worker.py b/llm_worker.py
@@ -1,3 +1,6 @@
+# Launch nats-server
+# Download weights from https://huggingface.co/remyxai/stablelm-zephyr-3B_localmentor/blob/main/ggml-model-q4_0.gguf
+# to stablelm-localmentor.gguf
 import nats
 import asyncio
 from llama_cpp import Llama

diff --git a/llm_worker.py b/llm_worker.py
@@ -0,0 +1,25 @@
+import nats
+import asyncio
+from llama_cpp import Llama
+
+
+async def llm_runner(nats_url, model_path, subject):
+    nc = await nats.connect(nats_url)
+    llm = Llama(model_path)
+
+    async def inference_handler(msg):
+        data = msg.data.decode()
+        response = llm(data, max_tokens=2048, stop=["###", "\n\n"], echo=True)
+        r = response["choices"][0]["text"]
+        await nc.publish(msg.reply, str(r).encode())
+
+    await nc.subscribe(subject, cb=inference_handler)
+    await asyncio.Future()
+
+
+if __name__ == "__main__":
+    asyncio.run(
+        llm_runner(
+            "nats://localhost:4222", "stablelm-localmentor.gguf", "inference.requests"
+        )
+    )