feat: Add GPU-specific Ray worker images with CI/CD

- Add Dockerfiles for nvidia, rdna2, strixhalo, and intel GPU targets - Add ray-serve modules (embeddings, whisper, tts, llm, reranker) - Add Gitea Actions workflow for automated builds - Add Makefile for local development - Update README with comprehensive documentation
2026-02-01 15:04:31 -05:00
parent e68d5c1f0e
commit a16ffff73f
16 changed files with 1311 additions and 2 deletions
--- a/ray-serve/serve_embeddings.py
+++ b/ray-serve/serve_embeddings.py
@@ -0,0 +1,87 @@
+"""
+Ray Serve deployment for sentence-transformers BGE embeddings.
+Runs on: drizzt (Radeon 680M iGPU, ROCm)
+"""
+
+import os
+import time
+import uuid
+from typing import Any, Dict, List, Union
+
+from ray import serve
+
+
+@serve.deployment(name="EmbeddingsDeployment", num_replicas=1)
+class EmbeddingsDeployment:
+    def __init__(self):
+        from sentence_transformers import SentenceTransformer
+        import torch
+        
+        self.model_id = os.environ.get("MODEL_ID", "BAAI/bge-large-en-v1.5")
+        
+        # Detect device
+        if torch.cuda.is_available():
+            self.device = "cuda"
+        elif hasattr(torch, "xpu") and torch.xpu.is_available():
+            self.device = "xpu"
+        else:
+            self.device = "cpu"
+        
+        print(f"Loading embeddings model: {self.model_id}")
+        print(f"Using device: {self.device}")
+        
+        self.model = SentenceTransformer(self.model_id, device=self.device)
+        self.embedding_dim = self.model.get_sentence_embedding_dimension()
+        
+        print(f"Model loaded. Embedding dimension: {self.embedding_dim}")
+
+    async def __call__(self, request: Dict[str, Any]) -> Dict[str, Any]:
+        """
+        Handle OpenAI-compatible embedding requests.
+        
+        Expected request format:
+        {
+            "model": "model-name",
+            "input": "text to embed" or ["text1", "text2"],
+            "encoding_format": "float"
+        }
+        """
+        input_data = request.get("input", "")
+        
+        # Handle both single string and list of strings
+        if isinstance(input_data, str):
+            texts = [input_data]
+        else:
+            texts = input_data
+        
+        # Generate embeddings
+        embeddings = self.model.encode(
+            texts,
+            normalize_embeddings=True,
+            show_progress_bar=False,
+        )
+        
+        # Build response data
+        data = []
+        total_tokens = 0
+        for i, (text, embedding) in enumerate(zip(texts, embeddings)):
+            data.append({
+                "object": "embedding",
+                "index": i,
+                "embedding": embedding.tolist(),
+            })
+            total_tokens += len(text.split())
+        
+        # Return OpenAI-compatible response
+        return {
+            "object": "list",
+            "data": data,
+            "model": self.model_id,
+            "usage": {
+                "prompt_tokens": total_tokens,
+                "total_tokens": total_tokens,
+            },
+        }
+
+
+app = EmbeddingsDeployment.bind()