feat: add SSE streaming support to LLM endpoint

2026-02-20 16:52:08 -05:00
parent a973768aee
commit 59655e3dcf
1 changed files with 68 additions and 1 deletions
--- a/ray_serve/serve_llm.py
+++ b/ray_serve/serve_llm.py
@@ -3,12 +3,14 @@ Ray Serve deployment for vLLM with OpenAI-compatible API.
 Runs on: khelben (Strix Halo 64GB, ROCm)
 """

+import json
 import os
 import time
 import uuid
 from typing import Any

 from ray import serve
+from starlette.responses import StreamingResponse


@serve.deployment(name="LLMDeployment", num_replicas=1)
@@ -120,7 +122,7 @@ class LLMDeployment:
        except ImportError:
            self._mlflow = None

-    async def __call__(self, request) -> dict[str, Any]:
+    async def __call__(self, request) -> dict[str, Any] | StreamingResponse:
        """
        Handle OpenAI-compatible chat completion requests.

@@ -151,6 +153,7 @@ class LLMDeployment:
        )
        top_p = body.get("top_p", 1.0)
        stop = body.get("stop")
+        stream = body.get("stream", False)

        # Convert messages to prompt
        prompt = self._format_messages(messages)
@@ -163,6 +166,16 @@ class LLMDeployment:
            stop_token_ids=self._stop_token_ids,
        )

+        if stream:
+            return StreamingResponse(
+                self._stream_generate(prompt, sampling_params),
+                media_type="text/event-stream",
+                headers={
+                    "Cache-Control": "no-cache",
+                    "X-Accel-Buffering": "no",
+                },
+            )
+
        start_time = time.time()
        request_id = uuid.uuid4().hex
        final_result = None
@@ -211,6 +224,60 @@ class LLMDeployment:
            },
        }

+    async def _stream_generate(self, prompt: str, sampling_params):
+        """Yield OpenAI-compatible SSE chunks as vLLM generates tokens."""
+        request_id = uuid.uuid4().hex
+        previous_text = ""
+        start_time = time.time()
+        completion_tokens = 0
+
+        async for result in self.engine.generate(prompt, sampling_params, request_id):
+            current_text = result.outputs[0].text
+            delta = current_text[len(previous_text):]
+            if delta:
+                completion_tokens += 1
+                chunk = {
+                    "id": f"chatcmpl-{request_id[:8]}",
+                    "object": "chat.completion.chunk",
+                    "created": int(time.time()),
+                    "model": self.model_id,
+                    "choices": [{
+                        "index": 0,
+                        "delta": {"content": delta},
+                        "finish_reason": None,
+                    }],
+                }
+                yield f"data: {json.dumps(chunk)}\n\n"
+                previous_text = current_text
+
+        # Final chunk
+        final_chunk = {
+            "id": f"chatcmpl-{request_id[:8]}",
+            "object": "chat.completion.chunk",
+            "created": int(time.time()),
+            "model": self.model_id,
+            "choices": [{
+                "index": 0,
+                "delta": {},
+                "finish_reason": "stop",
+            }],
+        }
+        yield f"data: {json.dumps(final_chunk)}\n\n"
+        yield "data: [DONE]\n\n"
+
+        # Log metrics
+        latency = time.time() - start_time
+        if self._mlflow:
+            self._mlflow.log_request(
+                latency_s=latency,
+                prompt_tokens=len(prompt.split()),
+                completion_tokens=completion_tokens,
+                total_tokens=len(prompt.split()) + completion_tokens,
+                tokens_per_second=completion_tokens / latency if latency > 0 else 0,
+                temperature=sampling_params.temperature,
+                max_tokens_requested=sampling_params.max_tokens,
+            )
+
    def _format_messages(self, messages: list[dict[str, str]]) -> str:
        """Format chat messages into a prompt string."""
        formatted = ""