feat: add MLflow inference logging to all Ray Serve apps

- Add mlflow_logger.py: lightweight REST-based MLflow logger (no mlflow dep) - Instrument serve_llm.py with latency, token counts, tokens/sec metrics - Instrument serve_embeddings.py with latency, batch_size, total_tokens - Instrument serve_whisper.py with latency, audio_duration, realtime_factor - Instrument serve_tts.py with latency, audio_duration, text_chars - Instrument serve_reranker.py with latency, num_pairs, top_k
2026-02-12 06:14:30 -05:00
parent 2edafc33c0
commit 7ec2107e0c
6 changed files with 346 additions and 4 deletions
--- a/ray_serve/mlflow_logger.py
+++ b/ray_serve/mlflow_logger.py
@@ -0,0 +1,211 @@
 """
 Lightweight MLflow metrics logger using the REST API.
 Avoids importing the heavyweight mlflow package — uses only stdlib
 urllib so it works inside any Ray Serve actor without extra pip deps.
 Each deployment creates **one persistent MLflow run** on startup and
 logs per-request metrics with an incrementing step counter.  This
 gives time-series charts in the MLflow UI.  The run is terminated
 when the actor shuts down (or left RUNNING if the process crashes).
 """
 import atexit
 import json
 import logging
 import os
 import threading
 import time
 import urllib.error
 import urllib.request
 from collections import defaultdict
 from dataclasses import dataclass, field
 from typing import Any
 logger = logging.getLogger(__name__)
@dataclass
 class _RunState:
    run_id: str
    experiment_id: str
    step: int = 0
 class InferenceLogger:
    """Per-deployment MLflow metrics logger backed by the REST API.
    Parameters
    ----------
    experiment_name:
        MLflow experiment name (created if missing).
    run_name:
        Human-readable run name shown in the MLflow UI.
    tracking_uri:
        MLflow tracking server.  Defaults to ``MLFLOW_TRACKING_URI`` env var
        or the in-cluster service address.
    tags:
        Extra tags attached to the run (e.g. model name, GPU, node).
    flush_every:
        Batch this many metric points before flushing (reduces HTTP calls).
    """
    def __init__(
        self,
        experiment_name: str,
        run_name: str,
        tracking_uri: str | None = None,
        tags: dict[str, str] | None = None,
        flush_every: int = 1,
    ):
        self._base = (
            tracking_uri
            or os.environ.get("MLFLOW_TRACKING_URI", "http://mlflow.mlflow.svc.cluster.local:80")
        ).rstrip("/")
        self._experiment_name = experiment_name
        self._run_name = run_name
        self._tags = tags or {}
        self._flush_every = max(1, flush_every)
        self._state: _RunState | None = None
        self._buffer: list[dict[str, Any]] = []
        self._lock = threading.Lock()
        self._enabled = True
    # ------------------------------------------------------------------
    # Public API
    # ------------------------------------------------------------------
    def initialize(self, params: dict[str, str] | None = None) -> None:
        """Create experiment + run.  Safe to call from ``__init__``."""
        try:
            exp_id = self._get_or_create_experiment()
            run_id = self._create_run(exp_id)
            self._state = _RunState(run_id=run_id, experiment_id=exp_id)
            if params:
                self._log_params(params)
            # Register cleanup
            atexit.register(self._end_run)
            logger.info("MLflow run started: %s (experiment=%s)", run_id, self._experiment_name)
        except Exception:
            logger.warning("MLflow init failed — metrics will not be logged", exc_info=True)
            self._enabled = False
    def log_request(self, **metrics: float) -> None:
        """Log one set of metrics for a single inference request.
        Metrics are buffered and flushed every ``flush_every`` calls.
        """
        if not self._enabled or not self._state:
            return
        with self._lock:
            self._state.step += 1
            step = self._state.step
            ts = int(time.time() * 1000)
            for key, value in metrics.items():
                self._buffer.append(
                    {"key": key, "value": value, "timestamp": ts, "step": step}
                )
            if len(self._buffer) >= self._flush_every * len(metrics):
                self._flush()
    def flush(self) -> None:
        """Force-flush any buffered metrics."""
        with self._lock:
            self._flush()
    # ------------------------------------------------------------------
    # REST helpers
    # ------------------------------------------------------------------
    def _post(self, path: str, body: dict) -> dict:
        url = f"{self._base}/api/2.0/mlflow/{path}"
        data = json.dumps(body).encode()
        req = urllib.request.Request(
            url, data=data, headers={"Content-Type": "application/json"}, method="POST"
        )
        with urllib.request.urlopen(req, timeout=10) as resp:
            return json.loads(resp.read().decode())
    def _get_or_create_experiment(self) -> str:
        try:
            resp = self._post(
                "experiments/get-by-name",
                {"experiment_name": self._experiment_name},
            )
            return resp["experiment"]["experiment_id"]
        except urllib.error.HTTPError:
            resp = self._post(
                "experiments/create",
                {"name": self._experiment_name},
            )
            return resp["experiment_id"]
    def _create_run(self, experiment_id: str) -> str:
        tags = [
            {"key": k, "value": v}
            for k, v in {
                "mlflow.runName": self._run_name,
                "mlflow.source.type": "LOCAL",
                "hostname": os.environ.get("HOSTNAME", "unknown"),
                "namespace": os.environ.get("POD_NAMESPACE", "unknown"),
                **self._tags,
            }.items()
        ]
        resp = self._post(
            "runs/create",
            {
                "experiment_id": experiment_id,
                "run_name": self._run_name,
                "start_time": int(time.time() * 1000),
                "tags": tags,
            },
        )
        return resp["run"]["info"]["run_id"]
    def _log_params(self, params: dict[str, str]) -> None:
        if not self._state:
            return
        param_list = [{"key": k, "value": str(v)[:500]} for k, v in params.items()]
        try:
            self._post(
                "runs/log-batch",
                {"run_id": self._state.run_id, "params": param_list},
            )
        except Exception:
            logger.debug("Failed to log params", exc_info=True)
    def _flush(self) -> None:
        """Send buffered metrics in a single `log-batch` call."""
        if not self._buffer or not self._state:
            return
        batch = self._buffer[:]
        self._buffer.clear()
        try:
            self._post(
                "runs/log-batch",
                {"run_id": self._state.run_id, "metrics": batch},
            )
        except Exception:
            logger.debug("Failed to flush %d metrics", len(batch), exc_info=True)
    def _end_run(self) -> None:
        """Mark the MLflow run as FINISHED."""
        if not self._state:
            return
        self._flush()
        try:
            self._post(
                "runs/update",
                {
                    "run_id": self._state.run_id,
                    "status": "FINISHED",
                    "end_time": int(time.time() * 1000),
                },
            )
            logger.info("MLflow run %s ended", self._state.run_id)
        except Exception:
            logger.debug("Failed to end MLflow run", exc_info=True)
--- a/ray_serve/serve_embeddings.py
+++ b/ray_serve/serve_embeddings.py
@@ -4,10 +4,13 @@ Runs on: drizzt (Radeon 680M iGPU, ROCm)
 """
 import os
 import time
 from typing import Any
 from ray import serve
 from ray_serve.mlflow_logger import InferenceLogger
@serve.deployment(name="EmbeddingsDeployment", num_replicas=1)
 class EmbeddingsDeployment:
@@ -33,6 +36,17 @@ class EmbeddingsDeployment:
        print(f"Model loaded. Embedding dimension: {self.embedding_dim}")
        # MLflow metrics
        self._mlflow = InferenceLogger(
            experiment_name="ray-serve-embeddings",
            run_name=f"embeddings-{self.model_id.split('/')[-1]}",
            tags={"model.name": self.model_id, "model.framework": "sentence-transformers", "device": self.device},
            flush_every=10,
        )
        self._mlflow.initialize(
            params={"model_id": self.model_id, "embedding_dim": str(self.embedding_dim), "device": self.device}
        )
    async def __call__(self, request: dict[str, Any]) -> dict[str, Any]:
        """
        Handle OpenAI-compatible embedding requests.
@@ -46,6 +60,8 @@ class EmbeddingsDeployment:
        """
        input_data = request.get("input", "")
        _start = time.time()
        # Handle both single string and list of strings
        texts = [input_data] if isinstance(input_data, str) else input_data
@@ -69,6 +85,13 @@ class EmbeddingsDeployment:
            )
            total_tokens += len(text.split())
        # Log to MLflow
        self._mlflow.log_request(
            latency_s=time.time() - _start,
            batch_size=len(texts),
            total_tokens=total_tokens,
        )
        # Return OpenAI-compatible response
        return {
            "object": "list",
--- a/ray_serve/serve_llm.py
+++ b/ray_serve/serve_llm.py
@@ -10,6 +10,8 @@ from typing import Any
 from ray import serve
 from ray_serve.mlflow_logger import InferenceLogger
@serve.deployment(name="LLMDeployment", num_replicas=1)
 class LLMDeployment:
@@ -37,6 +39,21 @@ class LLMDeployment:
        self.SamplingParams = SamplingParams
        print(f"Model {self.model_id} async engine created")
        # MLflow metrics
        self._mlflow = InferenceLogger(
            experiment_name="ray-serve-llm",
            run_name=f"llm-{self.model_id.split('/')[-1]}",
            tags={"model.name": self.model_id, "model.framework": "vllm", "gpu": "strixhalo"},
            flush_every=5,
        )
        self._mlflow.initialize(
            params={
                "model_id": self.model_id,
                "max_model_len": str(self.max_model_len),
                "gpu_memory_utilization": str(self.gpu_memory_utilization),
            }
        )
    async def __call__(self, request: dict[str, Any]) -> dict[str, Any]:
        """
        Handle OpenAI-compatible chat completion requests.
@@ -67,11 +84,27 @@ class LLMDeployment:
            stop=stop,
        )
        start_time = time.time()
        request_id = uuid.uuid4().hex
        final_result = None
        async for result in self.engine.generate(prompt, sampling_params, request_id):
            final_result = result
        generated_text = final_result.outputs[0].text
        latency = time.time() - start_time
        prompt_tokens = len(prompt.split())
        completion_tokens = len(generated_text.split())
        # Log to MLflow
        self._mlflow.log_request(
            latency_s=latency,
            prompt_tokens=prompt_tokens,
            completion_tokens=completion_tokens,
            total_tokens=prompt_tokens + completion_tokens,
            tokens_per_second=completion_tokens / latency if latency > 0 else 0,
            temperature=temperature,
            max_tokens_requested=max_tokens,
        )
        # Return OpenAI-compatible response
        return {
@@ -90,9 +123,9 @@ class LLMDeployment:
                }
            ],
            "usage": {
-                "prompt_tokens": len(prompt.split()),
+                "prompt_tokens": prompt_tokens,
-                "completion_tokens": len(generated_text.split()),
+                "completion_tokens": completion_tokens,
-                "total_tokens": len(prompt.split()) + len(generated_text.split()),
+                "total_tokens": prompt_tokens + completion_tokens,
            },
        }
--- a/ray_serve/serve_reranker.py
+++ b/ray_serve/serve_reranker.py
@@ -4,10 +4,13 @@ Runs on: drizzt (Radeon 680M iGPU, ROCm) or danilo (Intel i915 iGPU, OpenVINO/IP
 """
 import os
 import time
 from typing import Any
 from ray import serve
 from ray_serve.mlflow_logger import InferenceLogger
@serve.deployment(name="RerankerDeployment", num_replicas=1)
 class RerankerDeployment:
@@ -58,6 +61,17 @@ class RerankerDeployment:
        print("Reranker model loaded successfully")
        # MLflow metrics
        self._mlflow = InferenceLogger(
            experiment_name="ray-serve-reranker",
            run_name=f"reranker-{self.model_id.split('/')[-1]}",
            tags={"model.name": self.model_id, "model.framework": "sentence-transformers", "device": self.device},
            flush_every=10,
        )
        self._mlflow.initialize(
            params={"model_id": self.model_id, "device": self.device, "use_ipex": str(self.use_ipex)}
        )
    async def __call__(self, request: dict[str, Any]) -> dict[str, Any]:
        """
        Handle reranking requests.
@@ -75,6 +89,8 @@ class RerankerDeployment:
            "pairs": [["query", "doc1"], ["query", "doc2"]]
        }
        """
        _start = time.time()
        # Handle pairs format
        if "pairs" in request:
            pairs = request["pairs"]
@@ -89,6 +105,11 @@ class RerankerDeployment:
                    }
                )
            self._mlflow.log_request(
                latency_s=time.time() - _start,
                num_pairs=len(pairs),
            )
            return {
                "object": "list",
                "results": results,
@@ -131,6 +152,14 @@ class RerankerDeployment:
        # Apply top_k
        results = results[:top_k]
        # Log to MLflow
        self._mlflow.log_request(
            latency_s=time.time() - _start,
            num_pairs=len(pairs),
            num_documents=len(documents),
            top_k=top_k,
        )
        return {
            "object": "list",
            "results": results,
--- a/ray_serve/serve_tts.py
+++ b/ray_serve/serve_tts.py
@@ -6,10 +6,13 @@ Runs on: elminster (RTX 2070 8GB, CUDA)
 import base64
 import io
 import os
 import time
 from typing import Any
 from ray import serve
 from ray_serve.mlflow_logger import InferenceLogger
@serve.deployment(name="TTSDeployment", num_replicas=1)
 class TTSDeployment:
@@ -32,6 +35,15 @@ class TTSDeployment:
        print("TTS model loaded successfully")
        # MLflow metrics
        self._mlflow = InferenceLogger(
            experiment_name="ray-serve-tts",
            run_name=f"tts-{self.model_name.split('/')[-1]}",
            tags={"model.name": self.model_name, "model.framework": "coqui-tts", "gpu": str(self.use_gpu)},
            flush_every=5,
        )
        self._mlflow.initialize(params={"model_name": self.model_name, "use_gpu": str(self.use_gpu)})
    async def __call__(self, request: dict[str, Any]) -> dict[str, Any]:
        """
        Handle text-to-speech requests.
@@ -49,6 +61,7 @@ class TTSDeployment:
        import numpy as np
        from scipy.io import wavfile
        _start = time.time()
        text = request.get("text", "")
        speaker = request.get("speaker")
        language = request.get("language")
@@ -88,10 +101,20 @@ class TTSDeployment:
            wavfile.write(buffer, sample_rate, wav_int16)
            audio_bytes = buffer.getvalue()
            duration = len(wav) / sample_rate
            # Log to MLflow
            self._mlflow.log_request(
                latency_s=time.time() - _start,
                audio_duration_s=duration,
                text_chars=len(text),
                realtime_factor=(time.time() - _start) / duration if duration > 0 else 0,
            )
            response = {
                "model": self.model_name,
                "sample_rate": sample_rate,
-                "duration": len(wav) / sample_rate,
+                "duration": duration,
                "format": output_format,
            }
--- a/ray_serve/serve_whisper.py
+++ b/ray_serve/serve_whisper.py
@@ -6,10 +6,13 @@ Runs on: elminster (RTX 2070 8GB, CUDA)
 import base64
 import io
 import os
 import time
 from typing import Any
 from ray import serve
 from ray_serve.mlflow_logger import InferenceLogger
@serve.deployment(name="WhisperDeployment", num_replicas=1)
 class WhisperDeployment:
@@ -38,6 +41,17 @@ class WhisperDeployment:
        print("Whisper model loaded successfully")
        # MLflow metrics
        self._mlflow = InferenceLogger(
            experiment_name="ray-serve-whisper",
            run_name=f"whisper-{self.model_size}",
            tags={"model.name": f"whisper-{self.model_size}", "model.framework": "faster-whisper", "device": self.device},
            flush_every=5,
        )
        self._mlflow.initialize(
            params={"model_size": self.model_size, "device": self.device, "compute_type": self.compute_type}
        )
    async def __call__(self, request: dict[str, Any]) -> dict[str, Any]:
        """
        Handle transcription requests.
@@ -59,6 +73,7 @@ class WhisperDeployment:
        }
        """
        _start = time.time()
        language = request.get("language")
        task = request.get("task", "transcribe")  # transcribe or translate
        response_format = request.get("response_format", "json")
@@ -130,6 +145,14 @@ class WhisperDeployment:
                "segments": segment_list,
            }
        # Log to MLflow
        self._mlflow.log_request(
            latency_s=time.time() - _start,
            audio_duration_s=info.duration,
            segments=len(segment_list),
            realtime_factor=(time.time() - _start) / info.duration if info.duration > 0 else 0,
        )
        # Default JSON format (OpenAI-compatible)
        return {
            "text": full_text.strip(),