fix(tts): add /health endpoint, fix language param for single-lang models

- Add GET /health endpoint returning model name and GPU status - Don't pass language/speaker to Coqui TTS when model doesn't support multilingual/multi-speaker (fixes 500 on ljspeech/tacotron2-DDC) - Applied to all three endpoints: POST /, GET /api/tts, POST /stream
2026-02-22 12:19:06 -05:00
parent 194a431e8c
commit 84ffeca8f2
1 changed files with 29 additions and 1 deletions
--- a/ray_serve/serve_tts.py
+++ b/ray_serve/serve_tts.py
@@ -120,6 +120,17 @@ class TTSDeployment:
                realtime_factor=elapsed / duration if duration > 0 else 0,
            )

+    # ── GET /health — simple liveness check ─────────────────────────────
+
+    @_fastapi.get("/health")
+    def health(self) -> dict[str, Any]:
+        """Simple health/readiness check."""
+        return {
+            "status": "ok",
+            "model": self.model_name,
+            "gpu": self.use_gpu,
+        }
+
    # ── POST / — JSON API (base64 audio in response) ────────────────────

    @_fastapi.post("/")
@@ -140,6 +151,12 @@ class TTSDeployment:
        output_format = request.get("output_format", "wav")
        return_base64 = request.get("return_base64", True)

+        # Only pass language/speaker if the model supports it
+        if not (hasattr(self.tts, "is_multi_lingual") and self.tts.is_multi_lingual):
+            language = None
+        if not (hasattr(self.tts, "is_multi_speaker") and self.tts.is_multi_speaker):
+            speaker = None
+
        try:
            audio_bytes, sample_rate, duration = self._synthesize(
                text, speaker, language, speed
@@ -174,9 +191,13 @@ class TTSDeployment:
        if not text:
            return Response(content="text parameter required", status_code=400)

+        # Only pass language/speaker if the model is multi-lingual/multi-speaker
+        lang = language_id if hasattr(self.tts, "is_multi_lingual") and self.tts.is_multi_lingual else None
+        spk = speaker_id if hasattr(self.tts, "is_multi_speaker") and self.tts.is_multi_speaker else None
+
        try:
            audio_bytes, _sr, duration = self._synthesize(
-                text, speaker_id, language_id
+                text, spk, lang
            )
            self._log(_start, duration, len(text))
            return Response(content=audio_bytes, media_type="audio/wav")
@@ -212,6 +233,13 @@ class TTSDeployment:
        speaker = body.get("speaker")
        language = body.get("language")
        speed = body.get("speed", 1.0)
+
+        # Only pass language/speaker if the model supports it
+        if not (hasattr(self.tts, "is_multi_lingual") and self.tts.is_multi_lingual):
+            language = None
+        if not (hasattr(self.tts, "is_multi_speaker") and self.tts.is_multi_speaker):
+            speaker = None
+
        sentences = _split_sentences(text)

        async def _generate():