vllm-project · hsliuustc0106 · Jan 24, 2026 · Jan 19, 2026 · Jan 19, 2026 · Jan 19, 2026
@@ -142,7 +142,7 @@ def main():
     generation_start = time.perf_counter()
 
     # Generate audio
-    audio = omni.generate(
+    outputs = omni.generate(
         args.prompt,
         negative_prompt=args.negative_prompt,
         generator=generator,
@@ -166,6 +166,24 @@ def main():
     suffix = output_path.suffix or ".wav"
     stem = output_path.stem or "stable_audio_output"
 
+    # Extract audio from omni.generate() outputs
+    if isinstance(outputs, (torch.Tensor, np.ndarray)):
+        audio = outputs
+    elif isinstance(outputs, list) and outputs:
+        output = outputs[0]
+        if not hasattr(output, "request_output") or not output.request_output:
+            raise ValueError("No request_output found in OmniRequestOutput")
+        request_output = output.request_output[0]
+        if hasattr(request_output, "multimodal_output"):
+            multimodal_output = request_output.multimodal_output or {}
+            audio = multimodal_output.get("audio")
+        elif hasattr(request_output, "images") and request_output.images:
+            audio = request_output.images[0]
+        else:
+            raise ValueError("No audio output found in request_output")
+    else:
+        raise ValueError("No output generated from omni.generate()")
+
     # Handle different output formats
     if isinstance(audio, torch.Tensor):
         audio = audio.cpu().float().numpy()