Serverless Transcriber

RunPod serverless endpoint for GPU-accelerated audio transcription with speaker diarization.

Models used:

WhisperX (whisper base.en) — transcription
PyAnnote (speaker-diarization-3.1) — speaker labels

API

POST /run

{
  "input": {
    "audio_url": "https://example.com/audio.mp3",
    "model": "base.en",
    "diarize": true
  }
}

Parameters:

audio_url — direct URL to audio file (mp3, wav, m4a, etc.)
audio_data — base64-encoded audio (alternative to URL)
model — whisper model: tiny.en, base.en, small.en, medium, large-v3
diarize — boolean, enable speaker identification

Response:

{
  "transcript": "[00:00] [SPEAKER_00] Hello world",
  "segments": [
    {"start": 0.0, "end": 2.5, "speaker": "SPEAKER_00", "text": "Hello world"}
  ],
  "language": "en",
  "model": "base.en",
  "duration_seconds": 42.0
}

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.github/workflows		.github/workflows
src		src
Dockerfile		Dockerfile
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Serverless Transcriber

API

POST /run

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Serverless Transcriber

API

POST /run

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages