Qwen3-TTS Demo

Reference Audio (Upload a voice sample to clone)

Reference Text (Transcript of the reference audio)

Use x-vector only (No reference text needed, but lower quality)

Target Text (Text to synthesize with cloned voice)

Language

Model Size

Generated Audio

Status

Note: This demo uses HuggingFace Spaces Zero GPU. Each generation has a time limit. For longer texts, please split them into smaller segments.