音声複刻 - 302.AI API 書類

Qwen-TTS-Realtime音声複製は、大規模な特徴抽出モデルを活用し、学習なしで音声を複製します。わずか10～20秒の音声データで、非常に類似した自然な音声を生成できます。

価格：1音声あたり0.005 PTC

応用シナリオ：

家族とのコミュニケーション：スマートアシスタント、カーナビゲーション、ホームエンターテイメント（絵本の読み聞かせ、家電製品の操作、学習指導）向けに、家族の声を複製します。

教育：教師の声を複製することで、インタラクションを強化し、教育ビデオやコースウェアを充実させます。

オーディオビジュアル業界：放送局や声優の声を複製することで、録音や吹き替えの効率を向上させます。

インテリジェントカスタマーサービス：フォローアップコールやマーケティングコール向けに、アカウントマネージャーの声を複製することで、パーソナライゼーションと人間味あふれる表現を強化します。

機能と制限事項

サポート対象モデル: 現在、qwen-tts-vc-realtime-2025-08-20 のみ

⚠️音声検索と音声合成に使用するモデルは一致している必要があります。

⚠️音声検索をサポートするモデルは、デフォルトの音色（Chelsie、Serena、Ethan、Cherry など）をサポートしていません。

詳細は音声合成セクションをご覧ください。

サポート対象言語: 中国語 (zh)、英語 (en)、ドイツ語 (de)、イタリア語 (it)、ポルトガル語 (pt)、スペイン語 (es)、日本語 (ja)、韓国語 (ko)、フランス語 (fr)、ロシア語 (ru)、インドネシア語 (id)

同時実行およびレート制限: 10 RPS (1秒あたりのリクエスト数)

アカウントクォータ:

Alibaba Cloud メインアカウントごとに、最大1000個のサウンドを複製できます。

サウンドの削除がサポートされています。サウンドを削除するとクォータが解放されます。

1年以上使用されていない音声はプラットフォームから削除されます。

音声ファイル形式の要件：

チャンネル：モノラル

サンプリングレート：16000Hz以上

形式：WAV（16ビット）、MP3、M4A

ファイルサイズ：10MB未満

音声の長さ：10～20秒、60秒以内

連続性要件：読み上げは流暢で、3秒以上の連続した音声が少なくとも1つ含まれている必要があります。頻繁で意味のない休止は避けてください。

Request

Header Params

Body Params application/json

Example

{
    "model": "qwen-voice-enrollment",
    "input": {
        "action": "create",
        "target_model": "qwen3-tts-vc-realtime-2025-11-27",
        "preferred_name": "guanyu",
        "audio": {
            "data": "https://file.302ai.cn/gpt/imgs/20250827/4d922b90095748b6ca0f12bba9cae1b8.wav"
        }
    }
}

Request Code Samples

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

Responses

🟢200成功

application/json

Bodyapplication/json

Example

{
    "output": {
        "voice": "qwen-tts-vc-guanyu-voice-20250827134324151-ba85",
        "target_model": "qwen-tts-vc-realtime-2025-08-20"
    },
    "usage": {
        "count": 1
    },
    "request_id": "49d9fd7e-357b-97cd-83a8-01095944b842"
}