FunAudioLLM/CosyVoice2-0.5B文本转语音
CosyVoice 2 は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。本モデルは、有限スカラー量子化(FSQ)によって音声トークンのエンコード効率を向上させ、テキストから音声への言語モデルアーキテクチャを簡素化し、さまざまな合成シナリオに対応するチャンク認識因果ストリームマッチングモデルを開発しました。ストリーミングモードでは、150msの超低遅延を実現し、非ストリーミングモードとほぼ同等の合成品質を維持します。
対応モデル:FunAudioLLM/CosyVoice2-0.5B
有料入力:0.007PTC/1000Token
Request
Body Params application/json
{
"model": "FunAudioLLM/CosyVoice2-0.5B",
"input": "你能带着幸福的情绪说出来吗?<|endofprompt|>今天真是开心,春节快到了!太开心了,春节快到了![笑声][呼吸]。",
"voice": "FunAudioLLM/CosyVoice2-0.5B:diana",
"response_format": "mp3",
"sample_rate": 44100,
"stream": true,
"speed": 1,
"gain": 0
}
Request Code Samples
curl --location --request POST 'https://api.302.ai/siliconflow/v1/audio/speech' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "FunAudioLLM/CosyVoice2-0.5B",
"input": "你能带着幸福的情绪说出来吗?<|endofprompt|>今天真是开心,春节快到了!太开心了,春节快到了![笑声][呼吸]。",
"voice": "FunAudioLLM/CosyVoice2-0.5B:diana",
"response_format": "mp3",
"sample_rate": 44100,
"stream": true,
"speed": 1,
"gain": 0
}'
Responses
application/json {
"url": "https://file.302.ai/gpt/imgs/20250804/5c49c8dc28cf4965b35bf22c93881885.mp3"
}
Modified at 2025-08-08 10:09:09