FunAudioLLM/CosyVoice2-0.5B文本转语音

POST

/siliconflow/v1/audio/speech

CosyVoice 2 は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング／非ストリーミングフレームワーク設計を採用しています。本モデルは、有限スカラー量子化（FSQ）によって音声トークンのエンコード効率を向上させ、テキストから音声への言語モデルアーキテクチャを簡素化し、さまざまな合成シナリオに対応するチャンク認識因果ストリームマッチングモデルを開発しました。ストリーミングモードでは、150msの超低遅延を実現し、非ストリーミングモードとほぼ同等の合成品質を維持します。
対応モデル：FunAudioLLM/CosyVoice2-0.5B
有料入力：0.007PTC/1000Token

Request

Header Params

Body Params application/json

Example

{
  "model": "FunAudioLLM/CosyVoice2-0.5B",
  "input": "你能带着幸福的情绪说出来吗？<|endofprompt|>今天真是开心，春节快到了！太开心了，春节快到了！[笑声][呼吸]。",
  "voice": "FunAudioLLM/CosyVoice2-0.5B:diana",
  "response_format": "mp3",
  "sample_rate": 44100,
  "stream": true,
  "speed": 1,
  "gain": 0
}

Request Code Samples

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location 'https://api.302.ai/siliconflow/v1/audio/speech' \
--header 'Content-Type: application/json' \
--data '{
  "model": "FunAudioLLM/CosyVoice2-0.5B",
  "input": "你能带着幸福的情绪说出来吗？<|endofprompt|>今天真是开心，春节快到了！太开心了，春节快到了！[笑声][呼吸]。",
  "voice": "FunAudioLLM/CosyVoice2-0.5B:diana",
  "response_format": "mp3",
  "sample_rate": 44100,
  "stream": true,
  "speed": 1,
  "gain": 0
}'

Responses

🟢200成功

application/json

Bodyapplication/json

Example

{
    "url": "https://file.302.ai/gpt/imgs/20250804/5c49c8dc28cf4965b35bf22c93881885.mp3"
}

Modified at 2025-08-08 10:09:09

テキストから音声への変換リクエストを作成

fnlp/MOSS-TTSD-v0.5文本转语音