Request
ブロブをアップロードする際に返却する必要があります。
Example:Bearer {{YOUR_API_KEY}}
Body Params application/json
値の出典:https://cloud.google.com/speech-to-text/docs/encoding?hl=ja
コーデック名 ロスレス 使用上の注意
MP3 MPEG第3層オーディオ いいえ MP3エンコーディングはベータ版機能であり、v1p1beta1でのみ利用可能です。詳細は、RecognitionConfigリファレンスドキュメントを参照してください。
FLAC フリー・ロスレス・オーディオ・コーデック はい ストリームは16ビットまたは24ビットのビット深度が必要です
LINEAR16 リニアPCM はい 16ビットのリニアパルスコード変調(PCM)エンコーディング。ファイルヘッダーにサンプルレートを含める必要があります。
MULAW μ-law いいえ 8ビットPCMエンコーディング
AMR アダプティブマルチレートナローバンド いいえ サンプルレートは8000 Hzでなければなりません
AMR_WB アダプティブマルチレートワイドバンド いいえ サンプルレートは16000 Hzでなければなりません
OGG_OPUS Oggコンテナ内のOpusエンコードオーディオフレーム いいえ サンプルレートは8000 Hz、12000 Hz、16000 Hz、24000 Hz、または48000 Hzのいずれかでなければなりません
SPEEX_WITH_HEADER_BYTE Speexワイドバンド いいえ サンプルレートは16000 Hzでなければなりません
WEBM_OPUS WebM Opus いいえ サンプルレートは8000 Hz、12000 Hz、16000 Hz、24000 Hz、または48000 Hzのいずれかでなければなりません effectsProfileId
array[string]
optional値の出典:https://cloud.google.com/text-to-speech/docs/audio-profiles?hl=ja
wearable-class-device スマートウォッチやその他のウェアラブルデバイス、例:Apple Watch、Wear OSウォッチ
handset-class-device スマートフォン、例:Google Pixel、Samsung Galaxy、Apple iPhone
headphone-class-device オーディオ再生用のイヤホンまたはヘッドフォン、例:Sennheiserヘッドフォン
small-bluetooth-speaker-class-device 小型家庭用スピーカー、例:Google Home Mini
medium-bluetooth-speaker-class-device スマートホームスピーカー、例:Google Home
large-home-entertainment-class-device ホームエンターテインメントシステムまたはスマートテレビ、例:Google Home Max、LG TV
large-automotive-class-device 車載スピーカー
telephony-class-application 対話型音声応答(IVR)システム オプション。入力専用。話すピッチ、範囲[-20.0, 20.0]。20は元のピッチを20半音上げること、-20は元のピッチを20半音下げることを意味します。
オプション。入力専用。話す速度/スピーチ速度、範囲[0.25, 2.0]。1.0は特定の音声がサポートする通常のネイティブ速度を表します。2.0は2倍の速度、0.5は半分の速度を表します。設定されていない場合(0.0)、デフォルトでネイティブ速度の1.0になります。0.25未満または2.0を超えるその他の値はエラーを返します。
必須。音声の言語(および地域)をBCP-47言語タグで表現、例:「en-US」。このパラメータにはスクリプトタグを含めるべきではありません(例:「cmn-Hant-cn」ではなく「cmn-cn」を使用)。スクリプトはSynthesisInputで提供された入力から推測されます。TTSサービスはこのパラメータを使用して適切な音声を選択します。TTSサービスは、選択された言語コードとわずかに異なる音声を選択する場合があります。異なる地域(例:カナダの音声が利用できない場合、en-CAの代わりにen-USを使用)や、異なる言語(例:「no」(ノルウェー語)の代わりに「nb」(ノルウェー・ボクモール)を使用)を選択する場合があります。
音声の名前。名前と性別のどちらも設定されていない場合、サービスは他のパラメータ(例:languageCode)に基づいて音声を選択します。
{
"audioConfig": {
"audioEncoding": "LINEAR16",
"effectsProfileId": [
"headphone-class-device"
],
"pitch": 0,
"speakingRate": 0.96
},
"input": {
"text": "三零二は本当に素晴らしいプラットフォームです。"
},
"voice": {
"languageCode": "cmn-CN",
"name": "cmn-CN-Chirp3-HD-Schedar"
}
}
Request samples
curl --location --request POST 'https://api.302.ai/google/v1/text-synthesize?response_format=url' \
--header 'Authorization: Bearer sk-mfYQzy0XTFfz4P16vRE4gFrKK1Nly4TozsMqbbb9PSiJUvFO' \
--header 'Content-Type: application/json' \
--data-raw '{
"audioConfig": {
"audioEncoding": "LINEAR16",
"effectsProfileId": [
"headphone-class-device"
],
"pitch": 0,
"speakingRate": 0.96
},
"input": {
"text": "三零二は本当に素晴らしいプラットフォームです。"
},
"voice": {
"languageCode": "cmn-CN",
"name": "cmn-CN-Chirp3-HD-Schedar"
}
}'
Responses
application/json effectsProfileId
array[string]
required{
"audioConfig": {
"audioEncoding": "LINEAR16",
"effectsProfileId": [],
"pitch": 0,
"sampleRateHertz": 24000,
"speakingRate": 0.96,
"volumeGainDb": 0
},
"audioContent": "https://file.302.ai/gpt/imgs/20250617/671b1957ba22428abf0a1c9fb9f25241.mp3",
"timepoints": []
}
Modified at 2025-06-18 06:56:46