Request
1行に表示できる最大文字数:デフォルト値は46です。
1画面に表示できる最大行数:デフォルト値は1行です。
数字変換機能を使用するかどうか:デフォルトはオフ(False)です。
オン(True)に設定すると、認識結果の中に含まれる中国語の数字が自動的にアラビア数字に変換されます。
字幕認識タイプ:デフォルト値は「auto」(話し言葉と歌唱部分の両方を認識)です。
「speech」を選択すると、話し言葉のみを認識します。
「singing」を選択すると、歌唱部分のみを認識します。
句読点の追加:デフォルトはFalseです。
Trueに設定すると、認識結果に句読点が追加されます。
※この設定は、caption_type=speech の場合にのみ有効です。
スムーズなラベル付け(フィラー単語のマーク)を使用するかどうか:デフォルトは False です。
True に設定すると、返される utterances にテキストが空の無音区間の文が追加され、その属性 event が silent となります。また、words 内にスムーズ化が必要な単語がマークされます。例えば"extra": { "smoothed": "repeat" },smoothed の値は repeat(重复词)あるいは filler(口水词)。
自己学習プラットフォームのホットワード設定:ID(id) または 名前(name) のどちらか一方を指定すれば十分です。
また、asr_appid(appid と同じ値)を同時に渡す必要があります。
boosting_table_name
string
optional自己学習プラットフォームのホットワードのファイル名:hotword.txt(例)。
具体的なファイル名はシステムや設定に依存する場合があり ますが、一般的にはホットワード関連のファイルに明確な名前を付けることが推奨されます。
ASR に送信する APPID は、自己学習プラットフォームのホットワードを使用する場合に必須です。
appid の値と同じものを指定してください。
話者情報の返却:デフォルトは False です。
True に設定した場合、utterance および word の属性(attribute)に話者情報が追加されます。
例: "attribute": {"speaker": "1"}
Example:Bearer {{YOUR_API_KEY}}
Body Params application/json
{
"url":"https://file.302.ai/gpt/imgs/20241204/361bca5886e844dfac39fb861ea3f3ac.mp3"
}
Request samples
curl --location --request POST 'https://api.302.ai/doubao/vc/submit?words_per_line&max_lines&use_itn&language&caption_type&use_punc&use_ddc&boosting_table_id&boosting_table_name&asr_appid&with_speaker_info' \
--header 'Authorization: Bearer sk-mfYQzy0XTFfz4P16vRE4gFrKK1Nly4TozsMqbbb9PSiJUvFO' \
--header 'Content-Type: application/json' \
--data-raw '{
"url":"https://file.302.ai/gpt/imgs/20241204/361bca5886e844dfac39fb861ea3f3ac.mp3"
}'
Responses
application/json Modified at 2024-12-11 07:48:25