vc（音声と動画の字幕生成）

POST

/doubao/vc/submit

豆包からの音声と動画の字幕生成
公式文書：https://www.volcengine.com/docs/6561/80909

価格：0.01 PTC/ 分

Request

Query Params

words_per_line

string

optional

1行に表示できる最大文字数：デフォルト値は46です。

max_lines

string

optional

1画面に表示できる最大行数：デフォルト値は1行です。

use_itn

string

optional

数字変換機能を使用するかどうか：デフォルトはオフ（False）です。
オン（True）に設定すると、認識結果の中に含まれる中国語の数字が自動的にアラビア数字に変換されます。

language

string

optional

字幕の言語タイプ

caption_type

string

optional

字幕認識タイプ：デフォルト値は「auto」（話し言葉と歌唱部分の両方を認識）です。
「speech」を選択すると、話し言葉のみを認識します。
「singing」を選択すると、歌唱部分のみを認識します。

use_punc

string

optional

句読点の追加：デフォルトはFalseです。
Trueに設定すると、認識結果に句読点が追加されます。
※この設定は、caption_type=speech の場合にのみ有効です。

use_ddc

string

optional

スムーズなラベル付け（フィラー単語のマーク）を使用するかどうか：デフォルトは False です。
True に設定すると、返される utterances にテキストが空の無音区間の文が追加され、その属性 event が silent となります。また、words 内にスムーズ化が必要な単語がマークされます。例えば"extra": { "smoothed": "repeat" }，smoothed の値は repeat（重复词）あるいは filler（口水词）。

boosting_table_id

string

optional

自己学習プラットフォームのホットワード設定：ID（id） または 名前（name） のどちらか一方を指定すれば十分です。
また、asr_appid（appid と同じ値）を同時に渡す必要があります。

boosting_table_name

string

optional

自己学習プラットフォームのホットワードのファイル名：hotword.txt（例）。
具体的なファイル名はシステムや設定に依存する場合がありますが、一般的にはホットワード関連のファイルに明確な名前を付けることが推奨されます。

asr_appid

string

optional

ASR に送信する APPID は、自己学習プラットフォームのホットワードを使用する場合に必須です。
appid の値と同じものを指定してください。

with_speaker_info

string

optional

話者情報の返却：デフォルトは False です。
True に設定した場合、utterance および word の属性（attribute）に話者情報が追加されます。
例: "attribute": {"speaker": "1"}

Header Params

Authorization

string

optional

API Key

Example:

Bearer {{YOUR_API_KEY}}

Body Params application/json

url

string

required

ファイルのURL

Example

{
    "url":"https://file.302.ai/gpt/imgs/20241204/361bca5886e844dfac39fb861ea3f3ac.mp3"
}

Request samples

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location --request POST 'https://api.302.ai/doubao/vc/submit?words_per_line&max_lines&use_itn&language&caption_type&use_punc&use_ddc&boosting_table_id&boosting_table_name&asr_appid&with_speaker_info' \
--header 'Authorization: Bearer sk-mfYQzy0XTFfz4P16vRE4gFrKK1Nly4TozsMqbbb9PSiJUvFO' \
--header 'Content-Type: application/json' \
--data-raw '{
    "url":"https://file.302.ai/gpt/imgs/20241204/361bca5886e844dfac39fb861ea3f3ac.mp3"
}'

Responses

🟢200成功

application/json

Body

object {0}

Example

{}

Modified at 2024-12-11 07:48:25

fetch（字幕生成状況を確認）

fetch（音声と動画の字幕結果を確認）