音声プロジェクトのアノテーション方法について説明します。

音声プロジェクトとは

音声データに対してアノテーションできます。

データ制限

データの種類

対応しているデータの種類
MP3
WAV
M4A

データの容量

音声あたり最大120MB

アノテーションの手順

セグメンテーション(Segmentation)

音声領域を分割して、その単位でテキストの書き起こしなどのアノテーションができます。(例:感情分類、話者分類)

アノテーションクラスを選択して、対象の音声領域をドラッグで選択します。アノテーションしたあとに、領域の修正なども可能です。

https://files.readme.io/aa9fcca-audio-seg.png

Audio Segmentation Annotation

<aside> ⚠️ アノテーション上の注意

音声のセグメンテーションを行う際には、ブラウザの拡大率を100%に設定してください。拡大率が100%でない場合、アノテーションがずれてしまうことがあります。

</aside>

スペクトログラムの表示

メルスペクトログラムを表示してアノテーションをすることができます。メルスペクトログラムを表示することで、周波数帯の異なる音声がわかりやすくなります。

<aside> ⚠️ 注意

SDKでのタスク登録は、メルスペクトログラムに対応をしておりません。

</aside>

Untitled