AWS Transcribe(Speech to text)が日本語対応したので試してみた!あとGoogleとも比べてみた!
AWSのTranscribeが待望の日本語対応をしてくれました!
早速どんなものか試してみたいと思います。
また同じSpeech To Textのサービスを持っているGCPでの動作比較もしてみました。
今回は電話の会話記録の音声データでスピーカが2人存在するデータを利用しました
AWS Transcribe
Transcribeのstart_transcription_jobを実行します。
スピーカは2人のため下記のパラメータを利用しました。
'ShowSpeakerLabels': True, 'MaxSpeakerLabels': 2,
AWSの方は勝手に形態素解析まで実施してくれているのか、
文章がかなり途切れ途切れになりました。
{ "jobName": "samplejob2", "accountId": "xxxxxxxxxxxxx", "results": { "transcripts": [ { "transcript": "もしもし はい あ お 願い し ます お 電話 ありがとう ござい ます か 解析 会社 さん xxxxxxxxxxx モバイル です ホーム ページ を 見 た 言わ せ て いただき まし た ありがとう ござい ます エネルギー 使い 放題 プラン に つい て 聞き たい わ こちら の 契約 期間 の 縛り は あり ます か? こちら は 最低 六 カ月 三 六 カ月 契約 いただく 必要 が ござい ます もちろん か月 より も 短い 期間 工 解約 さ れ た 場合 違約 金 が 発生 し ます 現金 は いくら です か 一 万 円 です 分かり まし た あと パケット 使い 放題 だ と 思い ます が 速度 制限 は あり まし た 正確 な 数字 を 公開 でき ない の です が が ある 一定 の 利用 料 を 超え ます と 翌日 に 速度 制限 が かかる こと が 報告 さ れ て い ます あ 分かり まし た ありがとう ござい ます その 他 ご 不明 な 点 は ござい ます か 大丈夫 です ありがとう ござい ます で は ありがとう ござい まし た 担当 鈴木 が 対応 さ せ て 頂き まし た お 電話 ありがとう ござい まし た ありがとう ござい まし た うん はい" } ], "speaker_labels": { "speakers": 2, "segments": [ ・・・・・・・・・・・・・・・・・・・・・・・・ 長いので省略します。 下記のようにスピーカ毎・単語毎のItemも出力されていました。 ・・・・・・・・・・・・・・・・・・・・・・・・ "items": [ { "start_time": "4.94", "end_time": "5.55", "alternatives": [ { "confidence": "1.0", "content": "もしもし" } ], "type": "pronunciation" }, { "start_time": "6.34", "end_time": "6.65", "alternatives": [ { "confidence": "0.99", "content": "はい" } ], "type": "pronunciation" }, { "start_time": "6.66", "end_time": "7.58", "alternatives": [ { "confidence": "0.974", "content": "あ" } ], "type": "pronunciation" }, { "start_time": "7.59", "end_time": "7.65", "alternatives": [ { "confidence": "0.906", "content": "お" } ], "type": "pronunciation" }, { "start_time": "7.66", "end_time": "8.09", "alternatives": [ { "confidence": "1.0", "content": "願い" } ], "type": "pronunciation" }, { "start_time": "8.1", "end_time": "8.24", "alternatives": [ { "confidence": "1.0", "content": "し" } ], "type": "pronunciation" }, { "start_time": "8.25", "end_time": "8.55", "alternatives": [ { "confidence": "1.0", "content": "ます" } ], "type": "pronunciation" }, { "start_time": "10.44", "end_time": "10.51", "alternatives": [ { "confidence": "0.972", "content": "お" } ], "type": "pronunciation" },
GCP
続いてGCPです。
AWSの方で利用したのと同じ音声ファイルを利用し
Cloud Speech-to-Textを実行してみます。
{ "conversation": [ { "transcript": "はい", "confidence": 0.9321745038032532 }, { "transcript": "お電話ありがとうございます株式会社xxxxxxxxxxxxxモバイルです", "confidence": 0.9289773106575012 }, { "transcript": "ありがとうございます", "confidence": 0.9539141654968262 }, { "transcript": "ホームページを見ると言わせていただきました良い使い放題プランについてお聞きしたいですかこちらは契約期間の縛りはありますか", "confidence": 0.891223669052124 }, { "transcript": "こちらは最低6ヶ月間6ヶ月契約いただく必要がございます", "confidence": 0.9191603064537048 }, { "transcript": "もし6ヶ月よりも短い期間でご解約された場合違約金が発生してます", "confidence": 0.9336251616477966 }, { "transcript": "違約金はいくらですか", "confidence": 0.9120486974716187 }, { "transcript": "1万円です", "confidence": 0.9227500557899475 }, { "transcript": "わかりました本当ポケット着たい放題だと思いますが速度制限はありますか", "confidence": 0.9032462239265442 }, { "transcript": "正確な数値は公開できないのですが", "confidence": 0.9470984935760498 }, { "transcript": "日課である一定の量を超えますと翌日に速度制限がかかることが報告されています", "confidence": 0.9332273602485657 }, { "transcript": "分かりましたありがとうございます", "confidence": 0.9206825494766235 }, { "transcript": "その他ご不明な点はございますか", "confidence": 0.952523410320282 }, { "transcript": "大丈夫ですありがとうございます", "confidence": 0.932539701461792 }, { "transcript": "ではありがとうございました担当鈴木が対応させていただきましたお電話ありがとうございました", "confidence": 0.9320775866508484 }, { "transcript": "ペロ寝ました", "confidence": 0.7940347790718079 } ] }
ペロ寝ましたって何だって思うかもしれませんが、「ありがとうございました」を言っています。
それはさておきGCPの方の方が制度が高そうです。
その他2,3個の音声ファイルで試してみたのですが
私の印象ではまだGCPの方が精度が高いように感じます。
精度に関してはAWSもこれから上がっていくのかと期待しています。
APIの使い方自体はAWSの方がシンプルで使いやすい印象を受けました。
またアウトプットファイルがS3に格納されるのですが、
S3のファイルputイベントと、他のサービスを組合せるなど
面白そうな使い方ができそうです。
(GCPの場合は音声ファイルのサイズによりオプションを変える等の面倒な点があります)