
今回は、RockchipのNPUを搭載した代表的なSoC(RK3566 / RK3576 / RK3588)を使って、音声認識モデルの性能をざっくり比較してみました。対象としたのは、英語音声でよく使われる『Whisper』と、『SenseVoiceSmall』です。処理時間がどのくらいかかるのか、リアルタイムでの利用に耐えられるのかを見ていきます。
検証条件
– デバイス: RK3566 / RK3576 / RK3588
– モデル: Whisper (5秒の英語音声) / SenseVoiceSmall (15秒の日本語音声)
– 計測内容: 音声の処理にかかった時間、およびリアルタイム比
– 精度検証: 出力されたテキストと元音声の内容を比較し、誤認識率や自然さを確認
検証結果(処理速度)
モデル | RK3566 | RK3576 | RK3588 |
Whisper (5秒英語) | 9.7秒 (1.9倍) | 3.4秒 (0.68倍) | 1.97秒 (0.39倍) |
SenseVoiceSmall (15秒日本語) | 7秒 (0.47倍) | 1.87秒 (0.13倍) | 1.15秒 (0.08倍) |
精度の考察
処理速度だけでなく、精度の観点でも確認を行いました。
Whisper(英語5秒音声)については、短文での発話ではほぼ正確にテキスト化できましたが、固有名詞やスピードの速い発話では一部誤認識が見られました。とはいえ、一般的な用途では十分な精度を発揮しています。
■元の文章
Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
■出力結果
Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
一方で、SenseVoiceSmall(日本語15秒音声)はWhisperよりも高速に動作しましたが、環境雑音が強い状況や専門用語が含まれる場合には誤変換が発生する傾向がありました。また、句読点などは出力されませんでした。
■元の文章
最新のニューラル ネットワークでテキストを音声に変換します。 仕事、ビデオ編集、ビジネス、広告、ソーシャル ネットワーキング、エンターテイメントなどに使用できます。 代わりにテキストを貼り付け、音声でダウンロードしてください。
■出力結果
最新のニューラルネットワークでテキストを音声に変換します仕事ビデオ編集ビジネス広告ソーシャルネットワーキングエンターテテメントなどに使用できます代わりにテキストを貼り付け音声でダウンロードしてくださいす
総じて、Whisperは多言語対応の柔軟性に強みがあり、SenseVoiceSmallは処理の軽さが特徴的です。
速度と精度のバランス
速度面ではRK3588が圧倒的に優秀で、リアルタイム処理が可能でした。精度面ではどちらのモデルも十分に実用可能ですが、処理速度はSenseVoiceSmallがやや優勢です。
つまり用途に応じて:
– 精度を重視する → Whisper
– 速度を重視する → SenseVoiceSmall
という棲み分けが考えられます。
まとめ
今回の検証から、以下のことが言えます:
– 高速なリアルタイム処理を目指すならRK3588がベスト
– RK3576でも用途によっては十分実用的
– RK3566は処理速度的に限定的な用途向け
– 精度はWhisperもSenseVoiceSmallも高水準だが、用途による最適モデル選択が重要
RockchipのNPUは処理速度だけでなく精度面でも実用的であり、今後のエッジAIアプリケーションで大きな可能性を秘めています。