SilentWhisper: inaudible faint whisper speech input for silent speech interaction

Voice interaction has become an integral part of our daily digital experience, from controlling smart homes to accessing AI assistants. However, privacy concerns and social considerations severely limit voice interface adoption in public spaces. While silent speech interfaces promise a solution, existing approaches require user-specific training data, support limited vocabularies, or demand intrusive sensors in contact with the user’s face. We present SilentWhisper, which enables private voice interaction through ultra-low volume whispered speech that is inaudible beyond 30cm while maintaining high recognition accuracy. Using a headset microphone and deep learning, our system achieves 97.7% word recognition accuracy across a vocabulary of 454 words without requiring per-user training. We demonstrate that SilentWhisper enables unobtrusive voice interaction while preserving privacy. Our approach represents a significant advancement in making voice interfaces practical for sensitive information and public spaces.

スマートホームの操作からAIアシスタントの利用まで、声を使った操作は私たちのデジタル生活に深く浸透してきています。しかし、公共の場所では、周りの人に聞かれてしまうというプライバシーの問題や、周囲への配慮から、声での操作がためらわれることが少なくありません。この問題を解決しようと、声を出さずに操作できる「サイレントスピーチ」という技術も考えられてきましたが、これまでのものは使う人ごとに学習データを用意する必要があったり、認識できる言葉の数が限られていたり、顔に直接センサーを取り付ける必要があって使いにくかったりといった課題がありました。

そこで私たちは『SilentWhisper』という小さい囁き声による音声入力の手法を開発しました。これは、周りの人には聞こえないほどの非常に小さなささやき声を利用することで、プライバシーを守りながら音声操作を可能にするものです。ヘッドセットマイクと深層学習(ディープラーニング)というAI技術を使うことで、利用者ごとの事前学習なしに、454単語において97.7%の精度で認識することができ、この手法によって、プライバシーを保ちつつ、周りに気付かれにくい形での音声操作が実現できることを示しました。

References