Clothtalk

Voice interaction has become an integral part of our daily digital experience, from controlling smart homes to accessing AI assistants. However, privacy concerns and social considerations severely limit voice interface adoption in public spaces. While silent speech interfaces promise a solution, existing approaches require user-specific training data, support limited vocabularies, or demand intrusive sensors in contact with the user’s face. We present SilentWhisper, which enables private voice interaction through ultra-low volume whispered speech that is inaudible beyond 30cm while maintaining high recognition accuracy. Using a headset microphone and deep learning, our system achieves 97.7% word recognition accuracy across a vocabulary of 454 words without requiring per-user training. We demonstrate that SilentWhisper enables unobtrusive voice interaction while preserving privacy. Our approach represents a significant advancement in making voice interfaces practical for sensitive information and public spaces.

ワイヤレスなウェアラブルデバイスにおけるリアルタイムでの音声強調は、クリアな会話に重要である。特に大きな声をはらずとも、高品質な音源分離と背景雑音の低減をモバイル環境で実行する必要がある。本研究では限られた計算資源のデバイスにおいても雑音環境下でクリアな音声を入力可能なワイヤレスマイクであるClothTalkを提案する。ClothTalkは導電布のダイヤフラムによるマイクであり、周囲のノイズを到達する角度によらず除去でき、囁き声まで拾える、低消費電力なデバイスである。
ClothTalkは、導電布によるフレキシブルなダイヤフラムのマイクを曲げることによって指向性を高め、装着者の発話を支配的に入力するとともに、周囲の全方位からのノイズを低減を可能にする。
実験によりダイヤフラムを湾曲させることで声がより入りやすいこと、マイクの角度によって口元が隠れずとも入力できることを示した。加えて、ダミーヘッドによる統制された実験を行い,ノイズを分離する指標であるSi-SNRにおいて既存の手法を上まった。
本研究はGPUなど豊富な計算資源がない端末であってもリアルタイムに音声強調が可能であり、周囲の人の声や雑音がある環境でも音声入力や会話が可能である。

References