Silent speech interaction (SSI) enables speech communication without uttering an actual voice and can have the potential to make the speech available in public places. However, lip-reading SSI requires a camera in front of the face and thus it is not suitable for mobile use. Ultrasound-SSI requires expensive and complex equipment. The proposed Derma is a much simpler method by skin motion sensing. Two 6-DOF accelerometer/angular velocity sensors attached under the chin acquire 12-dimensional multidimensional information of skin motion caused by the utterance. With the neural network, 35 silent commands are identified with a recognition rate of 94%. While previous SSI studies have normally trained with vocal speech, we also propose a learning method from non-vocal speech only. The proposed solution is less visible, lightweight, and is not affected by lighting conditions.
サイレント・スピーチ・インタラクション(SSI)は、無声発話による音声コミュニケーションを可能にし、公共の場での音声利用を可能にする。しかし、読唇SSIは顔の前にカメラを設置する必要があるためモバイルでの利用には適さない。超音波SSIは高価で複雑な装置が必要である。提案手法、Dermaは、皮膚運動センシングによるSSIである。顎の下に取り付けた2つの6自由度加速度センサ/角速度センサにより、発話によって生じる12次元の皮膚運動情報を取得する。ニューラルネットワークにより、35個の無声コマンドを認識率94%で識別する。従来のSSI研究では、有声音声により学習していたが、我々は非有声音声のみからの学習方法も提案している。提案手法は、装置が目立たず、軽量で、照明条件にも影響されない。
References:
- 暦本純一、西村悠、Derma: 皮膚運動計測によるサイレントスピーチインタラクション、情報処理学会インタラクション2020
- Jun Rekimoto, Yu Nishimra, Derma: Silent Speech Interaction Using Transcutaneous Motion Sensing, Augmented Humans 2021