カテゴリー
Future

会議の発言者識別

2008年に発表された、「音声区間検出と方向情報を用いた会議音声話者識別システム とその評価」の延長にあるのだと思うが、7月初頭ぐらいに新聞にこんな記事が載っていた。

カメラやマイクで集めた情報から発言者を区別し、音声認識技術で発言内容を文にする。ほぼリアルムで処理でき、テレビ会議システムなどへの応用を目指す。
新技術は魚眼レンズ付きカメラ2台とマイク8本を備えたシステムで、会議のテーブルに置いて使う。マイクに音が届くまでの時間差などから発言者の方向を特定し、カメラでとらえてを識別する。
会議の雰囲気がわかるように、笑い声や視線がしている人を見分けたりする機能も付けた。発言の頻度から会議を主導した人物も推定できるという。従来は特定の人物の発言を記録できる程度で、複数の人の発言を瞬時に処理するのは難しかった。
雑音を取り除く技術や音声認識などの精度を高め、会議だけでな様々な状況に対応できるように改良する。多くの場所をでつないだテレビ会議システムなどにも応用する計画だ。

非常に興味深いシステムである。
時間差っていっても会議室レベルだともう微小な時間の差で、の形状やらによる誤差がどれくらいになるのか?とか興味ある。あとカメラ2台のマイク8本必要ってのはのハードルとしては高いなーと思う。そんなんだったら頭にカメラ付けて、そいつが常に発言者を見る役目の人が必要です。みたいなほうが導入時の心理的ハードルは低いんじゃないだろうか?(絵として笑えるというのはさておき)
ここ最近のからの画像検索やら、音声からの音楽検索やらテキストじゃない実情報からの検索技術は格段に進化しているが、近いうちにAI的な声紋判定が実装できれば、発言者への発言のマッピングは簡単にできるようになるのだろうなあ・・。(今の仕組みは恐らく、音声をキーにしてカメラを操作し、発言者の画像を入力、事前登録された?顔画像とのマッピングを行って発言者を判定するみたいな?)
これ会議よりも何よりも、演劇とか放送用に役柄別に文字おこしするのがとても楽になるんじゃないかと期待。あー野球中継の解説とかもそのまま文字放送に流用できますね。素敵。
しかしこういうのをなんにも考えずにできる人間の仕組みってのは本当にすごいなと思う。
記憶の定かさは完全に負けてしまうけれど・・・。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です