音声インタフェース:その可能性を評価する

視覚インタフェースは、数多くのタスクにおいて、本来的に聴覚インタフェースよりも優れている。コンピュータに話しかけるという Star Trek 的幻想は、使いやすいシステムを目指す上で、実りある方向性とはいえない。

音声インターフェイスが、大部分のユーザインターフェイスのメディアとして画面に取って代わることはないだろう。

だが、音声インターフェイスには想像力に訴えかけるものがある。1986 年、私はコンピュータの専門家 57 名に対して、ユーザインターフェイス面で 2000 年までに起こりうる最大の変化は何か? と問うたことがある。回答のトップは音声による入出力で、グラフィカルユーザインターフェイスの2倍の票を得ていた。

今では思い出すのも大変なことだが、1986年当時、グラフィカルユーザインターフェイスが主流になる保証はどこにもなかった。これをメインに採用していたのは「おもちゃみたい」な Macintosh くらいで、IT のプロが使う「まともな」システムではなかった。この時の予想目標から 3 年経った今、GUI は間違いなくインターフェイスの主流になっている。

音声インターフェイス: 現実的に

音声インターフェイスの利点については、多くの人が行き過ぎた印象を持っている。 Star Trek で、音声操作コンピュータが目立っていたせいかもしれない。艦長が「コンピュータ、データ少佐を探してくれ」というと、コンピュータがこう答える。「艦長、データ少佐はもう艦内にいません。半時間前に、許可なくシャトルで離船しています

いつも思うのだが、ピカード艦長は、シャトルが盗まれたらすぐに知らせてくれるようなデザインを使った方がいいのではないだろうか。こちらが聞かなくても知らせてくれるシステムを。

いずれにせよ、何を言うべきかという問題が、インタラクションデザインのカギを握っていて、ユーザビリティの優劣を決める大きな要素にもなっている。発話するか、タイプするかは、ほとんどのユーザにとってそれほど大きな問題ではない。よって、音声インターフェイスになったからといって、ユーザインターフェイスデザインにとってもっとも本質的な、次のような問題を回避できるわけではないのだ。

  • サポートすべきタスクを選択し、
  • ダイアログの構造を決定し、
  • 利用可能なコマンドもしくは機能を決定し、
  • ユーザの希望を指定させること、それに
  • コンピュータに動作状況をフィードバックさせること

音声ができるのは、コマンドや変数を書くかわりに、しゃべれるようにすることだけだ。パズルの全体からみれば、本当に小さな一部でしかない。

音声を利用すべき状況

音声インターフェイスにもっとも可能性があるのは、以下のような場合だ。いずれも、従来のようにキーボート+マウス+モニターの組合せに頼るのは難しい。

  • 様々な障碍を持つユーザ。マウスやキーボードが使えなかったり、画面の絵を見られない人がいる。音声出力は、視覚障碍者がコンピュータを操作する際に、メインの手段となる。こういったユーザは、情報の聴覚表現に深く依存しているので、音声のみのブラウザを意識したウェブデザインにしておくことが非常に重要である。
  • 忙しくて目も手も離せない状況にあるユーザ。障碍の有無に関わらず、クルマの運転や、複雑な機械の修理などに携わっている状況では、キーボート+マウス+モニターの組合せは役に立たない。
  • キーボードやモニターにアクセスできないユーザ。例えば、公衆電話経由でシステムにアクセスするような場合である。

よって、音声は使いものにならないというわけではない。ただ、他のメディアが利用できる場合に、二次的なインタラクションモードになることが多いというだけだ。リストを読み上げてもらうよりは、モニターに表示してもらった方が、望むアイテムを選び出すのはずっと簡単だ。音声は一次元メディアで、持続性はゼロである。モニターは、二次元メディアであり、持続性(好きなだけ見ていられる)と部分的更新性(画面内のどのフィールドに入力しようと、他の部分は変化しない)をあわせ持っている。

将来、さらに三次元インターフェイスへと歩を進めることがあるかもしれない。とはいえ、2D より 3D の方が優れていることはめったにないのだが。アニメーションその他のマルチメディア効果を使うことでも、視覚インターフェイスはよりリッチになる。ただし、現状のデザインでは、アニメーションの使い方はまずいことが多い。だが、重要なのは、モニターとそれを見ることのできるユーザがいる限り、聴覚インターフェイスと比較して、視覚インターフェイスの方がはるかに多くの情報を伝達できるということだ。

情報機器と音声

身近にディスプレイがなく、電話ベースのインターフェイスだけが、情報にアクセスする唯一の手段という状況はたくさんある。空港着陸時にボイスメールをチェックするなどというのは、その最悪の例だろう。だが、本当に好き好んでリニアなボイスメールを聞きたいという人などいるのだろうか?

将来、文句なく持ち運びでき、ワイアレスでインターネットにアクセスできる小型機器がたくさん出てくるだろう。第一世代の情報機器が、すでに市場に出回っている。場合によっては、そんな情報機器を音声で操作したいこともあるだろう。着陸が遅れたせいで、乗り継ぎのために空港内を駆け抜けなくてはならないといった場合だ。何かに目を向けるような余裕はない。こういう時に、音声操作のアシスタントが「ここを左へ」とか、「乗り継ぎ便の離陸は 10 分遅れになったので、次の角の Starbucks に立ち寄る時間があります」と言ってくれたら、とても便利だろう。

私の新しいPDA Dangerは、電子メールが届くと気持ちよく「新着メッセージ」と表示してくれる。だが、電話着信は、何種類かの頭の痛くなるような安っぽい着信音で知らされるだけで、それを聞いても、話をしたくなるような誰の顔も思い浮かばない。「ルイスから電話」とか「お母さんからです」といったカスタム表示が記録できるようになっているとよかっただろう。

音声システムのユーザビリティは、周囲の環境をどれだけつかめているかで、劇的に向上する。音声は視覚ディスプレイよりも簡素なので、音声デザイナーは、重要な情報の選別や、個々のデータアイテムの関連付けをユーザに任せるわけにいかない。それをやるのはシステムの責任だ。コンテクストに着目したデザインがより重要になるだろう。同様に、ユーザの時間に厳しい目を向けることも大切だ。どうでもいいようなことで、ダラダラと時間をかけないようにしよう。

音声インターフェイスがもっとも有望なのは、それ単体でインターフェイスメディアになるのではなく、マルチモード型ダイアログの追加要素として利用する場合である。例えば、視覚ディスプレイやマウスが使えるなら、先にオブジェクトを選択して、それから画面の別エリアへマウスを移動してメニューをプルダウンしたり、機能ボタンをクリックするのではなく、画面で何かをポイントしながら、「赤く」とか「大きく」と発話した方が速い。

同様に、重要なイベントや画面内の要素にユーザの注意を引きつけるのにも、音声が利用できる。耳障りなビープ音よりもずっとリッチなやり方だが、今ほとんどのコンピュータの音声ボキャブラリを占めているのが、このビープ音なのである。コンピュータよ、そろそろ大人になってくれ。もう赤ちゃんじゃないんだから、言葉にならないビープ音は卒業してほしい。

2003年1月27日