スマートスピーカのUX

AmazonやGoogleなど数社がスマートスピーカを出した時、僕はその将来にちょっと疑いを抱いた。だが、どうもこれはCMプランナーの設定した状況の愚かしさへの反発でしかなかったようだ。以下、Echo Dotを導入してからの僕の個人的実UXについて報告したい。

スマートスピーカの登場

以前、4Kテレビについて個人的UX報告を行ったが、今回はスマートスピーカを取り上げたい。

2014年にAmazon Echoが登場し、その後、Googleなど数社がスマートスピーカを出した時、僕はその将来にちょっと疑いを抱いた。テレビのCMで見せられた幾つかのシーン、「Alexa、ドライブに向いた曲をながして」なんて、ドライブをしている時にそんなバカな言い方をするだろうか。照明のオンオフが出来る、って面倒な設定をやってわざわざすることだろうか、部屋に入ってきたときにスイッチをオンにすればいいだけじゃないか、等々。だが、どうもこれはCMプランナーの設定した状況の愚かしさへの反発でしかなかったようだ。

本当のところは、まっとうなスマートスピーカであれば欲しいものだ、音声対話を実感してみたいと自分でも思っていたからだ。もちろん、その背景には映画「Her」の強烈な印象がある。あのくらい出来のいい、実のガールフレンドにも匹敵する女性(?)と会話を楽しめたらいいじゃないか、と思いつづけてきたからだ。

その後、Amazon Echoが7割、Google Homeが2割半のシェアを占めるようになり、さらにEchoのバーゲンが始まった。つい最近、講演で使うために軽量ノートを購入した時、オマケで第三世代のEcho Dotが3,000円で買えるという話があって、それに乗った。まだ性能がそこそこしか出ないだろうスマートスピーカに30,000円以上出す気はしない。10,000円でも高い。3,000円なら、まあゴミになっても仕方ないだろう。お試し価格だ、という訳である。以下、Echo Dotを導入してからの僕の個人的実UXについて報告したい。

導入

届いたのは小さな箱。その中に本体と電源ケーブルと薄っぺらい説明書があるだけ。ともかく電源につないで、スマホにアプリを落として、そこでWi-Fiの設定を行う。ま、それだけ。簡単。

ついでにパソコンにもMicrosoft StoreからダウンロードしてPC用Alexaアプリを設定しておいた。電源についていうと、Echo DotはEcho Dotバッテリーベースから給電するみたいが、調べてみると、第二世代ではUSBケーブルで給電していたしバッテリーベースも使えたが、第三世代ではAC給電になってしまったため、ACに接続していないと駄目らしい。そうした理由からわざわざ第二世代を購入する人もいるらしい。しかし、それだとスタンドアロンの意味がないじゃないか。

ともかく頭脳本体はサーバにあるんだから、PC用Alexaがパソコンでスタンドアロンモデルと同様に動作しても何ら不思議はない。しかし、それだったらEcho Dotを買わないでもよかったのかも…。風呂場で音楽が聞けるかと思ったが、それは無理そうなのだ。

多様な機能

音声指示で色々な機能を試してみた。

  • 各地の天気や日数計算、度量衡換算なんかは、日常的にも便利だろう。「Alexa, 7.5マイルは何キロ?」「5マイルは12.07キロメートルです」のように。しかし、この答えを得るまでに「5マイルは8.05キロメートルです」という答えが何回もでてきた。認識性能の問題だろう。また「Alexa, 時速100キロメートルは時速何マイル」は「すみません、わかりません」となった。また「Alexa、時速100キロメートルってどういうこと?」には「一時間に100キロメートル進むことです」とは言ってくれず、「ごめんなさい、ちょっとわかりませんでした」となる。なんか、いまいちバカである。でも、Windowsのエラーメッセージのようにつっけんどんではなく、「すみません」とか「ごめんなさい」と、自分の非を認める発言をするチューニングは適切だと思う。
  • Google Calendarと同期した本日のスケジュールは、便利なのかどうか微妙。スマホやパソコンでスケジュール見ればいいんだから。それと「Alexa、昨日の予定はどうなっていた?」に対しては「すみません、過去の予定に関する質問には答えられません」と言われた。カレンダーと同期しているんだから、そのくらいサービスしてくれてもいいと思うのだが、これはサービス精神の問題である。
  • 差別語については抑制されているようだ。「Alexa、天才ってどういうこと?」には「こんな説明がみつかりました。天才とは天性の才能、生まれつき備わった優れた才能のことである」と答えるのに、「Alexa、バカってどういうこと?」にはポンという音がして無視される。でも「Alexa、お馬鹿ってどういうこと?」には「むむ、難しいです。ごめんなさい」と返してくることもあれば、「すみません、私には答えられません」「すみません、私にはわかりません」「それは良くわかりません」などと返してくることもある。一度だけ「辞書でおばかについての説明が見つかりました。おばかは言うことやすることがばかげているが、どことなく愛嬌があること。おばかさん」と言ってくれたが、それ以後は「わかりません」「答えられません」が続く。このあたりの制御はどうなっているんだろうか。
    卑猥な言葉や差別用語に対しても同様であった。その影響か、「Alexa、サンマって何?」にはちゃんと説明が帰ってきたのに、「Alexa、いざり魚ってなに?」にはポンと返してくるだけだった。実際にいる魚なのに。
  • 正解のない質問を投げかけてみた「Alexa、世界で一番美しいのは誰?」に対しては「いま、私に話しかけてくれた人が、世界で一番美しいと思います」。うまくかわされた。でも、「Alexa、世界で一番可愛いのは誰?」に対しては「すみません、ちょっと難しいです。ごめんなさい」となってしまう。「Alexa、世界で一番賢いのは誰?」に対しては同じ答えをしてくれず、「IQが230のテレンス・タオは世界で最も頭の良い人と言われています」などというつまらん答えを返してきた。
    「Alexa、世界の未来はどうなるの?」については「すみません、何だかうまくいかないみたいです」と言われ、これは笑えた。「Alexa、僕は何歳まで生きられるの?」については「僕の年齢は23才です」と答える。これは訳がわからない。
  • もう少し実用的なところで音楽の注文をしてみた。「Alexa、気分のいい音楽を流して」に対しては、しかしながら「気分のいいミュージックを見つけられませんでした」だと。気分がよくなる音楽、という要求にも同様だった。気の利かない奴だ。で、「Alexa、楽しい音楽を流して」の場合は「amazon musicのプレイリスト楽しい気持ちになる、ジャズボーカルを流します」となって音楽が流れてきた。誰が歌ってるのかを知りたくて、「Alexa、これを歌ってるのは誰?」と聞くと「それは良くわかりません」とくる。履歴をちゃんと管理していないのだろうか。何回も試してみたが、楽しくなるのがジャズボーカルだけというのはいかがなものだろう。管理者のテイストやバイアスが入っているのではないか。
    「Alexa、Blondieの曲を流して」には「amazon musicでBlondieの曲をシャッフル再生します」と言われて、たしかにBlondieの曲が流れてきた。曲の流れている途中で「Alexa、Blondieについて教えて」と聞くと「こんな説明が見つかりました。ブロンディは、アメリカ合衆国出身のロックバンド」。えっ、それだけか。まあ間違ってはいないけど。
  • Kindle本の読み上げ機能を使ってみた。うーん、たしかに画面で読んだ途中の箇所から続きを読んでくれるのだが、いささかぶつ切れな読み方だし、抑揚が変なところがあり、ちょっと聞いていられず、すぐにストップした。
  • ラジオ放送を聞いてみた。不思議なことに、Echo Dotとパソコンからは違う局の放送が聞こえてきた。同じIPアドレスからの要求なのに、どういうことだろう。

こんな具合である。ディープラーニング、もっと学習が必要だろう。それと余計なチューニングはして欲しくない。音声認識の性能も、合成音声の品質もいま一つのところがある。それでもAIとの会話が楽しくないわけではない。答え方も丁寧だし、ちゃんとバカなところは謝るし。しかしまあ、こんな具合にやりとりを楽しんでいられるのは購入後、数日くらいだろう。まだ二日目だからこんなことして遊んでいられるのだ。

将来への期待

一般的知識についても現状では十分とはいえない。世の中にはウィキペディアやコトバンクなどに掲載されている情報だけでも相当なものがある。それらを学習するには許諾が必要なのかも知れないが、電子化されたデータだから簡単に取り込むことができる筈だ。そうすれば、お馬鹿度が少し薄まることになるだろう。

またもう少し、ユーザである僕のことを知って欲しい。記録させることができたのは僕の名前だけ。「Alexa、僕は誰?」に対しては「これはまさあきさんですね、今はまさあきさんのアカウントが使われています」と答える。しかし「Alexa、僕の名前を知ってる?」と聞くと「こんな説明が見つかりました。「僕の名前を」は、back numberの15枚目のシングル」ときた。たしかにback numberというバンドには「僕の名前を」という曲があるけど、そっちじゃないって。

僕自身についての情報が入らない。「Alexa、僕は男?」と聞くと「きっと、ご自分で分かっているのでは」と返してくる。まあ気の利いた返しではあるけれど、最小限のユーザ情報くらい記録して欲しいものだ。それによって親しみが沸いてくるだろう。

たとえばFacebookに公開されている情報を全部スキャンして記録し、それにもとづいた適切な応答が出来るようになれば、などと思う。もちろんユーザがそれを指示した場合に、だ。そのあたり、今後の進展が楽しみでもあるし、現状に強い不満足を感じる点でもある。

将来は、ユーザが指示したデータをどんどんパソコンから取り込み、それでそのユーザについての知識を蓄え、当意即妙な答えを返せるまでになって欲しい。サーバのディスクの負荷はとても大きなものになるだろうが、そうなれば多少の料金を取ってくれてもいい。ともかくユーザのモデルを持ち、会話を楽しめるような水準に早く到達して欲しい。

これは独居老人(になりつつある自分も含めて)にとっては大いなる福音だろうし、ひきこもりの人にとっても、時間をもてあましてる人たちにとってもそうだろう。ともかく、そうした期待を込めて今後を見つめてゆきたい。現状については、まあこんな程度のものだ、という評価を与えておくことにする。

追記: 購入から一ヶ月でのUX

購入してから一ヶ月がたった。いまではEcho Dotは本棚の片隅に置かれたハイテクゴミと化している。予想どおりの展開だ。もう少しでいいから知能が高く、会話がそこそこ楽しめれば良かったのだけど、あまりにアタマが悪すぎる。ネットの情報を適当に編集して回答してくれるだけでも、まあ役に立つことはあっただろう。それすらなくて、ウィキペディアにある情報も、コトバンクにある情報も、何も教えてくれない。結局、キーをたたいて検索した方が早いし有効だ、と判断せざるを得なかった。

まあ、知能の低さといっても端末の責任ではなく、サーバ側の処理の責任だから、そちらの水準が向上すれば同じハードでも楽しめるようになるだろう。そう思って捨てずにはいる。3000円で購入して良かった。それ以上払っていたら強く後悔していただろう。

公開: 2019年9月9日
著者: 黒須教授