AIは従業員の生産性を66%向上させる

(ChatGPTのような)生成AIをビジネスで利用すると、ユーザーのパフォーマンスが、3つのケーススタディの平均で66%向上する。タスクが複雑になるほどその利益は大きく、熟練度の低い労働者がAIの使用から最も恩恵を受ける。

ついに我々は、実際のビジネスタスクにおける、ChatGPTのような生成AIシステムのユーザビリティについての定量的データを手に入れた。その最新の3つの研究では、異なる領域において非常に異なるタイプのユーザーをテストしていたが、結論は同じだった。生産性が著しく向上し、熟練度の最も低いユーザーに最も大きなメリットがあったのである。また、作業成果物の品質の向上が確認できた研究もあった。

ここ数か月、AIに関する議論が延々と続いているが、そのほとんどが私見を反映した推測に基づくものである。まったくひどい話だ。ドットコムバブルから我々が学んだことがあるとすれば、そのような推測はビジネス利用を評価する上では何の意味もないということだ。我々が知る必要があるのは、AIをどんな形で展開すれば有益で、どんな形で展開すれば失敗するのか、ということだからだ。意見に基づく推測は多くの場合、間違っているし、その結果、企業が実際のユーザーにとって機能しない製品を発売してしまうと、莫大な無駄が生じることになる。そのため、(デモを見るのではなく)ユーザーが実際のタスクを行いながら製品を利用しているところから得られた実証的なデータが非常に重要なのである。

今回は、それぞれ別の論文で詳述されている、以下の3つの研究から得られた知見について説明する:

  • 研究1:ソフトウェア会社のカスタマーサービス担当者が、顧客からの問い合わせを解決するケース。
  • 研究2:経験豊富な専門職(マーケティング担当者、人事担当者など)が、30分程度で作成できる(プレスリリースなどの)定型的なビジネス文書を作成するケース。
  • 研究3:プログラマーが、AIの支援なしでも3時間程度で完了する小規模なソフトウェアプロジェクトのコーディングを行うケース。

3つのすべてのケースで、ユーザーがタスクを完了するまでの間、計測が行われ、時間は必ず計測されたが、タスクの品質の計測が行われることもあった。およそ半数のユーザーは、AIの助けを借りない従来の方法でこうしたタスクを実行し、残りの半数はAIツールの支援を受けた。

生産性に関する調査結果

こうした研究から得られた最も素晴らしい結果は、AIが実際のビジネスに有効であるということだ。ユーザーは、AIツールを利用しない場合よりも、AIの支援を受けた場合のほうが、はるかに効率的に業務を遂行することができていた。

生産性とは、たとえば、1日や1週間といった一定の時間内にユーザーがどれだけ多くの仕事をこなせるかを測るものである。もし従業員が2倍の仕事をこなすことができるようになれば、生産性は100%向上したことになる。

以下が結果である:

  • 研究1:AIを利用したサポート担当者は、顧客からの問い合わせに1時間当たり13.8%多く対応できるようになった。
  • 研究2:AIを利用した専門職は、1時間あたり59%多くのビジネス文書を作成できるようになった。
  • 研究3:AIを利用したプログラマーは、1週間あたり126%多くのプロジェクトのコーディングが可能になった。

以下のグラフは、3つの調査研究の結果をまとめたものである:

今回取り上げた3つの調査研究に基づく、生成AIツールを利用した場合のユーザーのタスクパフォーマンスの測定値の(AIを利用しなかった統制群に対する)上昇率。

3つのケースすべてにおいて、(AIツールを使わない従来の方法で作業を行った)統制群との差は、p<0.01以上のレベルで統計的に有意であった。

このグラフから明らかなように、タスクの生産性の変化量は、3つの研究領域で非常に異なる。認知的要求の高いタスクのほうが(たとえば、コードを書くことのほうが顧客からの問い合わせに答えることよりも認知負荷が高い)、AIの支援によるメリットがかなり大きいように見える。

AIによる生産性向上は一大事か

3つの研究を平均すると、生成AIツールは、現実的なタスクを実行する際のビジネスユーザーの処理能力を66%向上させている。我々はこの数字をどう判断すべきだろうか。

数字そのものに意味はない。数字というのは、他の数字と比較して初めて結論が導き出されるものだからだ。

というわけで、比較をしてみたいが、米労働統計局によると、新型コロナウイルスのパンデミック以前の12年間(2007年から2019年)の米国の平均労働生産性の伸びは年率1.4%だった。また、ユーロスタットによれば欧州連合(EU)の同期間の平均労働生産性上昇率は年率0.8%だった。

どちらの数字も、労働者が1時間働くごとに生み出す平均的な価値を測定したものである。従業員の労働時間が増えたり、単純作業しかできない人が加わったりすれば、全体の経済産出量は増えるが、ここで論じているような意味での労働者の生産性が上がるわけではない。この記事で論じているのは、従業員が1労働時間あたりどれだけの価値を生み出しているかだからだ。この価値が高まれば、生活水準が向上するというものである。

さぁ、これで比較対象ができた! 66%というAIによる生産性向上は、米国の47年間分の自然な生産性向上量に等しい。そして、AIは欧州連合(EU)の88年間分の成長に相当している。これは、1957年に欧州共同体(EUの前身)が成立してからの66年間にさらにその3分の1の時間を足した年数にあたる。

AIというのは、まさに大きな出来事なのである!

注意点

この研究結果には3つの注意点がある。

第1に、66%の生産性向上は、(データ収集時に利用した)ChatGPT 3.5に代表される旧バージョンの生成AIによって生じたものだということだ。そうしたAIはすでに次のバージョンに移行しており、新バージョンは大幅に改善されている。そして、将来のAIシステムは、さらに改善されると思われる。純粋にエンジニア主導で開発されるのではなく、ユーザーエクスペリエンスの知見に基づいて開発されるのであれば、なおさら良いものになるだろう。(現在のAIツールはユーザビリティに大きな弱点がある

第2に、研究1(カスタマーサポート)のみが複数月にわたって労働者を追跡している。研究2と3(ビジネス文書作成とプログラミング)は、参加者がAIツールを1回だけ利用したときの結果を測定したもので、多くの場合、そのユーザーはAIを利用するのが初めてだ。どのようなデザインにおいても常に学習曲線は存在していて、ユーザーはそのユーザーインタフェースに何度も触れるうちに使いこなせるようになる。したがって、研究2と3で測定された(すでに非常に高い)効果は、従業員が自分の仕事の効率を大幅に向上させるツールを使い続けるという現実の環境では、もっと大きくなると予想される。

第3に、生産性の向上は、労働者がAIのサポートを受けながらそのタスクを行っている間にのみ生じる。UXデザインのように、AIのサポートに適さない作業が多い職種もあるため、そのような分野の従業員が得られる恩恵は、勤務時間全体で見るとわずかなものにとどまるだろう。

これらの要素は正反対のベクトルを示している。どのベクトルがより影響が大きいかは、まだわからない。今のところ、私はデータを持っていないので、各要素の影響はほぼ同じであると仮定する。そうすると、私の現時点での予測は、すべてのビジネスユーザーに生成的AIを導入することで生産性を約66%向上させることができる可能性がある、ということだ。

UX専門家の生産性

現在のところ、UXの専門家がAIを利用するメリットがありそうだというデータはごくわずかだ。ある調査で、ChatGPTがアンケートの回答の主題分析迅速に行うのに役立つことが示唆されていたが、今後はさまざまなUXプロセスにおいて、これらの新しいツールを有益に活用できる例がいろいろと出てくることだろう。

では、UXの業務においてはどの程度の生産性の向上が期待できるだろうか。この記事で紹介したデータから、初期段階の大まかな予測を立てることが可能だ。複雑な作業ほど、AIによる効果は大きい。UXデザインは、プログラミング(126%の改善が見られた)ほど認知的要求は高くないが、複雑さではそれに匹敵する。したがって、私の推測では、AIがサポートするUX業務の生産性向上率は100%である。

実際のデータを待つ必要があるが、現時点では、UXの専門家はAIツールによって処理能力を倍増させることができると予想する。より正確には、「AIサポートに適したUXタスクの生産性」は2倍になると考える。どのようなUX業務がAIのサポートに適しているかは、今後、記事のテーマになるかもしれないが、すべてのUX業務がAIツールによって同じように大きな恩恵を得られるわけではないだろう

たとえば、発見的調査ユーザビリティテストでの観察的なユーザー調査はやはり人間が行う必要がある。AIがユーザーの行動を推測するには、実際の人間が現実のタスクを行っている様子を観察し、彼らのコンテキストを真に理解しなければならないからだ。こうした「観察」の一部は、いずれ自動化されるかもしれないが、最も影響力の大きい調査の多くは、人間のUX専門家がユーザーと一緒に座って行う必要があることに変わりないだろう

あいにく、顧客のところへの訪問調査を1時間実施すれば、1時間の時間が費やされるということだ。したがって、こうした場では、生産性のスピードアップは望めないのである(しかし、訪問ごとのメモをまとめたり、比較したりするのは、AIを使えば速くなる可能性がある)。

繰り返すが、この初期段階では推測になってしまうが、UX業務の半分はAIツールを利用するメリットがあるように思う。とはいえ、我々の作業の半分の処理能力を100%向上させることができても、残りは現在のゆっくりとしたペースにとどまるのであれば、UXの業務は全体として33%しか生産性を向上できないことになる。それでも効果としては悪くはないが、革命的というほどではない。我々の仕事は人間中心という性質を持つためである。

AIの利用による品質の向上

効率は良くても、AIを利用することで質の悪いアウトプットが増えるのであれば、大局的に見れば何の意味もない。イノベーションの価値にとって、質は量と同じくらい重要だからだ。

幸いなことに、少なくとも研究1と2においては、AIによる支援を受けたほうが、受けなかった場合よりもアウトプットの品質は向上していた(プログラマーを対象とした研究3では、2つの実験条件下で生成されたコードの品質についての評価をしていない)。

研究1(カスタマーサポート)では、顧客の問題解決に成功した割合で評価すると、AIを使用していないエージェントに比べて、AIを利用したエージェントの作業品質は1.3%向上した。一方、2つの条件下での問題解決に対する顧客の主観的満足度は同じであった。1.3%のわずかな上昇は、p = 0.1でわずかに有意であった。

つまり、研究1では、AIによる支援は作業品質を低下させず、わずかに向上させたと結論づけることができる。

それに対して、研究2(ビジネス文書の作成)では、専門職がChatGPTの助けを借りて文書を作成したところ、作業品質が飛躍的に向上している。7段階評価で、文書の品質評価の平均は、AIありで4.5、AIなしで3.8となり、この差はp<0.001で統計的に有意だった。

参加者の自己申告によると、この品質向上は、AIを利用すると、文書の初稿の作成時間が「大幅に短縮」されるので(ChatGPTによって生成されたため)、その文書を編集する時間を「大幅に増やす」ことができるようになり、成果物の完成度が高まったことから来ているように考えられる。

人間とコンピュータの共生

1960年に、コンピュータのパイオニアであるJ.C.R. Lickliderは、“Man-Computer Symbiosis”(人間とコンピュータの共生)と題する、大きな影響を与えた論文を書いた。Lickliderは、「人間と電子コンピュータの協調的なインタラクションでの期待される発展」(Lickliderからの引用に筆者が太字を加筆)において、人間とコンピュータがお互いに補いあう未来を思い描いていた。

今回紹介した、AIのユーザビリティに関する初期の研究を見ると、その日が到来したように思う。タスクの処理能力や仕事の成果物の品質が優れていたのは、このような共生によるものだからだ。

AIが人間に取って代わることはない。AIと人間が協働することで、たとえば、下書き原稿の作成が効率化され、人間の専門家は編集や推敲に専念できるようになり、最良の結果がもたらされるのである。

スキル差の縮小

今回の研究結果から得られた素晴らしい発見は、生産性や作業品質の向上だけにとどまらない。

生成AIの3つ目の効果は、最も優秀な従業員と最も優秀でない従業員との間の差を縮められることだ。

もちろん、どこまでいっても個人差というものは存在する。中には他の人より優れたパフォーマンスを発揮する人もいるだろう。しかし、このような差異の「大きさ」はAIを活用することで小さくすることができる。

研究1(カスタマーサポート)で、パフォーマンスが下位20%だった担当者(下位5分位群)は、タスク処理能力を35%向上させた(平均的な担当者の2.5倍)。一方、パフォーマンスが上位20%だった担当者(上位5分位群)のタスク処理能力は数%しか向上しなかった。

研究2(ビジネス文書の作成)では、AIの助けなしで文書を作成したときには最もスコアが低かった専門職のほうが、ChatGPTのサポートを受けると、AIなしで高スコアだった参加者よりもはるかにスコアが向上した。AIを使わない場合、文書作成が得意な人とそうでない人の差は2~3ポイント程度(品質の7段階評価)だったが、ChatGPTを使うとその差は1ポイント程度に縮まった(この差は、原著論文の数字をつぶさに見て、私自身が導き出したものである。元論文では、AIベースでないツールを利用した統制群と比較して、介入群で、AIを利用した場合と利用しなかった場合の仕事の質の相関が統計的に有意に低下したことでスキル差の縮小を説明している。しかし、この説明は統計的な知識がない読者にはわかりにくいかもしれない)。

研究3(プログラミング)では、経験年数の短いプログラマーほどAIツールによるメリットがあったが、その効果はp = 0.06とわずかに有意でしかなかった。また、1日にコーディングに費やす時間が短いプログラマーのほうが、1日のコーディング時間が長い参加者よりもAIツールによるメリットがあった。この2つ目の効果はp = 0.02と有意であった。これらの2つの結果を総合すると、熟練度の低いプログラマーのほうが、熟練度の高いプログラマーよりもAIからより多くのメリットを得られることがわかる。

詳細な調査結果や統計は3つの研究でそれぞれ異なるが、3つの研究ともに結論は同じだ。すなわち、AIを利用することで、最も成績の悪い人と最も成績の良い人の差が縮まるのである。

スキル差縮小の一方、生産性は認知的要求の高いタスクで最も向上

当初、私は、ある領域内で最も成績の悪い人がAIによって最も助けられる一方で、領域間では、より認知的要求の高いタスクで最大の恩恵を受けるというのはパラドックスではないかと考えていた。言い換えれば、AIはある分析では能力の「低い」ほうを助け、別の分析では能力の「高い」ほうを助けるということだからだ。どうしてそのようなことが起こるのだろうか。

いつものことだが、より多くの領域で、より幅広いユーザーを対象にした研究をもっと見たいところだ。しかし、今回の3つのケーススタディから、一見正反対に見えるこの2つの結果については暫定的な説明が可能だ。

私の仮説は、大量のデータを操作するという力仕事を生成AIは代行する、というものだ。つまり、ワーキングメモリーの負荷を軽減する。これは以下のような場合に役立つ:

  • タスクが複雑で、人間のワーキングメモリーに対する要求が高い場合
  • 人間のワーキングメモリーの容量が少なく、一度に多くの情報のかたまりを脳内に保持できない場合

(ワーキングメモリーの容量はよく知られているように個人差があり、年齢や学歴などによって異なることに注意しよう。また、その分野のエキスパートと比べると、熟練度の低い労働者や初心者は、タスクの実行により多くのワーキングメモリーを使う傾向がある。そのタスクにまだ完全に慣れていないため、やり方を覚えておかなければならないからだ)

ワーキングメモリーにかかる重い負担の一部を肩代わりすることで、AIツールはユーザーを自由にして、ビジネス文書タスクにおける編集要素に代表されるような、創造性という人間特有の魔法を振りかける余裕を生みだす。

創造性は、複雑なタスクにおいて定型的なタスクよりもより重要であり、これが、AIが高度な領域でより役立つもう1つの理由である。AIがなければ、熟練度の低いユーザーの創造性は、ワーキングメモリーの大半をデータ処理に割かなければならないために抑え込まれてしまう。しかし、AIがあれば、彼らの脳はより創造的になるために解放され、その結果、熟練度の低い労働者と高い労働者の間のスキル差が縮まるのである。

スティーブ・ジョブズがコンピュータを「知の自転車」と呼んだのは有名な話だ。ユーザーが少ない労力で物事を進められるようになるからだ。同様に、AIツールは知のフォークリフトであるといえる。なぜなら、AIツールは力仕事をやってくれるからだ。実際の倉庫では、フォークリフトの運転手は、人間の洞察力を利用して、パレットを最も効率的に積み上げる方法を依然として判断しなければならない。しかし、フォークリフトが力仕事をしてくれるため、人間は重いパレットを移動させるために、もはや筋肉隆々の動物である必要はない。AIを使う場合も同じなのである。

より迅速な学習

最後の発見は、今回の研究で唯一の長期的な調査研究である研究1(カスタマーサポート)から得られたものだ。この研究では、サポート担当者を数か月にわたって追跡調査した。その結果、AIがサポートすることで、担当者はAIのサポートがない場合よりも早くノウハウを習得できることがわかった。

平均して、新人担当者は1時間あたり2.0件の顧客からの問い合わせに対応できる。一方、経験豊富な担当者であれば、1時間あたり2.5件の問い合わせをこなすことが可能で、このレベルの生産性に到達するには通常8か月かかる(AIツールを利用しない場合)。これに対し、担当者がAIの利用を開始すると、わずか2か月で早くもこのレベルに達した。つまり、AIを使うことで(このレベルに達するまでの)学習が4倍も早まったのである

研究の弱点

多くのアナリストが個人的な見解に基づき他愛もないことをしゃべりつづけているときに、切実に必要とされている実証的データを与えてくれているこれらの先駆的な調査研究の弱点に文句をつけるなんて、心の狭い人間だと思われるかもしれない。私はこの研究にとても感謝しているし、この3つの論文の執筆者を熱烈に賞賛したい。よくやった、みなさん! 研究資金の増額に値する人々がいるとすれば、それはあなた方であり、私はあなた方の将来のより詳細な研究結果を読むのを楽しみにしている。

とはいえ、どんな研究にも改善すべき点は常にあるもので、特にタイトなスケジュールで早期に実施された先駆的研究においてはなおさらそうだろう。私の主な不満は、今回の研究が思考発話法などのよく知られたユーザー調査手法を採用せずに実施されていることである。経済学者は今回報告されたような定量的な調査を好むが、ユーザーの行動に関する知見やあるデザインが他のものよりもうまく機能する理由に関しては、定性的な調査のほうが定量的な調査よりも圧倒的に優れていることをUXリサーチャーは知っているからだ。

3つの調査研究

今回紹介した3つの調査研究の詳細には興味がなく、結論だけを知りたいという方は、ここで読むのをやめてもらって構わない。結論はすでに提示したからだ。しかし、より詳しい情報を知りたいのであれば、各研究の分析をまとめたものが以下である:

  • 研究1:Erik Brynjolfsson, Danielle Li, and Lindsey R. Raymond.  Generative AI at Work.
  • 研究2:Shakked Noy and Whitney Zhang(2023):Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence.
  • 研究3:Sida Peng, Eirini Kalliamvakou, Peter Cihon, and Mert Demirer(2023):The Impact of AI on Developer Productivity:Evidence from GitHub Copilot.

研究の詳細を理解することは、結果を解釈するのに役立つ。詳細な考察は、我々がまだ知らないことがいかに多いかを知るために不可欠である。多くの修士論文や博士論文、さらには学部の論文にさえ、未解決の課題がたくさん取り上げられている。もしあなたがそうした作業をしてみたいのであれば、知らせてほしい。助言できるかもしれない。

この3つの研究はまったく異なるものでありながら、同じ結果にたどり着いた。このことから、結論に対する私の信頼は大いに高まったといえる。どんな研究でも、さまざまな理由で誤っていたり、誤解を招いたりすることはある。しかし、異なる人たちが異なる研究方法で異なる領域で発見したことが同じであるとすれば、信頼性は一気に高まるだろう。この3つのケーススタディの主執筆者は、それぞれスタンフォード大学、マサチューセッツ工科大学、マイクロソフトリサーチの研究者である。彼らは、カスタマーサポートの担当者が顧客からの問い合わせを解決したり、企業の専門職が定型的な文書を書いたり、プログラマーがHTTPサーバーをコーディングしたりすることについて研究を行った。読み進めればわかるように、それぞれの研究チームは異なる研究手順と異なる評価基準を採用している。

このような違いがあるにもかかわらず、3つの研究はすべてほぼ同じ結論に達しているのである。印象的ではないか!

参考文献

研究1]Erik Brynjolfsson, Danielle Li, and Lindsey R. Raymond (2023): Generative AI at Work. National Bureau of Economic Research working paper 31161. https://www.nber.org/papers/w31161 (for a detailed analysis of this study, see https://www.nngroup.com/articles/ai-productivity-customer-support/)

研究2]Shakked Noy and Whitney Zhang (2023): Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence. Available at SSRN: https://ssrn.com/abstract=4375283 or http://dx.doi.org/10.2139/ssrn.4375283 (for a detailed analysis of this study, see https://u-site.jp/alertbox/chatgpt-productivity)

研究3]Sida Peng, Eirini Kalliamvakou, Peter Cihon, and Mert Demirer (2023): The Impact of AI on Developer Productivity: Evidence from GitHub Copilot. Available at Arxiv: https://arxiv.org/abs/2302.06590 or https://doi.org/10.48550/arXiv.2302.06590 (for a detailed analysis of this study, see https://www.nngroup.com/articles/ai-programmers-productive/)