ChatGPTは専門職の生産性を高め、仕事の質を向上させる

専門職にChatGPTを使ってビジネス文書を作成してもらう調査では、タスク時間が短縮され、評価品質が大幅に向上した。

最近、ChatGPTや同様の生成型人工知能ツールが導入されたことにたくさんの人が怒っている。コメンテーターも、AIをだまして不快なことを言わせるのは可能であるとか、そうしたツールの出力は誤解を与えることが多い、と批判している。

しかし、1つ目の批判に関しては、だからどうした、と言いたい。Excelでも、間違った計算式を入れれば間違った結果が出る。また、文書作成ソフトで不快な文章を作りたければ、そうした内容を入力すればよいだけだ。業務用のツールの尺度は、意図的に悪用したときに間違った結果ができあがるかどうかではないだろう。問題になるのは、そのツールが意図されたように使われたときに適切な結果が得られるかどうかだからだ。

それよりも問題にすべきは、ChatGPTが正しく使われ、生成されたテキストも非常に説得力があるように感じられるのに、そこに完全な捏造が含まれている場合だ。今後のバージョンではさらに精度が上がってほしいものだが、繰り返しになるが、間違っている出力も正しく扱えば、必ずしもAIツールの命取りになるわけではないと考える。もちろん、ChatGPTに依存しきって、出力の確認もしないようなら、虚偽に悩まされることになるだろう。しかし、AIで生成されたテキストを人間がチェックし、編集して修正すれば、その結果は費やされた労力に見合うものになるのではないか。

幸いなことに、最新の研究調査からこの疑問に対する知見が示されている。

研究調査

先日、MITのShakked NoyとWhitney Zhangは、専門職の従事者にChatGPTを使ってさまざまなビジネス文書を作成してもらった実証的研究の結果を発表した。

調査参加者は、マーケター、グラントライター(訳注:非営利組織での助成金の申請書類を作成する人)、データアナリスト、人事担当者など、さまざまな分野の経験豊富な専門職444人である。参加者にはそれぞれ、自分の専門分野のビジネス文書を2つ書く課題が与えられた。たとえば、プレスリリースや短いレポート、分析計画など、現実に業務として携わっていると今回の参加者から説明のあった文書である。

全参加者はまず、コンピュータの支援のない通常の方法で文書を1つ作成した。2つ目の文書を作成するときに、参加者の半数はChatGPTを利用するようにランダムに割り当てられた。一方、残りの半数はAIの支援のない通常の方法で2つ目の文書を作成した。

以下に報告する結果について考えるときに、ChatGPTの利用が条件になっていた参加者のほとんどが、このAIツールを初めて使ったことに注意する必要がある(ChatGPTの利用経験者は全体の30%)。一般に、どんなツールにも学習曲線というものがあり、ユーザーはそのツールを使えば使うほど、より効率的に使えるようになる。あるツールが初めて使ったときにうまく使えるだけの学習しやすさを備えていればそれは素晴らしいことだが、業務で利用する場合は、ユーザーが長期的に達成する生産性のレベルのほうがより重要であることが多い。いずれにせよ、今回の研究では、ChatGPTが(AIグループの大半を占める)初めてのユーザーにとって優れたユーザビリティをもつことが示された。しかし、今回の結果はChatGPTの利用経験が豊富なユーザーの場合はさらに良いものになる可能性がある。

ビジネス文書が作成されたところで、その品質を7段階で評価した。それぞれの文書を評価したのは、作成者と同じ分野の業務を担当している第三者、3人である。もちろん、どの文書がAIの助けを借りて書かれたかは評価者には知らされなかった。

余談だが、UXの調査で、調査対象であるツールで作成した成果物の質を評価することは、残念ながらまれであることを指摘しておきたい。結局のところ、コンピュータを利用する目的はほぼアウトプットを得ることにあるわけだから、こうしたアウトプットの質はユーザーインタフェースを評価する要素として不可欠だ。そして、今回の研究で示されているように、品質を測定する一般的な方法の1つが第三者の評価者によって作業を評価してもらうことである。

結果:作業が速くなり、品質も向上した

速く作業をすることと、より優れた成果を挙げることは、しばしば相反する(認知心理学で速さと正確性のトレードオフと呼ばれる現象)。しかし、今回の調査では、ChatGPTを利用した専門職は、成果物の作成スピードが速くなり、そうした成果物の評価品質も向上していた。

1回目の文書は、AIの助けを借りずに作成されたが、2つのグループの成績は同等で、参加者への研究条件の割り当てが本当にランダムであることが裏づけられた。言いかえると、一方のグループの参加者がもう一方のグループの参加者よりも何らかの才能やスキルがあるということはない、ということだ。したがって、2回目の文書作成で測定された差異は、ChatGPTの利用によって実際に生じたものである、と自信をもって言えることになる。

2回目で、ChatGPTを利用した専門職が平均17で成果物を作成したのに対し、AIによるサポートなしで文書を作成した専門職は27かかった。したがって、8時間(480分)勤務の場合、AIのサポートなしだと、480/27=17.7枚の資料を作成できるのに対し、AIサポートありだと、480/17=28.3枚も作成できることになる。これは、(28.3-17.7)/17.7=59%の生産性向上だ。つまり、ChatGPTの利用者は、ChatGPTを利用しない人に比べて、少なくとも本研究のような文書だけを作成するのであれば、1日に59%も多くの文書を書くことができるということだ。この差は、標準偏差0.83の効果量に相当し、これは研究成果としては大きな発見であると考えられる。

アウトプットの量が増えても、その品質が低ければ役に立たない。しかし、第三者による評価でもそのようなことはなかった(評価者は、どの作成者がChatGPTの支援を受けていたかは知らなかったことを思い出してほしい)。今回の文書の品質の平均値は、7段階評価で、4.5AIあり)対3.8AIなし)となり、ChatGPTの支援を受けている作成者のほうがはるかに成績が良かった。そして、品質に関する効果量の標準偏差は0.45で、研究成果としては小効果と中効果の境界線上だった。(7段階評価は間隔尺度で、比率尺度ではないので、増加分をパーセンテージで計算することはできない。しかし、0.7の向上は、7段階での評価であることを考えると、良好な結果であることは間違いないだろう)。

このように、ChatGPTの最大の効果は生産性の向上であるが、品質の向上にも素晴らしい効果が見られた。そして、両者ともに統計的に極めて有意な差が認められた(両指標ともp=0.000)。こうした改善が、ほとんどの参加者がChatGPTの利用経験がないにもかかわらず、達成されたことを忘れてはならない。ユーザーがツールのより良い使い方を発見し、それに応じてワークスタイルを適応させるにつれて、長期的な向上は、さらにずっと大幅なものになる可能性が高いからだ(タスクとアーティファクトのサイクルと呼ばれるもので、新しいツールがもたらす最大の恩恵は、そのツールが提供する新しい機能に自分の働き方を適応させることでもたらされる。これは、既存のビジネスプロセスをそのまま自動化するやり方とは逆の発想だが、後者は最適ではないことが多い)。

ChatGPTでパフォーマンスが向上する理由

定量的な結果はこのくらいにしておこう。UXではよくあることだが、「何を」よりも「なぜ」について考えるほうが重要だ。さて、ではなぜ、専門職がChatGPTの助けを借りて文書を作成するとパフォーマンスが向上したのだろうか。今回の研究は、この疑問に対する答えを完全に満足させるものではない。おそらく、研究者がUXの専門家ではなく、生産性の研究に関心がある経済学者だったからだろう。しかし、彼らの研究からはいくつかの興味深い知見が得られた。

1つ目は、ChatGPTを利用することで、スキルの格差が軽減されたように思われることだ。AIを利用しないコントロールグループでは、参加者の2つのタスクのスコアは0.49とかなり相関があった(つまり、最初のタスクの成績が良い人は2番目のタスクの成績も良いことが多く、最初のタスクの成績が悪い人は2番目も悪い)。一方、AIを利用したグループでは、2つのタスクの成績間の相関は0.25とずっと低かった。この相関の低さは、最初のタスクの成績が悪かったユーザーのほうが、最初のタスクの成績が良かったユーザーよりも、ChatGPTにより多く助けられたということに主に起因している。

2つ目は、参加者は、ブレインストーミング、下書き、推敲という文書作成プロセスの3つのフェーズに対する時間配分を説明するように求められていたのだが、彼らの回答によると、ChatGPTを使うと時間の使い方が変化していた

1回目の文書作成(AIの支援なし)で、専門職たちは、ブレインストーミングに約25%、下書き作成に50%、そして、編集に25%の時間を費やして、最終的な成果物を完成させた。ChatGPTを利用することで、ブレインストーミングに費やす時間が少し短くなった可能性はある(ただし、その差は誤差の範囲内であり、信頼できるものではない)。下書き作成にかかる時間は、その作業の大半がChatGPTに委ねられたため、半分以下に短縮された。また、興味深いことに、原稿の推敲にかかる時間は約2倍になっている。

1つのステップが半分に短縮され、1つのステップが約2倍になったので、おあいこだと思うかもしれない。しかし、そうではない。もともと下書きは編集の時間の2倍かかっていたので、ここでの2倍の差は、絶対数としては編集よりも下書きのほうが大きくなる。これが、ChatGPTを使うと、全体的なタスク時間が短縮される理由である。編集に追加された時間よりも、下書きで節約できた時間のほうがずっと長いということだ。一方、最終的な成果物の編集に費やす時間が増えたことで、AIを利用したドキュメントの品質が高く評価されたとも考えられる。

上に述べたように、生産性と品質の向上は、専門職たちが初稿を作り出すための時間を減らして、最終的な成果物を磨き上げる時間を増やすように、時間配分を変更したことに起因していると思われる。この分析がより詳細な定性調査でも有効であれば、ChatGPTの主要な貢献は、ユーザーが下書きを作成する時間を大幅に削減できることであると考えていいだろう。

文書作成の3つの段階に費やされた平均時間(分)を示す棒グラフ:[1:Brainstorming]何を書くべきかを決める(研究者たちはこの段階を「ブレインストーミング」と呼んでいる)。[2:Drafting Text]初稿用の下書きを作成する。[3:Editing]この下書きを編集して、最終的に洗練された成果物を作成する。上の棒グラフはChatGPTを利用したユーザーが文書作成に費やした平均の時間を、下の棒グラフはAIの支援を受けずに通常の方法で文書を作成したユーザーの平均を示している。なお、2つの「ブレインストーミング」の推定所要時間の差は、統計的に有意ではない。
このグラフは、Noy and Zhang (2023) を再計算したデータに基づいている。

制限事項

実際の専門職が現実的なビジネスタスクにChatGPTを利用した、実証的なデータを提供してくれたNoyとZhangには拍手を送るべきだろう。これは、2022年11月のChatGPTの発表以来、ソーシャルメディアに溢れていた暴言や個人的な意見に比べると大きな進歩である。とはいえ、今回の研究には弱点もある。しかし、それはすべての研究に言えることであり、完璧な研究を待っていたのでは何も始まらないだろう。

今回の研究者たちは、さまざまな中級専門職が、現実的ではあるが、かなり短い文書を作成する場合について研究した(文書作成にかかった時間がAIのサポートなしでも平均27分だったことを思い出してほしい)。さまざまな職種の研究を行うことは素晴らしいことだ。1種類のユーザータイプに限定して研究するのに比べて、調査結果の一般化可能性が大幅に高まるからだ。それでも、AIが専門職に与える影響を十分に理解するには、経営幹部や上級エンジニア、医師などの上級専門職を含む、さまざまな領域やレベルにまたがるさらに幅広い職種のデータが求められる。あわせて、達成するのに数時間から数日かかる大規模なタスクも必要だ(もちろん、予算の都合上、初期段階の研究で、参加者に1つのタスクのために研究室で何日も過ごしてもらうようなことは不可能だ。しかし、こうした研究は他の分野では行われてきており、この分野でも実施する必要がある)。

すでに述べたように、今回の研究では、ユーザーの行動の詳細やそうした行動を取った理由についての定性的な知見はほとんどない。さらに、ユーザーの文書作成の各段階の時間配分の見積もりは、自己申告の数値に基づいたものだ。UX調査での自己申告データは信頼性が低いことがわかっている。したがって、今後の調査研究では、こうした数値はより慎重な方法で推定することが望ましいだろう。

結論

現在公開されているChatGPTなどの生成AIは、ときに偏りがあったり、誤りのある出力をすることで知られている。しかし、AIと熟練した人間の相乗効果は、その両方を凌駕することができる。AIについて議論するとき、また、業務にAIツールを導入するのか、そして、どのように導入するのかを検討するとき、いずれの場合も、AIと人間の専門職を連携させる方法を熱心に検討すべきだ。問題はAIが熟練した人間に取って代わるかどうかではないのだ。AIは、Doug Engelbartが高度なユーザーインタフェースの目標として描いたような、人間の知性を拡張するためのツールとして機能することができるからである。

参考文献

Shakked Noy and Whitney Zhang (2023): Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence, MIT Economics Department working paper. Retrieved March 13, 2023 from https://economics.mit.edu/sites/default/files/inline-files/Noy_Zhang_1_0.pdf