AIでシミュレーションした行動の評価:
デジタルツインと合成ユーザーに関する3つの研究からの知見
AIでシミュレーションしたユーザーは、欠損データを補い、母集団レベルの傾向を予測できる。また、豊富なコンテキスト情報に基づいているほうが、より高いパフォーマンスを発揮する。
AI駆動型モデルは、ユーザー調査において、実際の人間の代わりになりうるだろうか。デジタルツイン(個々のユーザーをシミュレートするようにデザインされた生成AIモデル)と合成ユーザー(広範なユーザー集団を模倣するモデル)が、実際の人間の反応を再現できるかどうかを探る研究が増えている。UXにおいて、これらの技術は、調査の規模拡大、欠損部分の補完、そして、これらの技術がなければ実施に時間や費用がかかりすぎる調査の実施に向けて、わくわくするような可能性をもたらす。
この記事では、デジタルツインと合成ユーザーをテストした最近の3つの研究について検討する。そうしたモデルがどのように構築され、どのような種類のタスクを実行し、その結果が実際の人間のデータとどの程度一致していたかをレビューする。
結論から言うと
各研究の詳細までは興味がない人のために、以下に主な結果をまとめた。
- デジタルツインは、個人レベルと集団レベルの両方で、人間の反応を再現する上でかなりうまく機能する。回答が不完全なアンケートで欠けている回答を補うことができ、以前のアンケートには含まれていなかった質問への回答も比較的高い精度で後から補完できるため、調査からの脱落を減らす上で有望であることが示されている。豊富なインタビューデータに基づいている場合には、さまざまな古典的なアンケート設問や経済行動ゲームにおける人間の反応や行動も正しく予測できる。
- インタビューに基づくシミュレーションユーザーは、人口統計情報のみ、またはユーザーについてのペルソナのような記述のみに基づく合成ユーザーよりも、人間のより正確なモデルを生み出すように見える。おそらく、より豊富で、よりニュアンスに富むデータを取り込めるためである。
- デジタルツインにはバイアスがある。その人の社会経済階層、人種、または政治的見解によっては、デジタルツインは精度が低くなることがある。たとえば、ある研究によると、デジタルツインは白人の反応を予測するほうが、他の人種の反応を予測するよりも得意だった。ただし、ツインが豊富なインタビューデータに基づいて構築されている場合には、バイアスが軽減される可能性がある。
- 合成ユーザーは、それほど目覚ましい結果を出しているわけではない。人間の行動の傾向はとらえられるかもしれないが、人間のデータに見られる効果の大きさやばらつきは反映できないかもしれない。
- AIベースのモデルの構築に用いられる方法は、その性能に大きく影響しうる。心強いことに、最も単純な方法(充実したインタビューデータでLLMのプロンプトを拡張する)が最良の結果をもたらすようだ。
研究1:アンケートに基づいてファインチューニングしたデジタルツイン
2024年のJunsol KimとByungkyu Leeによる研究では、アンケートベースの調査でよく見られるいくつかの問題に対処するために、デジタルツインをどのように活用できるかが検討された。研究者たちは、General Social Survey (GSS)(総合的社会調査)を利用した。これは、1972年以来、約69,000人の成人から3,100問を超える設問に対する回答を収集してきた、米国の長期調査プログラムである。彼らは、この充実したコーパスを用いて大規模言語モデル(LLM)をファインチューニングした。このプロセスを通して、単語同士の一般的な意味の近さだけでなく、設問同士、個人同士、時期同士の、それぞれの類似性も考慮するようにそのモデルを再訓練した。
モデルを評価するために、KimとLeeはアンケートデータを訓練用データセットとテスト用データセットに分割した。彼らはアンケートデータの10%を取り分け、その1人1人のデータを対応するデジタルツインが予測したデータと直接比較した。さらに、欠損データの予測と新たな質問への回答の予測という2種類のタスクでデジタルツインをテストした。
欠損データ
アンケートの回答は不完全であることが多い。特にアンケートが長いと、回答者は質問を飛ばしたり、完了する前に途中でやめたりする。こうした欠けているデータは、正確な統計分析を行うことを困難にする。
長期的なアンケート調査(何年にもわたって複数回実施されるもの)に関連する課題にバックフィルがある。これは、過去のアンケートでは尋ねなかった質問にその人がどう答えたかを推測することである。たとえば、あるリサーチャーは、ユーザーが自分の携帯電話上でタスクを完了するようになった時期を知りたいのに、その質問はそのアンケートの最近の回にしか入っていなかった。
新たな質問
アンケートを実施した後で、リサーチャーが関連する質問を入れ忘れていたことに気づき、アンケート回答者がその質問にどう答えただろうと考える場合がある。
個人レベルの反応の予測
KimとLeeは、デジタルツインが、欠損データとバックフィルについて、78%というかなり高い精度を達成できることを明らかにした。つまり、このモデルは、ある特定の参加者が飛ばした質問や、過去のアンケートで一度も尋ねられたことのない質問に、その人がどのように答えるかをうまく推定できたということだ。こうした高い精度から、デジタルツインは、調査脱落の軽減や長期にわたるデータセットの補完に特に価値があると考えられる。
しかし、まったく新しい質問(訓練データに含まれていない質問)に、ある人がどのように答えるかを予測するよう求められたとき、デジタルツインの精度は低くなった(67%)。この精度低下からわかることは、少なくともKimとLeeが用いたファインチューニング手法で構築されたデジタルツインには、1つの重要な限界があるということだ。すなわち、デジタルツインは、回答者の他の回答に基づいて、既知の質問セット内での推論(補間)はできるが、学習したコンテキストを超えた推論(補外)には苦戦する可能性があるということだ。
母集団レベルの傾向の予測
KimとLeeは、母集団全体の傾向を把握するために、デジタルツインから得られた個人データを集計した(その際、アンケート回答者の人口統計構成が全体の標本抽出枠に沿うように考慮した)。彼らは、デジタルツインのデータから得られた母集団レベルの指標(たとえば、ある特定の回答を選んだ回答者の割合など)が、人間のデータの対応する指標とどの程度相関しているかを調べた。その結果、デジタルツインを欠損データの補完とバックフィルの両方に用いた場合には高い相関(r=0.98)が見られたが、デジタルツインを新たな質問への回答の予測に用いた場合には、相関は低くなった(r=0.68)。
サブグループごとの差異
デジタルツインは、社会経済的地位が高い個人(収入と教育の両面で)と白人(他の人種集団と比べた場合)の反応を予測することに優れていた。こうした不均衡からは、公平性と代表性に関する疑問が生じる。すなわち、デジタルツインの精度が社会的に不利な立場に置かれやすい集団に対してより低いのであれば、その利用は既存のバイアスを意図せず強化する恐れがある。
コンテキストサイズの影響
KimとLeeはまた、妥当な精度を得るために、ファインチューニングの段階でモデルにどれだけのコンテキストデータを含める必要があるかも調べた。特に欠損データを予測するタスクでは、利用可能な訓練コーパスの40%を削除しても、デジタルツインの精度はかなり高いままであることが明らかになった。この結果は、調査脱落に大きな意味を持つ。参加者には多くの質問を含むアンケートの中の一部の質問に回答してもらい、残りの質問への回答の推定にはデジタルツインを用いることができるかもしれないということだからだ。
研究2:インタビューに基づくデジタルツイン
StanfordとGoogleのチームは、別のアプローチを取った。彼らは、米国の成人1,052人を対象にAIによる2時間のインタビューを実施し、その結果得られた発言録を用いて、各個人のデジタルツインを構築した。そして、人間の参加者とデジタルツインの両方に、以下のような広範なテストを受けさせ、その結果を基にデジタルツインのパフォーマンスを評価した。
- GSSの調査質問の一部
- Big-Five Personality Inventory(主要5因子パーソナリティ検査/5つの広範なパーソナリティ次元を測定する50問の調査)
- 経済行動に関する5つのよく知られているゲーム(独裁者ゲームや囚人のジレンマなど)
- 5つの社会科学実験
(人間は毎回まったく同じ回答をするわけではないため、参加者には2週間後に同じ調査と実験をもう一度受けてもらった)
AIベースのデジタルツインの回答は、参加者の2回のテストで見られた回答の揺れを調整した上で、人間のデータと比較された。
KimとLeeが用いた手の込んだファインチューニング手法とは異なり、Stanfordの研究者たちは、プロンプト拡張を用いて、いわば各参加者ごとに1つの「モデル」を作成した。個人の応答を模倣するために、その人のインタビューをプロンプトに追加し、参加者が行うタスクが複数ステップから成る場合には、エージェントがそれ以前に返した応答もプロンプトに含めた(これは、ChatGPTのようなモデルと会話するという考え方に近い)。
また、予測精度のうちどの程度がインタビューによるものなのかを把握するために、研究チームは、比較用として、より単純な2種類のモデルも作成した:
- 人口統計情報に基づくモデル。年齢、性別、人種、政治的イデオロギーに関する質問への参加者の回答に基づくモデル(このモデルが、典型的な合成ユーザーに相当する)
- ペルソナに基づくモデル。インタビュー後に参加者が自分自身について書いた短い文章に基づくモデル(このモデルは、合成ユーザーとデジタルツインの中間に位置する)
個人レベルのデータの予測
以下の表は、各タイプのモデルが3種類のタスクでどのような精度を示したかの要約である。
| タスク | インタビューに基づくツイン | ペルソナに基づくモデル | 人口統計情報に基づくモデル |
|---|---|---|---|
| GSSの質問 | 0.85 | 0.70 | 0.71 |
| Big-Five Personality Inventory | 0.80 | 0.75 | 0.55 |
| 経済ゲーム | 0.66 | 0.66 | 0.66 |
インタビューに基づくツインは、調査タスクで80%を超える驚くべき精度を達成し、ペルソナに基づくモデルと人口統計情報に基づくモデルの両方を一貫して上回った。特に、それはGSSとBig-Five Personality Inventoryで顕著だった。興味深いことに、意思決定を伴う経済ゲームでは、すべてのモデルが同程度の結果を示しており、少なくともある種の行動シミュレーションでは、インタビューのコンテキストはそれほど重要ではない可能性を示唆している。
短く切り詰めたトランスクリプト(80%短縮)やAIが生成した要約でも、高い精度(0.79~0.83)を維持していた。これは、こうしたインタビューに基づくデジタルツインの予測力の多くが、一語一句そのままではなく、参加者の回答に見られる中核的なテーマやパターンに由来していることを示唆している。この発見はとりわけ心強い。インタビューが短かったり、要約されたものであっても、妥当な精度のモデルを構築するには十分である可能性を示しているからだ。
母集団レベルの効果の予測
人間とデジタルツインは、大規模な再現研究の一部である既存の5つの古典的な社会科学実験にも参加した。研究者たちは、各研究で記述されている元の統計手法を用いて分析したときに、AIが生成したデジタルツインのデータが人間の参加者から得られた実際のデータと同じ結論を示すかどうかを評価した。
ツインのデータと人間のデータは著しく類似していた。すなわち、5つの実験のうちの4つが、両方の種類のデータで首尾よく再現された。一方、ツインも人間も、5つ目の実験は再現できなかった。さらに、デジタルツインのデータから報告された効果量は、人間のデータから報告された効果量と、ほぼ完全な相関(r = 0.98)を示した。これは、デジタルツインが、個人に関する豊富なコンテキストを含むプロンプトを提示されると、個人の行動だけでなく、母集団レベルのパターンや研究結果も正確に反映できることを示唆している。つまり、デジタルツインは、個々のユーザーの反応をシミュレートするだけでなく、ユーザーベース全体にわたる態度、選好、行動のより広いパターンを探る上でも有望かもしれないということだ。
インタビューはバイアスを減らす
バイアスは、人口統計学的パリティ差と呼ばれる指標を用いて測定された。この指標は、モデルの精度が最も高かったグループと最も低かったグループの間で、モデルのパフォーマンスがどの程度異なるかを定量化するものだ。差が大きいほどバイアスが強く、数値が小さいほど結果がより公正であることを示す。
研究者たちは、この指標を、アンケート調査、パーソナリティ予測、経済ゲームなどのタスクに適用し、政治と人種の側面での公正さを評価した。
その結果、政治的イデオロギーおよび人種で分類したグループにおいて、インタビューに基づくツインは人口統計情報に基づくモデルよりも有意に低いバイアスを示した。たとえば、人口統計情報に基づくモデルと比べて、タスクに応じて、政治的バイアスは36〜62%減少し、人種的バイアスは7〜38%の減少を示した。
| 政治的イデオロギーのバイアス | インタビューに基づくツイン | 人口統計情報に基づくモデル | 変化率 |
|---|---|---|---|
| GSS | 0.079 | 0.124 | 36% |
| Big-Five Personality Inventory(相関係数) | 0.063 | 0.175 | 62% |
| 経済ゲーム | 0.190 | 0.500 | 62% |
| 人種的バイアス | インタビューに基づくツイン | 人口統計情報に基づくモデル | 変化率 |
|---|---|---|---|
| GSS | 0.020 | 0.033 | 38% |
| Big-Five Personality Inventory(相関係数) | 0.110 | 0.170 | 35% |
| 経済ゲーム | 0.040 | 0.043 | 7% |
これらの改善は、より豊富で、より個人的なコンテキスト(詳細なインタビューのようなもの)が、デジタルツインがユーザー集団の多様性をよりよく反映した応答を生成するのに役立ちうることを示している。これは、インタビューに基づくモデルが、人口統計情報のみに基づくモデリング手法に代わる、より包摂的で信頼できる選択肢となりうることを意味する。
研究3:合成ユーザー
University of Wisconsin-MadisonのNeeraj Aroraらによる研究では、LLMでマーケティング調査を支援する方法が検討された。彼らが調べた具体的なユースケースの1つは、母集団レベルの予測を行うために合成ユーザーを用いることだった。このアプローチでは、個人をモデル化するのではなく、対象母集団を反映した人口統計プロファイルを持つ、AIベースの合成ユーザーの大きな集団を生成する。次に、研究者たちは母集団レベルでの予測に注目した。つまり、これらの合成ユーザーから集約した回答が、実際の人間の参加者の回答とどの程度一致するかを分析したのである。
(Aroraの論文は、質的な合成データと量的な合成データの両方に加え、マーケティングにおける主題分析とAIによる進行も扱っているが、この記事では、合成された量的データに関する結果だけに焦点を当てる)
研究者たちが用いたのは、回答者605人の冷蔵ドッグフードの魅力に関するマーケティング調査データだった。回答者は、その製品が自分にとってどの程度ユニークで好ましいか、またどの程度購入しそうかを、5段階尺度で評価している。製品の具体的な属性(たとえば、利便性、健康への配慮、品質)も5段階尺度で評価し、購入頻度も答えていた。
性別、年齢、所得、都市部居住かどうか、教育、民族的背景の分布が回答者と一致するように、605人の合成ユーザーが生成された。次に、人間と合成ユーザーそれぞれの集約されたデータが比較された。
製品に関する態度データを予測する
合成データは人間データの傾向に沿っていたが、評価の度合いには有意な差があった
全体として、合成ユーザーも人間も、その製品を購入する可能性はかなり低く、その製品に対して比較的否定的な態度を示していた。しかし、全般に人間のほうが合成ユーザーよりも肯定的だった。たとえば、人間のほうが購入する可能性が有意に高く(1が低い5段階尺度で、人間は1.66、合成ユーザーは1.58)、その製品を有意により好ましいと評価した。しかし、合成ユーザーは人間よりもその製品をよりユニークだととらえていた。
| 製品評価 | 人間のユーザー | 合成ユーザー |
|---|---|---|
| 購入する可能性はどの程度あるか | 1.66 | 1.58* |
| その製品をどの程度好ましいと思うか | 1.43 | 1.4* |
| その製品をどの程度ユニークだと思うか | 2.12 | 2.48* |
ただし、これらの差はすべて統計的に有意ではあるものの、その差は多くの指標で比較的小さいことに注意してほしい。つまり、合成ユーザーは人間の回答を完全には再現していないが、人間との差は十分に小さく、方向性の正確さという点では、探索的調査や初期段階のテストでなお有用である可能性がある。しかし、リサーチャーは、特に重大な意思決定を行う場合には、合成データに依拠することには引き続き慎重であるべきである。
合成データはばらつきが小さかった
もう1つの注目すべき違いは、合成データの標準偏差が人間データの標準偏差よりも一貫して低いことだ。これは、合成ユーザーの回答のほうが平均的な回答の周辺に集中し、実際のユーザーよりも意見の多様性が小さい傾向があることを意味する。このばらつきの小ささは、たとえば、エッジケースを特定したり、二極化した意見を検出したりするような、ユーザーの行動や態度の全体的な幅をとらえることが不可欠な場合には問題になりうる。UX調査では、ばらつきは単なるノイズではない。デザインの選択に影響しうる、意味のあるサブグループを明らかにする可能性がある。
研究者たちは、モデルに与えるコンテキストを充実させることで、回答のばらつきをある程度増やすことができた。彼らは、過去の会話に関するモデルの記憶を強化することと、特定の領域に関する知識を利用できるようにすることという2つの方法を採用した。
より現実的な会話の流れをシミュレートするために、彼らは、前の質問と、それに対するモデルのそれまでの応答をプロンプトに含めた。このアプローチにより、特定の回答者として振る舞うときに、モデルは自分の以前の回答を「覚えて」いられるようになり、タスクをまたいでも、その振る舞いはより一貫し、個々の回答者に応じたものとなった。
その分野に関する知識を補うために、チームは検索拡張生成(RAG)の手法を適用した。具体的には、ペット製品に対する態度について語る16人の実際のペット所有者のインタビュー記録からなる外部データセットに、モデルがアクセスできるようにした。この追加コンテキストは、合成ユーザーがよりニュアンスに富み、より多様な応答を生成するのに役立った。
研究結果の要約
デジタルツインと合成ユーザーは、行動科学とUXにおける有望な新しいツールである。今回、レビューした3つの研究からは以下のことが示された:
- 特定の領域に特化した大規模なデータセットで学習させたデジタルツインは、調査における個々の欠損データや過去の回答を正確に補完することができる。これは、回答者が長いアンケート調査を途中でやめてしまうという調査脱落の問題に対し、アンケート調査のリサーチャーが妥当な解決策をついに得られる可能性を示している。
- LLMのプロンプトを豊富なインタビューデータで拡張して構築すると、デジタルツインは人間のデータを個人レベルでも母集団レベルでも高い精度で予測できる。印象的なのは、デジタルツインを構築する最も単純な手法が最良の結果を生み出しているように見えることである。
- 合成ユーザーは人間の行動の大まかな傾向はとらえるが、効果の大きさや人間のデータのばらつきはとらえられない。ただし、モデルに多くのコンテキスト情報を追加することで、この点はある程度は改善する可能性がある。
- 個人ごとの具体的なデータに基づいて構築されたデジタルツイン(研究1および2のようなもの)は、特定のユーザーグループの一般的な属性だけに基づいて構築された合成ユーザー(研究3のようなもの)よりも、母集団レベルの行動をうまくとらえられるように見える。
- デジタルツインと合成ユーザーは、どちらもバイアスの影響を受けやすい。ただし、十分なインタビューデータに基づくツインでは、こうしたバイアスを克服できる可能性がある。
これらの結果は、デジタルツインと合成ユーザーが連続的な関係にあるという考えを補強している。合成ユーザーで用いられるような一般的な人口統計情報やペルソナ的な情報だけに基づくモデルは、より詳しいコンテキストで強化されたモデルに比べて、成績が劣る傾向がある。そうした詳しいコンテキストとは、デジタルツインのように個人に合わせて調整されたものである場合もあれば、RAGベースの手法で強化された合成ユーザーのように詳細な特定分野の知識に根ざしたものである場合もある。
限界と倫理上の問題
しかし、AIが生成した人間モデルは万能薬ではない。その精度は、対象となる人口統計グループ、タスク、コンテキスト情報、そしてモデルを構築するために用いられる具体的な手法に依存する。実際の次のステップとして、このアプローチの検討に関心のあるUXチームは、調査履歴やユーザーインタビューのような、すでに収集しているデータの豊富なタッチポイントを特定することから始め、プロンプト拡張型やRAGベースのデジタルツインを試してから、より多くのリソースを要するファインチューニングに投資するべきである。
そうは言っても、デジタルツインのリアリズムと予測力の高まりは、リサーチャーとデザイナーが見落としてはならない倫理的な問いを提起する。すなわち、こうしたAIが生成した代理モデルが、より正確でよりリアルになるにつれて、それらがどのように構築され、どのデータが使われ、参加者が自分のデータがこのようなかたちで転用されることについて十分な情報に基づき同意しているかどうかを確認することが、ますます重要になる。また、デジタルツインが想定された範囲を超えて用いられることで、それらがシミュレーションの対象となった個人に対する誤った描写や不当な偏見、自己決定権の喪失を招く恐れもある。これらの問題は、デジタルツインがどのようにデザインされるかだけでなく、それらがどのように伝えられ、導入され、管理されるかにおいても、UXチームの先回りした注意を必要とする。
同様に重要なのは、デジタルツインは人間中心の調査に取って代わるものではなく、人間中心の調査を補完すべきものであるという認識である(実際、上で強調したように、成功したデジタルツインは豊富な「人間データ」に基づいて構築される)。デジタルツインは、UX手法の適用範囲を広げ、データのギャップを埋めることはできるが、実際のユーザーのニュアンス、実生活での経験、予測不能性を完全にとらえることはできない。モデルを検証し、新たな行動を明らかにし、調査を倫理的にもコンテキストの面でも整合性が取れているようにするには、人間の参加者との継続的な関わりが引き続き不可欠なのである。
参考文献
Neeraj Arora, Ishita Chakraborty, and Yohei Nishimura (2025). AI–Human Hybrids for Marketing Research: Leveraging Large Language Models (LLMs) as Collaborators. Journal of Marketing, 2025, Vol. 89(2) 43-70.
Junsol Kim and Byungkyu Lee (2024). AI-Augmented Surveys: Leveraging Large Language Models and Surveys for Opinion Prediction. arxiv.org, https://arxiv.org/abs/2305.09620.
Joon Sung Park, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, Michael S. Bernstein. Generative Agent Simulations of 1,000 People. arxiv.org, https://arxiv.org/ abs/2411.10109.
記事で述べられている意見・見解は執筆者等のものであり、株式会社イードの公式な立場・方針を示すものではありません。