形成的評価と総括的評価

形成的評価は、反復プロセスで製品化前の改善に利用される。総括的評価は、出荷された製品をベンチマークと比較して評価するために利用される。

我々はユーザーエクスペリエンスの仕事で、反復と評価を勧めているが、評価には形成的と総括的の2種類があり、デザインプロセスのどの段階にあるかで、どちらの評価をおこなうべきかは決まる。

形成的な評価では、デザインのどの側面が適切に機能し、あるいは機能しないのか、そして、その理由は何か、ということを特定することに重点を置く。この評価は、デザイン変更の全期間にわたって実施され、インタフェースを段階的に改善していくための情報を提供する。

たとえば、新たに全面的なデザイン変更をおこなうモバイルアプリのための登録エクスペリエンスをデザインしているとしよう。そのデザインプロセスでは、ソリューションをプロトタイプ化し、それを(通常は少数の)ユーザーでテストをして、そのソリューションがどの程度ユーザブルであるかを確認する。調査では、プロトタイプに関する問題が特定されるが、この問題は次のデザインで修正される。こうしたテストが形成的評価にあたる。インタフェースを改善するために何を変更する必要があるかをデザイナーが特定することの役に立つからだ。

インタフェースの形成的評価では、製品のテストと変更が不可欠だが、通常、それらは複数回おこなわれるため、デザイン変更のプロセスや新製品の開発に適しているのである。

どちらの場合も、製品化が可能な状態になるまで、プロトタイピングとテストのステップが反復されることになる。(さらに多くの反復をおこなえばデザインはより改善されるだろうが、どこかの段階で我々は製品を出荷する必要がある)。つまり、形成的評価は、デザインを正しい進路に導くためにある。

総括的な評価はデザインのパフォーマンスがどのくらいかを示すもので、多くの場合、旧バージョンのデザインや競合製品などのベンチマークと比較しておこなわれる。デザインプロセスへの情報提供を目的とする形成的評価とは異なり、総括的評価では、全体像を把握し、完成品のエクスペリエンス全体を評価する必要がある。総括的評価は形成的評価よりも実施される回数が少なく、通常はデザイン変更の直前または直後におこなわれる。

では、モバイルアプリの例に戻ろう。新しいモバイルアプリを出荷したので、調査をおこなって、我々のアプリが旧バージョンと比較してどのくらい有効かを確認することにしよう。それには、まず、アプリのコア機能に関するタスク時間と成功率を収集する。そして、こうした指標を旧バージョンで得た指標と比較し、改善されているかどうかを確認すればよい。さらに、調査の結果は、このアプリの後続のメジャーバージョンの評価のために保存しておこう。この種の調査を総括的評価という。経時的にパフォーマンスを追跡し、最終的には投資収益率(ROI)をはじき出すことを目的として、出荷された製品の評価をおこなうからだ。ただし、この調査を通して、ユーザビリティの課題が発見されることもある。こうした課題については書き留めておいて、次のデザイン反復で対処する必要がある。

あるいは、調査結果を1つまたは複数の競合アプリで得た結果や既知の業界全体のデータと比較するタイプの総括的評価もある。

いずれにしても、総括的評価はシステムのユーザビリティの概要を描き出すものだ。そして、デザインが経時的に改善しているか、あるいは競合製品を打ち負かしているか、ということを判断できる基準点として機能することを目的としている。

総括的評価の究極が、製品をリリースするかどうかのGo/No-Go判断(:決定か中止かの判断)だ。結局のところ、そのデザインは一般の人々に提供するのに十分か、それとも、ブランドにひどい損害を与えそうなので出荷すべきではないのか、ということである。良くないデザインをつぶすための正式なプロセスがある企業は、実際にはまれだ。そのことが、利益以上にブランドに害をもたらすリリースに多く出くわす理由ではないだろうか。デジタル時代において、ブランドとはエクスペリエンスである、という我々の提案を真に受け入れるのなら、リリース前に最終の総括的評価をおこなうことを検討してみてほしい。

用語の由来

「形成的」(formative)および「総括的」(summative)評価という用語は、1967年にMichael Scrivenによって作られた。この用語はインストラクショナルデザイン(:効果的な学習環境の設計)と教育理論の分野で提示されたものだが、評価をベースにするあらゆる業界にとっても同様に価値がある。

教育の分野では、形成的評価というのは、カリキュラムが進む間、継続してずっとおこなわれる。それに対して、総括的評価はおこなわれる回数が少なく、そのカリキュラムが意図した目標を達成したかどうかを判断するために利用される。形成的評価は、授業の方向を決めるために利用されるが、授業の内容が理解されているか、それとももう一度その内容を授業で取り上げる必要があるかをテストによって評価する。一方、総括的評価は、学生の教材の習熟度を評価する。

それぞれの評価を利用するタイミング

形成的評価と総括的評価はデザインプロセスの段階に対応している、ということを思い出そう。形成的評価では、デザイン変更プロジェクト全体を通して、プロトタイプ作成とテストを反復することになる。一方、総括的評価の最適なタイミングは大規模なデザイン変更の直前または直後である。

優秀なリサーチャーは、どんな調査課題に答えようとしているのかを明確にするところから調査を始める。基本的に、調査課題によって評価の種類は決まる。以下は、可能性のある調査課題とそれに対応する評価のリストである。そのため、この表は説明のためのもので、規範を示しているわけではない。

 

可能性のある調査課題 評価の種類
競合製品と比較して、インタフェースのパフォーマンスはどうか 総括的
インタフェースにどのようなユーザビリティの問題があるか 形成的、総括的
インタフェースは業界のベンチマークと比べてどうか 総括的
ユーザーはナビゲーションを理解しているか 形成的
全体的なエクスペリエンスはどのように経時的に変化したか 総括的
インタフェースは広く認められているユーザビリティの原則に準拠しているか 形成的
この製品は発売するのに十分か(Go/No-Go判断) 総括的

形成的評価と総括的評価の調査手法

どの種類の評価を実施するかが明確になったら、どの調査手法を利用するかを決定する必要がある。総括的評価なら定量的手法だし、形成的評価なら定性的だろう、と勘違いしているは多い。しかし、そうではない。

総括的評価は、定性的なこともあれば、定量的なこともある。そして、同じことは形成的評価にも当てはまる。

総括的評価は、定量的であることが多いが、定性的な調査になる場合もある。たとえば、競合製品と比較しての自社製品の位置付けを知りたいこともあるだろう。それには、UXエキスパートを雇って、自社と競合製品のインタフェースについてのエキスパートレビューをおこなえばよい。エキスパートレビューでは、10のユーザビリティヒューリスティックスと、UIと人間の行動に関するレビュー担当者の知識を利用して、自社と競合製品のインタフェースの両方の長所と短所のリストを作成する。この調査は総括的なものだ。なぜならば、製品のUXが競合製品と互角に戦えるかということと、大規模なデザイン変更が必要かどうかを知ることを目的として、インタフェース全体を評価するからだ。

また、形成的な評価は、多くの場合、定性的だが(形成的な評価は長期にわたって継続して実行することが望ましいので、安価な定性調査を毎回利用することは経済的に理にかなっている)、常にそうであるとも限らない。しかし、UX予算がたっぷりあり、UXの成熟度が高い大企業が、形成的フィードバックを得る目的で、重要な機能の1つに対する変更が適切におこなわれるように、定量的な調査を実施することもある。たとえば、ホームページの新しいデザインの公開前に、大きな企業はプロトタイプの定量的テストを実行して、ファーストビューより下までスクロールするユーザーが十分にいることを確認するとよい。

結論

形成的評価と総括的評価は異なる調査目標に対応している。形成的評価は、最終製品のユーザーエクスペリエンスが満足のいくものになるように、デザインを正しい進路に導くためにある。したがって、ユーザー中心の反復的なデザインプロセスでは、おこなわれてしかるべきである。一方、総括的評価は、製品の全体的なユーザビリティを対象としていて、経時的にユーザビリティを追跡し、競合製品と比較するのに役立つ存在なのである。

形成的評価と総括的評価について、さらに詳しくは、「Usability Testing」や「Measuring UX and ROI」などの我々のトレーニングコースをチェックしてほしい。

参考文献

Greenstein, Laura. What Teachers Really Need to Know About Formative Assessment. ASCD, 2010.