ヒューリスティック評価によるUI改善の効果について（日本大学との共同研究）

UX/UIデザインによるサービス改善の現場では「この施策により本当に改善効果が得られるのか？」という問いが常に付きまといます。
デザイン変更の判断がどうしてもプロジェクトメンバーの主観や感性の影響を受けてしまう一方で、その変更による効果を定量的に示す手段は限られています。

こうした課題に関する調査のひとつとして、私たちNCDCは2024年度に日本大学創生デザイン学科 UXデザイン研究室と共同で、「ヒューリスティック評価を用いたUX/UI改善による品質向上とその再現性を検証する」研究を行いました。

ヒューリスティック評価とは？
研究の概要
ヒューリスティック評価の実施
プロトタイプの制作
A/Bテストの実施
実験結果
サービス改善プロジェクトの現場に向けて

ヒューリスティック評価とは？

UX/UIデザイン改善を行う際には、ユーザーテストやA/Bテストなどを通じて改善の効果を検証するプロセスを取り入れるのが理想的ですが、実際にはそのための十分な時間も予算も取れないというプロジェクトが大半です。

そこで今回の研究では「ヒューリスティック評価」に注目しました。

ヒューリスティック評価とは、専門家が経験則（ヒューリスティックス）に基づいてユーザビリティを評価し、UI上の問題を発見する手法です。
ユーザーの協力を必要とするユーザビリティテストに比べて、短期間で、比較的コストを抑えて行えることが特長であり、先に挙げた「検証の十分な時間も予算も取れない」という課題があるプロジェクトではユーザビリティテストの代案のひとつとなるため、UI開発の際によく活用されています。

ヒューリスティックスとしては「ヤコブ・ニールセンのユーザビリティ10原則」（Jakob Nielsen’s 10 Usability Heuristics）が有名です。

ヤコブ・ニールセンによる10原則

システム状態の視認性
システムと実世界の一致
ユーザーの主導権と自由
一貫性と標準
エラーの予防
再生より再認
柔軟性と効率性
美的で最小限のデザイン
ユーザーによるエラーの認識・診断・回復のサポート
ヘルプとドキュメンテーション

上記のような「ヒューリスティクス」がよく用いられるのですが、これは評価のための具体的なルールが詳細に決められているものではないため、この手法による評価のプロセス自体もまた属人的になりがちという問題があります。

そこで今回の研究では「専門家ではない大学生が、ヒューリスティック評価を使って本当にサービスのUX/UIを改善できるのか？」という問いを立て、デザイナーのスキルに依存しない、一般的な評価分析プロセスによる改善効果の検証を試みました。

研究の概要

今回の研究では、以下のような流れで実験を進めました。

ヒューリスティック評価の実施
プロトタイプの制作
A/Bテストの実施
実験結果の評価

ヒューリスティック評価の実施

ある映画館のWebチケット予約サービスと大学の課題管理サービスを対象に、学生たちが評価を実施。ニールセンの10原則に従い、UI上の問題点を洗い出しました。

プロトタイプの制作

まず、ヒューリスティック評価で抽出された課題をもとに、各サービスのUI改善案（プロトタイプ）をFigmaで制作しました。実験での比較用に改善前のUIも同様にFigmaで再現し、同条件で改善前・改善後それぞれのUIを用意しました。

プロトタイプとは、完成されたサービスではなくその前段階の試作品のことです。
今回webシステムとして実装されたものではなく、主要な画面を模したデザイン画像により操作の仕方を確認できる簡単なプロトタイプを用意しました。

A/Bテストの実施

25名の被験者を対象にA/Bテストを行い、以下の指標について測定を行いました。

操作時間
タスク達成度
質問紙調査（SUS｛System Usability Scale｝、NASA-TLX｛主観的負荷｝）
視線トラッキング

なお、被験者には各自どちらか一方のプロトタイプのみを操作してもらうことで、「学習効果」が評価に影響しないように配慮しました。

A/Bテストとは、2つ（以上）の異なるパターンのデザイン等を用意して、どちらがデザイン面や機能面等で優れているかを調査する手法です。パターンA、パターンBを比較する場合、それぞれのパターンを異なる被験者に提示し操作してもらうことで、被験者が比較対象のパターンを重複して操作しないようにします。
SUSとNASA-TLXとは、アンケート調査により操作の疲労度やサービスの満足度などの主観評価を定量的に集計する手法です。

実験結果

	映画館のWebチケット予約	大学の課題管理1	大学の課題管理2
操作時間	改善後が全体平均で12.3秒短縮。１箇所で有意差のある改善（18.5秒）。	事前に習熟している学生グループで改善後の方が3.69秒遅延、NCDCグループは微改善。	改善後が8.83秒短縮。
タスク達成度	有意差無し	有意差無し	改善前で失敗あり
質問紙評価	有意差無し	有意差無し	有意差無し
視線	有意差無し	有意差無し	有意差無し

映画館のWebチケット予約のある改善箇所では、操作時間が18.5秒短縮され、有意差を確認できました。
また、全体の操作時間が10%程度短縮されました。

一方で、既存の課題管理システムの操作に慣れている学生にとっては、改善後のUIで操作時間がむしろ長くなるという結果も見られました。
このケースは特に興味深いもので、既存のUIに習熟しているユーザーに対して、改善（変更）を加えたUIを提供しても、必ずしも改善直後から良い結果をもたらすとは限らないことがわかります。
（もちろん時間をおいて、改善後のUIに習熟した頃に再度調査すれば、操作時間が短くなることはありえます）

サービス改善プロジェクトの現場に向けて

今回の検証では、映画館のWebチケット予約と大学の課題管理という2つのサービスに対して10箇所程度の改善を行った結果、1箇所の改善に対して操作時間による有意差が得られたました。
また、他の改善箇所に関しても有意差は得られなかったものの、傾向としては操作時間の短縮が見られました。

プロのデザイナーによる改善でなくてもこういった結果が観測されたということは、「ニールセンの10のヒューリスティクス」による評価プロセス自体にデザインを改善する効果があると考えられます。
ユーザーの協力を必要とするユーザビリティテストが行えない場合は、デザイナーが経験則に基づいて既存のUIを評価し、デザインの改善策を検討するプロセスには価値があると言えるのではないでしょうか。

NCDCでは今後もUX/UIデザインの効果を検証するための取り組みを続けていきたいと思います。
サービス・システムのデザイン改善に確かな改善品質を求めているご担当者の方は、ぜひお気軽にご相談ください。