Как поменять дизайн ИИ чата, чтобы лучше находить его ошибки. Обзор исследований
Кажется, что в ИИ чатах интерфейс довольно вторичен: ты пишешь, модель тебе отвечает, особо больше ничего и не надо (если модель отвечает хорошо). Но интерфейс очень влияет на то, насколько правильное решение вы примете, и насколько легко будет найти ошибку модели. Я собрала несколько научных исследований, которые могут пригодиться тем, кто разрабатывает ИИ функции в своих продуктах.
Как правильно показывать источники в ИИ чате для создания осмысленных текстов
372 участника писали эссе на спорную политическую тему с помощью Perplexity.
У разных участников ссылки на источники отображались по-разному:
в выпадающем меню над ответами ИИ
прямо в ответе ИИ были сноски с всплывающими текстами
под текстом
на постоянно открытой боковой панели
0
Статья была полезной?
Комментарии (0)
Войдите или зарегистрируйтесь, чтобы оставить комментарий
Загрузка комментариев…
Я приложила график, где можно увидеть, какие действия люди чаще выполняли при разном дизайне. В общем:
в выпадающем меню над текстом пользователи проводили больше времени. Как только открыли, так и читают, но лишний раз не открывают
если нужно, чтобы пользователь проверял ссылку и продолжал писать, то лучше использовать сноски в тексте
боковая панель хорошо работает, когда источников много.
ссылки в футере оказались неэффективными
Удовлетворенность была одинаковой для всех интерфейсов, но те, кто использовал боковую панель, лучше ориентировались на данные, избегали подмены понятий, различали сильные и слабые источники.
Если вы предполагаете, что пользователи будут погружаться глубоко и им важно применять критическое мышление, то источники лучше размещать в боковой панели. Если не хотите прерывать поток, лучше использовать всплывающие подсказки непосредственно в тексте. В принципе, ничто не мешает сделать и то, и другое.
Надо отметить, что в последней версии Perplexity реализованы ссылки в тексте, а также боковая панель со ссылками по клику и постоянная вкладка со ссылками сверху. Это, на мой взгляд, логичный подход.
Как моделям ИИ сообщать о неуверенности для повышения качества решений?
50 студентов-будущих врачей распознавали рак кожи и пытались отличить его от обычных родинок.
ИИ предоставлял им подсказки в разных форматах:
Я уверен в ответе на 90%
Из 100 похожих случаев ИИ в среднем распознает 72 доброкачественных опухолей, и 51 из них окажется действительно доброкачественной
В первом формате эта информация вообще не влияла на изменение ответов, независимо от уровня уверенности (люди плохо воспринимают проценты). Однако второй вариант оказал некоторую степень влияния (разбег составил 6%).
Выводы: скорее всего, даже если вы заставите ИИ сообщать о своей неуверенности, это не поможет. Более эффективным будет предоставить примеры, например: «2 из 10 раз эта рекомендация окажется неверной». Влияние этого также наблюдается на общение с ИИ, в других статьях понимание при отображении в процентах снижается еще более значительно.
Как интерфейс может помочь снизить количество неправильных решений, если ИИ предлагает некорректные советы?
200 участников эксперимента должны были, глядя на изображение тарелки, выбрать продукт с наибольшим содержанием углеводов и определить, чем его можно заменить.
Пользователи находились в разных условиях:
видели подсказку ИИ сразу,
нажимали на кнопку, чтобы подсказка появилась
подсказка появлялась сама, но через 30 секунд
сначала нужно было сделать выбор самостоятельно, а затем увидеть результат ИИ и изменить его, если потребуется.
Если ИИ ошибается, то с первым интерфейсом люди дают 3% правильных ответов, а со вторым — 9%
Если ИИ ошибается, то с первым интерфейсом люди дают 3% правильных ответов, а со вторым — 9%
В 75% случаев ИИ был прав, и тогда все группы с ИИ показывали в два раза лучшие результаты по сравнению с группой без ИИ (17% против 34%).
Однако в 25% случаев ИИ ошибался. В таких случаях пользователи без ИИ давали 18% правильных ответов. Те, кто сразу видели подсказку ИИ, достигали лишь 3% верных ответов (!). А пользователи, которым подсказка не показывалась сразу и нужно было сначала подумать, достигли 9%.
Если ваш продукт связан с критически важными решениями (например, в медицине), то лучше не показывать подсказки ИИ по умолчанию, а сначала предложить пользователю самостоятельно подумать (перейти на систему 2 по Канеману). Хотя это не решает все проблемы, важно учитывать, что во всех интерфейсах, где ИИ был скрыт, наблюдалось меньше доверия и удовлетворенности у пользователей.
Как AI может визуально демонстрировать рассуждения, чтобы пользователь понимал процесс и мог находить ошибки?
Обычно промежуточные шаги рассуждения модели представлены просто в виде текста, иногда разбитого по шагам. Они могут помочь самой модели, но не особо подходят для человека, который хочет проследить процесс.
Экспериментаторы протестировали несколько форматов для отображения процесса рассуждения модели на выборке из 125 человек.
Участники решали 10 задач по математике на уровне 5 класса. В 9 из них допущены ошибки, и 1 была решена правильно; задача заключалась в том, чтобы найти, на каком шаге произошла ошибка модели.
Использовались 4 варианта:
простой текст с шагами
текст с подсветкой чисел
структурированный формат
графическое представление решения
Сверху виды объяснений, снизу формат чата с вопросом и ответом сбоку
Сверху виды объяснений, снизу формат чата с вопросом и ответом сбоку
Также проверялся формат, когда задача и ответ отображаются постоянно в боковой панели, в то время как рассуждения видны отдельно.
Быстрее и точнее всего пользователи находили ошибки, когда рассуждения были представлены в виде графа. По сравнению с обычным текстом, оказалось, что находить ошибки удавалось на 11% чаще (74% у текста и 86% в случае графа).
Мне очень понравились дизайнерские решения в этой статье! Понятно, что некоторые гуманитарные вопросы сложнее показать в этом формате, однако это все еще возможно. Также боковая панель с запросом — отличное решение.
Как отображение рассуждений модели влияет на качество понимания пользователем?
233 человека читали утверждения, в каждом из которых содержалось 3 факта, которые нужно было проверить по вики и определить, какой из них правдивый, а какой нет.
Пример: «Льюис Фридман, номинированный на две премии Эмми, ставил театральные шоу, получил Золотой глобус, а также написал документальные фильмы о Бобе Марли.
Интерфейсы, которые видели участники эксперимента
Интерфейсы, которые видели участники эксперимента
Интерфейсы у различных групп участников отличались:
обнаруживали совет ИИ (True/False) без дополнительных шагов
проверка разбивки на три шага и ответы ИИ по каждому шагу
выносили промежуточный вердикт по каждому под-факту, после чего видели ответ ИИ
то же самое, плюс оценивали, насколько каждый документ полезен
Интересно, что второй вариант, когда пользователь видел шаги и то, что ИИ проверил каждый шаг, оказался худшим по критическому мышлению. В этом случае пользователь чаще соглашался с ИИ и плохо удерживал свое решение, если ИИ ошибался.
Что касается общего результата, контрольная группа была точнее всех, опередив самый сложный интерфейс почти на 10 процентных пунктов.
Авторы отмечают, что это связано с тем, что пользователю приходилось делать в 3 раза больше решений, и они когнитивно уставали.
Выводы по интерфейсу ИИ и его влиянию на критическое мышление пользователей
Если вы просто покажете человеку готовый ответ, то он, скорее всего, не станет думать своей головой или критически решать задачу. Если показать ему ход рассуждений модели, это может повысить доверие, но вряд ли он найдет ошибку.
Если не показывать готовый ответ и требовать постоянного размышления и проверки промежуточных действий, это может привести к утомлению и ошибкам.
В заключение, если ваша платформа влияет на важные решения, лучше предложить пользователю принимать решения до получения ответа нейросети и проверять некоторые промежуточные утверждения, но не слишком часто. В случае развлекательного сервиса лучше показывать некоторые шаги рассуждений, желательно структурированно, а не в виде сплошного текста. Люди не будут читать длинные тексты, но доверие к решениям ИИ может возрасти.
Если у пользователя есть доступ к исходным данным — списку источников, первоначальному запросу, ответу (если он уже получен) — это облегчит отслеживание процесса рассуждения модели.
Как поменять дизайн ИИ чата, чтобы лучше находить его ошибки. | KtoHto
Комментарии (0)
Войдите или зарегистрируйтесь, чтобы оставить комментарий
Загрузка комментариев…