Как моделям ИИ сообщать о неуверенности для повышения качества решений?

50 студентов-будущих врачей распознавали рак кожи и пытались отличить его от обычных родинок. ИИ предоставлял им подсказки в разных форматах: Я уверен в ответе на 90% Из 100 похожих случаев ИИ в среднем распознает 72 доброкачественных опухолей, и 51 из них окажется действительно доброкачественной В первом формате эта информация вообще не влияла на изменение ответов, независимо от уровня уверенности (люди плохо воспринимают проценты). Однако второй вариант оказал некоторую степень влияния (разбег составил 6%). Выводы: скорее всего, даже если вы заставите ИИ сообщать о своей неуверенности, это не поможет. Более эффективным будет предоставить примеры, например: «2 из 10 раз эта рекомендация окажется неверной». Влияние этого также наблюдается на общение с ИИ, в других статьях понимание при отображении в процентах снижается еще более значительно. Источник исследования Как интерфейс может помочь снизить количество неправильных решений, если ИИ предлагает некорректные советы?200...

Как интерфейс может помочь снизить количество неправильных решений, если ИИ предлагает некорректные советы?

200 участников эксперимента должны были, глядя на изображение тарелки, выбрать продукт с наибольшим содержанием углеводов и определить, чем его можно заменить. Пользователи находились в разных условиях: видели подсказку ИИ сразу, нажимали на кнопку, чтобы подсказка появилась подсказка появлялась сама, но через 30 секунд сначала нужно было сделать выбор самостоятельно, а затем увидеть результат ИИ и изменить его, если потребуется. Если ИИ ошибается, то с первым интерфейсом люди дают 3% правильных ответов, а со вторым — 9% В 75% случаев ИИ был прав, и тогда все группы с ИИ показывали в два раза лучшие результаты по сравнению с группой без ИИ (17% против 34%). Однако в 25% случаев ИИ ошибался. В таких случаях пользователи без ИИ давали 18% правильных ответов. Те, кто сразу видели подсказку ИИ, достигали лишь 3% верных ответов (!). А пользователи, которым подсказка не показывалась сразу и нужно было сначала подумать, достигли 9%. Если ваш продукт связан с критически важными решениями...

Как AI может визуально демонстрировать рассуждения, чтобы пользователь понимал процесс и мог находить ошибки?

Обычно промежуточные шаги рассуждения модели представлены просто в виде текста, иногда разбитого по шагам. Они могут помочь самой модели, но не особо подходят для человека, который хочет проследить процесс. Экспериментаторы протестировали несколько форматов для отображения процесса рассуждения модели на выборке из 125 человек. Участники решали 10 задач по математике на уровне 5 класса. В 9 из них допущены ошибки, и 1 была решена правильно; задача заключалась в том, чтобы найти, на каком шаге произошла ошибка модели. Использовались 4 варианта: простой текст с шагами текст с подсветкой чисел структурированный формат графическое представление решения Сверху виды объяснений, снизу формат чата с вопросом и ответом сбоку Также проверялся формат, когда задача и ответ отображаются постоянно в боковой панели, в то время как рассуждения видны отдельно. Быстрее и точнее всего пользователи находили ошибки, когда рассуждения были представлены в виде графа. По сравнению с обычным текстом,...

Как отображение рассуждений модели влияет на качество понимания пользователем?

233 человека читали утверждения, в каждом из которых содержалось 3 факта, которые нужно было проверить по вики и определить, какой из них правдивый, а какой нет. Пример: «Льюис Фридман, номинированный на две премии Эмми, ставил театральные шоу, получил Золотой глобус, а также написал документальные фильмы о Бобе Марли. Интерфейсы, которые видели участники эксперимента Интерфейсы у различных групп участников отличались: обнаруживали совет ИИ (True/False) без дополнительных шагов проверка разбивки на три шага и ответы ИИ по каждому шагу выносили промежуточный вердикт по каждому под-факту, после чего видели ответ ИИ то же самое, плюс оценивали, насколько каждый документ полезен Интересно, что второй вариант, когда пользователь видел шаги и то, что ИИ проверил каждый шаг, оказался худшим по критическому мышлению. В этом случае пользователь чаще соглашался с ИИ и плохо удерживал свое решение, если ИИ ошибался. Что касается общего результата, контрольная группа была точнее всех, опередив...

Дизайн

Как поменять дизайн ИИ чата, чтобы лучше находить его ошибки.

Джексон Стей

1 час назад·6 мин читать

Кажется, что в ИИ чатах интерфейс довольно вторичен: ты пишешь, модель тебе отвечает, особо больше ничего и не надо (если модель отвечает хорошо). Но интерфейс очень влияет на то, насколько правильное решение вы примете, и насколько легко будет найти ошибку модели. Я собрала несколько научных исследований, которые могут пригодиться тем, кто разрабатывает ИИ функции в своих продуктах.