Вам предстоит определить, насколько правильно виртуальный голосовой помощник Алиса отвечает на запросы пользователей. Вы увидите отрывок диалога с Алисой и короткое описание действий помощника. Ваша задача — оценить осмысленность и уместность последнего ответа и действия Алисы в диалоге.

Есть всего три варианта оценки:

  1. правильный ответ,
  2. частично верный ответ,
  3. плохой ответ.

Параметры оценки

Верность сценария

Сперва нужно понять, верно ли ассистент распознал сценарий запроса. Сценарий — это общий тип запроса, предполагающий определённую схему ответа.

Примеры сценариев:

От сценария зависит форма ответа и выполняемое действие.

Сценарий зависит от контекста. Если контекст есть, его обязательно нужно учесть при оценке. Например, запрос «А в Питере?» может относиться к нескольким сценариям:

Соответствие запросу

Помимо верного сценария, ответ должен соответствовать запросу и в деталях.

Например, если пользователь просит включить конкретную песню, Алисе необходимо включить именно её. Если пользователь задаёт фактический вопрос, она должна дать верный ответ именно на этот запрос. Если пользователя интересует ближайший KFC, нужно найти ресторан именно этой сети, а не любой другой.

Интерфейс задания

В интерфейсе задания слева расположен скриншот с фрагментом диалога. Справа вверху находится поле «Действие». Под ним — набор переключателей с тремя вариантами оценки.

В поле «Действие» кратко описано, какое действие выполняет Алиса.

Оценки и примеры

1. Правильный ответ

Правильным считается ответ, в котором Алиса уместно отвечает на реплику пользователя и выполняет то, что от неё требовалось. Сценарий определён верно, ответ и/или действие полностью соответствуют запросу.

Если пользователь задал явно неоднозначный запрос, то для каждого из значений этого запроса будет свой правильный ответ. Например, на запрос «улица Сталеваров» правильным ответом будет и карта, и песня Валентина Стрыкало. Или если пользователь попросил включить музыку определённого жанра, а включился один трек этого жанра, то это тоже правильный ответ.

Отправление пользователя сразу в результаты поиска

Отрывок диалога с АлисойДействиеКомментарий
Открывается поиск по запросу <как разобрать стеклоподъемник урал кабина>Требуемую информацию можно найти в поиске, текст поискового запроса корректен
Открывается поиск по запросу <Продать машину в Саратове>Безусловно, можно открыть сайт или какое-то приложение, но поиск очень хорошо решает поставленную задачу
Открывается поиск по запросу <когда будет проходить выставка в манеже>Здесь нет особой разницы между тем, чтобы поискать в интернете, и тем, чтобы показать ответ на экране
Открывается поиск по запросу <ретро фм слушать>Здесь всё правильно, потому что Алиса открывает поиск, где можно найти сайт, на котором послушать эфир Ретро FM

Специальные действия по запросу пользователя

Открывается указанное приложениеСуществует приложение Acoola, которое Алиса нашла на телефоне пользователя и открыла
Открывается перевод (en-ru) текста <what is your name>Алиса может как сразу дать перевод, так и открыть приложение-переводчик
Открывается сайт https://play.google.comАлиса верно открывает сайт
Устанавливается будильник на указанное времяАлиса молча устанавливает будильник, что верно

Музыкальные запросы

Включается https://music.yandex.ru/genre/детская%20музыка в Яндекс.МузыкеВключается детская музыка, что в целом корректно
Включается музыка в Яндекс.Радио Непонятно, что именно хочет включить пользователь, однако ответ Алисы не противоречит запросу

2. Частично верный ответ

Частично верным считается ответ, в котором верно определён сценарий работы Алисы, но ответ и/или действие не соответствуют запросу в полной мере.

Например, если пользователь просит включить песню одного исполнителя, а включается песня другого. Если в режиме болтовни Алиса отвечает невпопад или грубо, это тоже частично верный ответ. Частично верным считается и открытие поиска по искажённым или неточным фразам. Например, пользователь спрашивает: «Покажи магазины окей», а Алиса считает слова «Покажи» и «окей» незначащими и отбрасывает их, открывая поиск по запросу «магазины».

Шаблонный ответ на непонятый вопрос

Отрывок диалога с АлисойДействиеКомментарий
Ответ показан на экранеАлиса не понимает, что ей говорят, и просто выдаёт одну из шаблонных фраз

Заведомо некорректный факт

Ответ показан на экранеИнформация не соответствует действительности, однако формат ответа корректен

Неуместные шутки в ответ на нормальный вопрос

Ответ показан на экранеОтвечать вопросом на вопрос невежливо, но тем не менее отвечать болтовнёй правильно в данном случае
Ответ показан на экранеВесьма спорный ответ, но, пожалуй, верно, что Алиса ответила болтовнёй

Неправильный поиск по запросу, не учитывающий контекст

Открывается поиск по запросу <сколько ему лет>Понятно, что хотели узнать возраст Месси, но не узнают. Вместо местоимения должен подставиться контекст, и в поиск должно отправиться <сколько Месси лет>
Ответ показан на экранеА здесь наоборот — контекст использован, но невпопад. Вместо «его» подставилось «Дмитрия Маликова», а вот слово «супруга» не учитывалось. Тем не менее формат ответа корректен
Открывается поиск по запросу <выступление>Пользователь хотел найти видео выступления Софии Фисенко, а не абстрактного выступления. Однако сценарий поиска определён верно, хотя и сам запрос в поиске будет некорректным

Неправильный поиск по запросу, связанный с обрезанием запроса

Открывается поиск по запросу <драйв>Пользователь искал каршеринг, однако слово «яндекс» было обрезано как незначимое. В итоге в поиске найдётся автомобильный журнал «Драйв», фильм и многое другое
Открывается поиск по запросу <песни группы>Результаты поиска никакого отношения к творчеству отечественной рок-группы не имеют. Однако в данном случае действительно нужно уйти в поиск

Музыкальные запросы

Частично верными будут ответы, в которых включается другая музыка, исполнитель вместо песни и наоборот.

Воспроизводится музыка в Яндекс.МузыкеВключается подборка песен с Евровидения 2018 года, а не 2019-го

Воспроизводится музыка в Яндекс.МузыкеВключается исполнитель, а не конкретная песня исполнителя, так что ответ частично верен

3. Плохой ответ

Плохим считается ответ, в котором неправильно определён сценарий.

Например, открывается поиск по запросу, предполагающему болтовню, либо включается музыка вместо отключения беззвучного режима или вместо скачивания музыки.

Нерелевантный ответ на непонятый вопрос

Отрывок диалога с АлисойДействиеКомментарий
Ответ показан на экранеАлиса явно не поняла запрос. Надо показать картинки, а не просто поздороваться
Ответ показан на экранеАлиса не понимает смысл фразы и пытается найти в поиске что-то по совпадающим словам. Это некорректно
Ответ показан на экранеАлиса не понимает, что от неё хотят, и не выполняет никаких действий

Сценарий не соответствует запросу, или действие ожидается, но не происходит

Болтовня или отправление в поиск вместо нужного действия; неверные специальные действия.

Ответ показан на экранеЗдесь Алису просят найти песню, а она отвечает общими словами, не отправляя в поиск и не показывая требуемого
Ответ показан на экранеНеобходимо изменить уровень громкости, однако действия не последовало. Сценарий определён неверно, и последовала болтовня
Ответ показан на экранеАлису просят включить мультики, а та отвечает болтовнёй — сценарий определён ошибочно
Ответ показан на экранеАлиса не даёт никакой информации, хотя могла бы поискать в интернете
Открывается поиск по запросу <мой мп 3 плеер>Здесь пользователь хочет открыть установленный у него плеер, а помощник отправляет запрос в поиск
Открывается поиск по запросу <сообщение которое приходит>Пользователь хочет посмотреть сообщения у себя на телефоне, а не искать это в Яндексе
Открывается приложение Яндекс.МузыкаЗдесь важно открыть сайт Зайцев.нет, однако просто включается музыка в приложении Яндекса

Отправление пользователя в результаты поиска вместо диалога

Иногда понятно, что пользователь хотел поговорить с Алисой, а она отправляет его в поиск.

Открывается поиск по запросу <ты умеешь ставить заметки>Здесь от Алисы требуется выдать на экране ответ о своих возможностях. Отправлять запрос в поиск в данном случае некорректно
Открывается поиск по запросу <люблю тебя>Здесь тоже не надо уходить в поиск, очевидно, пользователь хочет просто поговорить с Алисой

Неуместные шутки, когда требуется другой ответ

Ответ показан на экранеУ Алисы спросили про погоду на завтра, ожидая карточку с погодой, а не заранее заготовленный ответ
Ответ показан на экранеБыло бы лучше поискать в интернете. Ответ Алисы никак не поможет пользователю

Действие не соответствует запросу

Открывается сайт m.youtube.comЗдесь Алису просят показать фотографии, а открывается сайт исключительно с видеоконтентом