В задании нужно оценить корректность ответа и действия голосового помощника Алисы в ответ на некоторый запрос пользователя

Яндекс.Станция - "умная колонка" со встроенным голосовым помощником Алисой. Она может разговаривать с пользователем, сообщать пользователю о прогнозе погоды, назвать балл пробок, установить будильник или таймер, прочитать новости, рассказать сказку и др. Чаще всего Станцию используют для прослушивания музыки: Алиса может самостоятельно проигрывать выбранную музыку, пользователь может управлять голосом воспроизведением. Кроме того, колонку можно подключить к телевизору и использовать для поиска и просмотра фильмов, причём Алиса сама находит кино и сериалы с хорошим качеством, может посоветовать, что посмотреть. В задании будет дана реплика пользователя, ответ Станции на которую необходимо оценить (с ответом Алисы и/или действием), а также состояние устройства на момент начала этого запроса, а также предыдущая реплика пользователя (с ответом Алисы и/или действием), чтобы лучше понимать контекст (по умолчанию она скрыта, для раскрытия нужно нажать на стрелочку, в случае, если запрос пользователя без контекста непонятен).

Экраны Станции

Опишем основные экраны, которые может отображать Станция при подключении к телевизору.
1. Домашний экран. На него обычно переходят командой «домой». Отображает последние просмотренные видео и прослушанную музыку, показывает время, температуру, и прочие полезные мелочи.

2. Галереи фильмов, сериалов, и видеороликов. На них переходят с домашнего (или любого другого) экрана командами типа «Порекомендуй сериал», «Покажи фильм про Гарри Поттера», «Найди видео Дудя в сети», и т.п. Галерею можно листать вправо и влево соответствующими командами. Выбрать видео из галереи можно по номеру или по названию: «Включи матильду», «Открой второй фильм», и т.п.

3. Экран описания фильма или сериала. На него попадают при выборе конкретного видео из галереи. Этот экран показывает относительно развёрнутое описание фильма. Команды типа «Включить этот фильм» или «Смотреть на Иви» с этого экрана или переносят на экран подтверждения покупки, или включают плеер.
Для роликов из сети обычно нет описаний. Когда пользователь выбирает их, сразу включается экран плеера.

4. Галерея сезона. Выбрав сериал, можно попросить Алису показать список серий определённого сезона. Например, команда «Покажи первый сезон» переводит на галерею серий, который также можно листать влево и вправо. Далее командами типа «включи вторую серию» можно открывать непосредственно видеоплеер.

5. Экран подтверждения покупки. Некоторые фильмы и сериалы являются платными. При попытке включить их Алиса переключается на этот экран и просит подтвердить оплату фильма.

6. Экран плеера. На нём воспроизводятся выбранный видео-контент. На нём же отображается обложка альбома при проигрывании музыки. Именно на этом экране доступно множество команд управления воспроизведением: перемотка, остановка и продолжение воспроизведения, оценка контента, и т.п.

Основные категории описания в задании

Опишем основные характеристики состояния Яндекс.Станции

  • Указано время, в которое зафиксировано состояние устройства
  • Если Станция подключена к телевизору/монитору/проектору, то будет отображаться текущий экран и есть возможность просматривать видеоконтент. Если нет - покажется сообщение "не подключено к телевизору"
  • Если последняя команда связана с изменением громкости или Алису просят озвучить уровень громкости, то отображается уровень громкости звука. Его можно поменять при помощи голосового управления: можно сделать его тише/громче (относительно текущего уровня), установить определенный уровень громкости (в том числе максимальный). Отдельной характеристикой является беззвучный режим - если он включен, то звук не воспроизводится. При этом уровень громкости остается таким же, как и до включения беззвучного режима
  • На экране может отображаться галерея. В этом случае показывается некоторая ее часть, которая в данный момент видна пользователю. Голосовыми командами можно менять экраны галереи, тогда будут показаны другие обложки контента. В случае отображения списка телеканалов будут показаны первые 10 каналов вследствие того, что их очень-очень много. Если пользователь выбирает какой-то канал, не отображенный в описании, стоит верить, что он существует и ровно под тем номером, как называет пользователь.
  • Станция хранит информацию о последнем просмотренном видео (если таковое имелось). В соответствующем поле будет показано его название (если есть), на каком моменте было остановлено воспроизведение, чтобы можно было продолжить смотреть или информация о том, что видео проигрывается в настоящее время. Также в некоторых случаях может быть дана информация о следующем видео в очереди проигрывания. Если поле описания последнего просмотренного видео нет, значит, либо отключен монитор, либо станция не "помнит" последнего воспроизведенного видео! В этом случае команда "продолжить просмотр" не принесет ожидаемого результата.
  • Станция хранит информация о последней воспроизведенной музыке, или о музыке, проигрываемой сейчас. В соответствующем поле указана ссылка на трек и, возможно, его исполнитель и название
  • Если открыт экран радиоплеера или просто включено радио, то отображается информация о последней включенной радиостанции
  • В графе будильников записаны все будильники, установленные в колонке, начиная с текущего дня. При установке/отмене будильников следует следить за изменением их списка. Если будильник звенит, то запись об этом также будет в текущем состоянии устройства
  • Аналогичная информация доступна об активных таймерах. В состоянии отображается их список и сколько осталось по тому или иному таймеру, информация о том, поставлен ли таймер на паузу и истек ли он и играет ли в данный момент
  • Если Станция подключена к телевизору, она может отображать различные экраны: домашний, экран музыкального плеера, видеоплеера, радиоплеера, галерея (список) фильмов/видео/сериалов, телеканалов или серий сериала, экран с описанием отдельно взятого фильма, экран оплаты, заставку и некоторые другие. Между экранами можно перемещаться, пролистывать галерею и др.

Взаимодействие пользователя со Станцией

В блоке "Взаимодействие со станцией" представлен запрос пользователя, который призвана решить Яндекс.Станция, голосовой ответ Алисы и/или выполняемое Алисой действие

  • В данном запросе отображаются ровно те компоненты из трёх, которые реально есть при данном срабатывании Станции. Если, например, есть ответ Алисы, но нет действия, значит, его действительно нет. Если по запросу понятно, что действие должно быть, а его нет - значит, стоит поставить отрицательную оценку
  • Необходимо проверять ответ и действие на соответствие запросу пользователя. Надо отличать осмысленные команды, требующие выполнение действия или просто корректного ответа, от болтовни, в которой голосовой помощник поддерживает диалог на произвольные темы с помощью механизмов искусственного интеллекта. Иногда для этого понадобится предыдущее взаимодействие со станцией
  • В редких случаях может отсутствовать запрос пользователя. Такое может произойти, например, при включении следующей серии или следующего видео. В таком случае будет только действие. Корректность такого запроса стоит оценивать в зависимости от предыдущего взаимодействия со Станцией, а также текущего состояния устройства
  • Очень внимательно относитесь к названием видео, а также указанию исполнителя/трека для музыки. Если указана только ссылка, обязательно пройдите по ней, чтобы убедиться, что включен верный трек
  • Если ни ответа, ни действия на запрос не последовало, то это необходимо поставить отрицательную оценку

Основные действия и ответы помощника

Опишем основные сценарии ответа и возможные действия голосового помощника в Яндекс.Станции

  • Алиса может ответить пользователю общими фразами (болтовня), рассказать новости, некоторые факты, погоду. В этом случае корректным будет являться адекватный ответ (поддержание диалога).
  • Просьба включить музыку. В этом случае Алиса должна сказать, что она включает музыку, в графе действия появится ссылка на первый трек, который включится. Если есть явное указание, что именно надо включить, то необходимо проверить корректность ответа на соответствие запросу. Например, если просят включить какую-то песню определенного исполнителя, а включается другая песня исполнителя, то это частично верный ответ. Если, к примеру, пользователь просит включить русский рок, и включается песня "Поворот" группы "Машина Времени", то это корректный ответ. Если же по этому запросу включается Нюша - частично верно.
  • Указание поставить на паузу/снять с паузы в различных формулировках. Надо просто следить за состоянием трека - проигрывается он или поставлен на паузу. Также часто встречается просьба поставить следующий трек/видео или просто "дальше" в экране плеера. Если включается другая композиция, нежели воспроизводится сейчас, то действие и ответ стоит считать корректным. Помимо просьбы поставить на паузу, в видео можно перематывать на конкретную позицию или относительно текущей. Здесь стоит смотреть на текущее время и время, на котором сейчас включено видео.
  • Поиск видеоконтента. При поиске видеоконтента будет показана галерея видео, которые были найдены по данному запросу. Стоит смотреть на корректность поиска и действия. Может открываться описание фильма - здесь стоит обращать внимание на соответствие запросу и источник (некорректный источник - значит, ответ неверен. К слову, "искать в интернете" и подобное можно трактовать как НЕ на ivi, amediateka и прочих ресурсах с платной подпиской). Если открывается экран оплаты - это корректно, если пользователь явно не указывал в запросе, что надо найти что-то бесплатно.
  • При работе с галереей можно пролистывать экраны (следим за верностью смены отображаемых описаний), выбирать из списка по номеру (смотрим на корректность включения видео по некоторому номеру из галереи, отображенном на экране) и по названию. После выбора может открыться экран описания или оплаты наряду с видеоплеером - это корректные действия (если ответ соответствует запросу, разумеется)
  • Запросы на такие действия, как поставить оценку песне, включить воспроизведение в случайном порядке, определить играющую песню, работа с bluetooth, отправка баг репорта и др. стоит считать корректно выполненными, если дан правильный ответ И описание в графе действия

Параметры оценки

Вам необходимо дать ответ на вопрос "Корректен ли ответ и/или действие Алисы на последний запрос пользователя?" При ответе на него необходимо оценить информацию, выданную в выделенной зеленым цветом группе "Взаимодействие со станцией"

  • Сперва нужно понять, верно ли ассистент распознал сценарий запроса. Сценарий — это общий тип запроса, предполагающий определённую схему ответа. Примеры сценариев: включение музыки, видео, фильмов, радио, телеканала; поддержание диалога, фактовый ответ, информация о погоде или пробках, настройка будильников, таймеров, напоминаний, перевод, выбор видео из списка, включение выбранного видео, открытие экрана покупки, выставление оценки треку, установка уровня громкости, открытие контента на сайте или в онлайн-кинотеатре, различные команды управления воспроизведением и прочее. От сценария зависит форма ответа и выполняемое действие.
  • Помимо верного сценария, ответ должен соответствовать запросу и в деталях. Например, если пользователь просит включить конкретную песню, Алисе необходимо включить именно её. Если пользователь задаёт фактический вопрос, она должна дать верный ответ именно на этот запрос. Если пользователя интересует прогноз погоды на неделю в Киеве, нужно озвучить прогноз именно на неделю и именно в выбранном городе.
Всего есть три варианта оценки –

  • Да. Правильным считается ответ, в котором Алиса уместно отвечает на реплику пользователя и выполняет то, что от неё требовалось. Сценарий определён верно, ответ и/или действие полностью соответствуют запросу. Стоит учесть, что если пользователь попросил включить музыку определённого жанра, а включился один трек этого жанра, то это тоже правильный ответ.
  • Частично. Частично верным считается ответ, в котором верно определён сценарий работы Алисы, но ответ и/или действие не соответствуют запросу в полной мере. Например, если пользователь просит включить песню одного исполнителя, а включается песня другого. Если в режиме болтовни Алиса отвечает невпопад или грубо, это тоже частично верный ответ.
  • Нет. Плохим считается ответ, в котором неправильно определён сценарий. Например, открывается музыка по запросу, предполагающему болтовню, либо включается видео вместо отключения беззвучного режима и проч.
Рассмотрим часто встречающиеся случаи, когда ответ будет считаться частично верным или неверным.

  • Неуместный ответ в режиме болтовни. Из ответа Алисы явно следует, что она не понимает о чем речь, или пытается отшутиться вместо нормального ответа, или отвечает грубо, или произносит одну из универсальных фраз с целью сменить тему разговора, и т.п. Если при этом из запроса пользователя и контекста можно понять, что и надо было ответить болтовней, то ответ частично верный. Если же подразумевалось другое действие, то ответ неверный.
  • Если для корректного ответа на запрос пользователя Алисе необходимо выполнить какое-то действие, а она говорит, что уже сделала его, или что сделает, или как-то иначе согласится с пользователем, но ничего не сделает - то это неправильный ответ. Например, на просьбу включить что-нибудь отвечает "Ладушки, уже включаю" (и при этом не включает) или "Уже включила" (а на самом деле нет), или в ответ на запрос выключиться говорит "Окей, босс" (но действия не происходит) и т.п.
  • Если телевизор не подключен к экрану, и следует запрос пользователя "включи телевизор", а Алиса озвучивает программу передач, или что "он и так подключен" - это неверный ответ. Равно как и если при запросе "домой" при неподключенном экране следует реплика "И где же находится дом" или что-то подобное.
  • Самая большая часть ошибок Алисы связана с тем, что сценарий опреден верно, но контент отличается от запрашиваемого. Например, включается другой фильм, чем просили, другая музыка (в том числе если просто включается Яндекс.Радио), другая радиостанция, другой телеканал и проч. Такие ответы необходимо отмечать как частично правильные. Часто бывает так, что Алиса отвечает, что не может найти видео/сериал... по запросу и лучше что-то, чем ничего, и показывает другой контент. Или при просьбе включить радио говорит, что еще не настроилась на эту волну и предлагает другие радиостанции. Такие ответы стоит считать частично верными. Однако, если по запросу пользователя ничего найти невозможно, т.к. такого контента не существует (например, фильма "союз 7"), и Алиса выбирает что-то созвучное и больше похожее на правду (фильм "салют 7"), то такой ответ надо считать правильным.
  • Типичные примеры частично верных ответов - перемотка на неправильную позицию, выбор из списка неверного фильма (в т.ч. по номеру), неверно называется какая музыка включена, будильники/таймеры/напоминания устанавливаются с неправильными параметрами, видеоконтент включается в другом приложении/сайте/онлайн-кинотеатре. Так же частично верными следует считать ответы, когда названа погода не на тот день или в другом месте, неверно называются текущее дата/время, пробочный балл не в том городе, случайное число, не попадающее в задаваемый интервал, ошибочные факты и проч.
  • При этом, если Алиса путает переключение на предыдущий экран и переключение на следующий экран, вместо увеличения уровня громкости уменьшает его и наоборот, вместо положительной оценки ставит отрицательную, вместо установки будильника следует его удаление и т.п. - то это неправильный ответ, т.к. эти действия соответствуют разным сценариям.

Примеры

1. Воспроизведение было поставлено на паузу, как и просил пользователь. Ответ - Да

2. Алису просят включить новости, но никак уж не передачу про Турцию. Сценарий явно определен неверно. Ответ - Нет

3. Алису просят включить видео под номером 51 из галереи мультсериала, что она успешно делает. Да
4. В запросе чётко сказано, что надо включить фильм на ютубе, однако, Алиса открывает ivi. Тем не менее, фильм включен верно, т.е. сценарий определен правильно, а ошибка заключается в деталях. Такой ответ стоит оценить Частично верным

5. В запросе явно хотели посмотреть фильмы Квентина Тарантино, а не twenty. Из-за неправильного распознавания выдались видео, не соответствующие запросу пользователя. Однако, были выданы фильмы, как и хотел пользователь, значит, сценарий определен верно. Ответ - Частично

6. Следует запрос засечь 30 секунд, что Алиса правильно делает. Верный ответ - Да

7. Алиса верно озвучивает громкость в текущем состоянии. Правильная оценка - Да

8. Когда хотят выключить телевизор, навряд ли хотят смотреть с него какие-то телеканалы. Нет

9. В этом запросе не особо понятно о чём идёт речь. В целом, на подобный вопрос Алиса верно задаёт уточняющий вопрос, если не знать, что было сказано ранее. Для этого необходимо открыть предпоследнее взаимодействие со станцией и посмотреть в него.

Оказывается, что до этого Алису прочили найти где купить ресницы, и вопрос про адрес относится именно к ним. Однако, Алиса этого не поняла и дала некорректный ответ. Тем не менее, она верно поняла, что должен быть какой-то адрес, а значит, верно определен сценарий, и ответ Частично
10. Из запроса пользователя не особо понятно, что такое две минуты. Однако интуиция подсказывает, что ответ на этот вопрос может быть получен из предыдущего запроса

Действительно, в предыдущем запросе Алису просили поставить таймер, а сейчас уточнили, на какое время. Алиса все сделала правильно и ответ, без сомнения - Да

11. В галерее видео запрос "дальше" однозначно следует трактовать как следующий экран. Оценка верна, потому ответ - Да

12. Если фильм платный, то на запрос его включения Алиса может показывать пользователю экран оплаты, это корректный ответ - Да

13. Алису просят включить музыку, однако она отвечает что-то неуместное. Сценарий определен неверно и оценить ответ необходимо как Нет

14. Запрос непонятен, но Алиса додумывает за пользователя. Скорее всего верно, что надо перемотать фильм - сценарий определен верно. Однако, насколько перемотать - непонятно, и навряд ли на 10 секунд. Правильная оценка ответа Алисы в данном случае - Частично верно

15. Алиса включает новости, не соответствующие запросу пользователя, т.к. это просто самые популярные новости, а не новости про политическое состояние Армении. Правильный ответ - Частично

16. Ну и ещё один пример, где надо посмотреть предыдущее взаимодействие со станцией.

Здесь Алиса - верно уточняет запрос пользователя (как и много где в вычислительной технике просит подтверждение удаления. И это правильно - Да

P.S. Не переживайте, что на скриншотах по 50 страниц. На самом деле, их там намного меньше:)

Горячие клавиши

Нажатием клавиши Tab можно перейти к выбору ответа
Цифрами 1, 2 и 3 можно выбрать нужный ответ
Стрелки "влево" и "вправо" служат для переключения между заданиями
Enter — отправить лист со всеми выполненными заданиями на проверку