ue2e metrics viewer $instance_name, $instance_description, nirvana graph, $param_startrek_ticket
started $instance_started by $instance_author@ with abc $param_abc_id and priority $param_priority

PROD:  url: $param_prod_url
       uniproxy_url: $param_prod_uniproxy_url
       experiments: $param_prod_experiments

TEST:  url: $param_test_url
       uniproxy_url: $param_test_uniproxy_url
       experiments: $param_test_experiments
Baskets: |
Color Legend?
Легенда цветов метрик в таблице
  • Чтобы увидеть только "важные", "прокрашенные" метрики — нажмите слева галочку "only significant"
  • - ошибка прокачки из групп метрик error, download_error_*. Сетрейсы можно достать, включив галочку у группы метрик download_error_details. Чаще всего помогает заново прокачать — перезапустить граф нирваны с изменённым cache_sync. Подробнее
  • - стат.значимое ухудшение метрики качества с p-value 0.01/0.03, подлежит дальнейшему разбору ухудшений запросов в пульсаре по ссылке pulsar short. Подробнее про отсмотр результатов в пульсаре
  • - стат.значимое изменение информационной метрики с p-value 0.01/0.03. Не требует обязательного разбора в пульсаре
  • - стат.значимое улучшение метрики качества. Поздравляем, вы, вероятно, молодец!
  • - в кастомной корзинке (input_basket), качество в тестовой выборке < 0.7, недостаточно для выкатки шортката/сценария
  • - качество в ветке PROD очень маленькое. Чаще всего встречается с ответами Алисы вида "Прошу прощения, что-то сломалось.". Для каждой корзинки свои минимальные пороги качества — μ - 3σ. При разборе в пульсаре — обратите внимание в первую очередь на срезы музыки и фактов
  • - в тестовой ветке сильно поменялись ответы Алисы, и толочные оценки не нашлись в кеше (низкая оценённость). Такой прокрас в 99% случаев говорит, что что-то пошло не так. Стоит посмотреть на ответы Алисы в пульсаре на той же корзинке и integral метрике, и если будут видны явные ошибки — то лучше остановить ue2e граф, чтобы не размечать ошибки в Толоке и не тратить деньги. При разборе, в первую очередь стоит посмотреть на изменения классификации сценариев, или наличие большого числа ошибок
Groups: |