Основной единицей в системе метрик сниппетов является дамп сниппетов (некоторое множество сниппетов, собранных с какой-либо системы) по некоторым урлам-запросам. Существует два способа добавить в систему дамп сниппетов: собрать сниппеты с серпа некоторой поисковой системы (Яндекс, Google, Bing и т.п.), либо залить файл с уже собранными сниппетами в одном из поддерживаемых форматов. После того, как дамп сниппетов загружен в систему, остается лишь посчитать для него метрики, используя соответствующую ссылку в меню.
Сбор сниппетов
Для того, чтобы собрать сниппеты вам понадобится список запросов. В системе уже загружен ряд списков запросов, которые рекоммендуется использовать. Если они вам по каким-то причинам не подходят, то можете загрузить свой список запросов. Для этого, вам надо перейти по ссылке Списки запросов и либо залить файл с запросами (формат), либо заполнить поле.
Далее, перейдя на страничку Сбор сниппетов вы можете выбрать список запросов, сниппетовщик (либо один из представленных в системе, либо руками заполнить поля URL, CGI-параметры, фильтр для поиска по урлу (как в языке запросов данной поисковой системы задать урл для ограничения поиска) урл wizard'а (используется для переколдовки запросов уже при подсчете метрик, можно использовать xmlsearch.hamster.yandex.ru), шаблон пути для сбора сохраненных копий документов, если мы хотим их собирать).
Для того, чтобы автоматически начать подсчет метрик после того, как будут загружены сниппеты, стоит установить соответствующую галочку.
После нажатия на кнопку Собрать сниппеты вы будете перенаправлены на страничку отслеживания статуса заданий, где вы можете следить за статусом сбора сниппетов.
Загрузка сниппетов
Если у вас уже есть файл со сниппетами в одном из поддерживаемых (форматов), то вы можете загрузить его в систему (ссылка Загрузка сниппетов). Здесь вам также надо задать параметры сниппетовщика, который использовался для сбора, указать формат файла. Также, возможно начать подсчет метрик сразу после загрузки сниппетов, для этого нужно установить соответствующую галочку.
Подсчет метрик
Если вы не ставили галочку для автоматического сбора сниппетов при сборе или загрузке сниппетов, то можете это сделать, перейдя по ссылке Посчет метрик. После этого все, что вам надо сделать - это выбрать дамп ваших сниппетов из списка, выбрать метрики, которые вы хотите считать и нажать кнопку Подсчитать. Вы будете перенаправлены на страничку отслеживания статуса задач.
Просмотр метрик
После того, как метрики подсчитаны, вы можете посмотреть на гистограммы и статистические характеристики, перейдя по ссылке Просмотр результатов. Выберите один или более дампов сниппетов, для которых были подсчитаны метрики (если дамп не отображается в списке, то это значит, что для него не были подсчитаны метрики). Поставьте галочки на метрики, которые вы хотите посмотреть и выберете фильтр по длине запроса (если вы хотите посмотреть значения метрик только по коротким или только по длинным запросам). Нажав кнопку Просмотр вы через некоторое время получите гистограммы и статистические характеристики для выбранных метрик для выбранных дампов сниппетов.
Если вы хотите сохранить ссылку для последующего использования, можете скопировать короткую ссылку, которая появится под кнопкой Просмотр.
Список запросов
Файл с запросами - это таб-separated файл, в котором сначала идет запрос, затем может идти url (если вы хотите собрать сниппеты только по этому урлу), затем регион.
Файл с полями, разделенными табами
Построчно:
<запрос>\t<урл>\t<характеристики>\t<дополнительная информация о запросе>[\t<заголовок>\t<сниппет>\t]
где характеристики - это список характеристик данного запроса, перечисленных через символ ';'. Список может быть пустым.
дополнительная информация о запросе - список интентов, список ответов на запрос (фактов). Различная дополнительная информация отделяется вертикальной чертой '|', имя дополнительной информации отделяется от значений двоеточием ':', а значения разделяются ';'. Имя поля для задания интентов: intents, для задания фактов: facts
Пример:
intents:скачать;закачать;download|facts:125 метров;125
[..] - Эта часть используется только для загрузки дампа сниппетов
XML файл (в формате SERPа)
Формат, в который выполяняется регулярный сбор сниппетов Google и Яндекс для metrics. Файл такого формата позволяет загрузить как список запросов-урлов, так и сами сниппеты.
Формат:
<?xml version="1.0" encoding="UTF-8"?>
<serp>
<query text="астрахань такси" characteristics="информационный;региональный" extrainfo="intents:скачать;закачать;download|facts:125 метров;125">
<searchresult>
<document type="PAGE">
<url>http://www.1taxi.ru/ekonom</url>
<title>"ТАКСИ" №1 Москва,аэропор...</title>
<snippet>Иномарки! Эконом, Комфорт, м/а, ВИПОплата картами. Нас рекомендуют.</snippet>
</document>
<document>
...
</document>
</searchresult>
</query>
<query>
...
</query>
</serp>
формат значения аттрибута запроса extrainfo аналогичен тому, как он задается в случае tab-separated файлов.
Замечания:
Перечислены не все аттрибуты, а только те, которые используются в интерфейсе просмотра метрик
Запрос query по умолчанию не содержит аттрибута characteristics и extrainfo, он может быть добавлен самостоятельно
В файле обычно содержатся элементы document, соответствующие, например, рекламе. Для отбора элементов, соответствующих только документам необходимо использовать аттрибут type со значением PAGE.
XML файл (в старом формате сниппетов)
Формат:
<?xml version="1.0" encoding="UTF-8"?>
<queries>
<snippet>
<query characteristics="информационный;зарубежный" extrainfo="intents:скачать;закачать;download|facts:125 метров;125" >< ![CDATA[i'm very pleased to understand"]]> </query>
<title><![CDATA[Dear_Colleague_Letter.pdf]]></title>
<headline><![CDATA[]]></headline>
<text><![CDATA[Dear Colleague...]]></text>
<url><![CDATA[www.unm.edu/~emerson/housing/Dear_Colleague_Letter.pdf]]></url>
</snippet>
<snippet>
...
</snippet>
</queries>
Замечание:
Если text пуст, то в качестве сниппета используется headline.
XML файл (в новом формате сниппетов)
Формат:
<?xml version="1.0" encoding="UTF-8"?>
<pools>
<pool id="4q1">
<qdpair query="Краткое содержание Тихого Дона" region="213" richtree="sdafksj903450ffxvxcvertie-0ti" url="mysite.ru/index.html" relevance="20">
<title>
<![CDATA[Шолохов М.А. - Краткое содержание Тихий дон]]>
</title>
<snippet algorithm="Algo3_pairs" rank="1281">
<title>
<![CDATA[Шолохов М.А. - Краткое содержание Тихий дон]]>
</title>
<fragment coords="4 20">
<![CDATA[Шолохов М.А. - Краткое содержание Тихий дон]]>
</fragment>
<fragment coords="100 220">
<![CDATA[Для школьников. - Сочинения. - Изложения. - <strong>Краткое</strong> <strong>содержание</strong> произведений. - Шпаргалки. - Доклады. Случилось это в самый разгар полевых работ. Приехали в хутор командующий <strong>Донской</strong> армии генерал Сидорин с...]]>
</fragment>
<features>
d_inters_lemm_pos=0 d_same_word=0 first=-0.3142411599 m_diff_lemm_pos=2.197224577 m_word=3.218875825 second=-0.3407599946
</features>
<marks>
<mark value="3" criteria="content" assessor="usminski" quality="0.86" timestamp="1270115080" />
<mark value="1" criteria="readability" assessor="usminski" quality="0.6" timestamp="1370115080" />
</marks>
</snippet>
<comment assessor="usminski" tag="classic_fail_3 classic_fail_2">
<![CDATA[This is the most stupid snippet I've ever seen!]]>
</comment>
</qdpair>
</pool>
</pools>