Ежедневно миллионы пользователей видят на сервисах Яндекса баннеры медийной рекламы. Рекламодатели могут показывать свои предложения только той части аудитории, которая больше в них заинтересована, например, пользователям определённого пола и возраста. Для социально-демографического таргетинга Яндекс использует собственную технологию — Крипта. Она умеет группировать пользователей в зависимости от их поведения в интернете.
Зачем нужна Крипта?
С помощью Крипты Яндекс может предлагать рекламодателям новые виды таргетинга, основанные на анализе поведения пользователей в интернете. Обучение Крипта основана на методе машинного обучения Матрикснет.
Как работает Крипта?
Чтобы технология научилась отличать одну возрастную группу от других, а мужчин от женщин, ей объяснили эти понятия на примере. Точнее, на сотнях тысяч примеров. Для этого использовалась обезличенная информация о поле и возрасте пользователей из сети профессиональных контактов Мой Круг — люди чаще указывают реальные данные, когда речь идёт о работе. Для уточнения информации из профессиональной сети её сравнили с указанной в профиле пользователя на Яндексе.
После перекрёстной проверки осталось около миллиона анкет с наиболее достоверной информацией. Потом система собрала информацию о поведении этих пользователей в интернете.
Например, о длине поисковых запросов, наличии в них определённых слов, о периодах активности за сутки и т.д. Социально-демографические признаки и данные о поведении пользователей в интернете использовались для обучения алгоритма. Из этих данных разработчики создали две выборки: обучающую и тестовую. Пользователей разделили на две группы: примерно 700 тысяч для обучения Крипты и 300 тысяч для последующей проверки.
Проанализировав данные из обучающей выборки, Крипта отобрала 300 наиболее важных факторов для определения пола и возраста, а также рассчитала значимость каждого из них. Следующий этап — проверка того, насколько хорошо обучилась Крипта. Из данных в тестовой выборке убрали информацию о поле и возрасте пользователей, чтобы Крипта выяснила это самостоятельно. Для каждого пользователя она определила вероятность того, мужчина это или женщина и к какой из пяти возрастных групп он относится. Разработчики сравнили результаты с имеющимися данными и усовершенствовали алгоритм обучения. После ряда проверок и усовершенствований технологию внедрили.
Матрикснет — это метод машинного обучения, разработанный Яндексом. Применение При выборе нужной аудитории из всех пользователей Яндекса пол определяется с вероятностью 74% — в полтора раза точнее, чем наугад. Возрастная группа, например, от 25 до 34 лет (самая большая по численности группа пользователей) определяется с вероятностью 45%, что более чем в два раза точнее случайного определения.
Когда реклама таргетируется на меньшую аудиторию, точность определения демографии увеличивается. Например, при охвате половины аудитории указанные вероятности равны 85% и 52% соответственно. Крипта постоянно поддерживает знания в актуальном состоянии. Каждый день она обрабатывает и обновляет данные о практически всех пользователях.
Технологию можно научить различать пользователей интернета не только по полу и возрасту. Ей не важно, какие общие признаки или интересы объединяют людей в реальной жизни. Но Крипта отличит разные группы друг от друга, если их поведение в интернете будет заметно различаться.