Персонализация пользователя. Коллаборативная фильтрация, эвристическое моделирование и поведенческий таргетинг: дороже вас стоят только ваши предпочтения
Персонализация пользователя. Коллаборативная фильтрация, эвристическое моделирование
и поведенческий таргетинг: дороже вас стоят только ваши предпочтения
[27.07.2007, 16:46]
Вы наверняка уже заметили, что «Чужие мысли вслух», перемежающие главы «Взгляда практиков», находятся именно на тех местах, где вы их видите, совсем не случайно. Но на протяжении всей книги не было еще такой чужой мысли, которая бы столь чудесно предваряла следующую главу, как та, что вы только что прочитали.
Этот мудрый человек навсегда остался в нашей памяти. Остался потому, что он выяснил реальные предпочтения своей аудитории и умело воспользовался этим знанием.
Ведь именно знание предпочтений конкретного человека позволяет — везде и всегда — предлагать ему именно то, что он знает и любит, и избегать предлагать то, что может вызвать у него негативную реакцию.
Интернеттехнологи всегда мечтали знать предпочтения своей аудитории с точностью до конкретной единицы — и никогда их не знали.
Мы не знаем, как с точки зрения типографского дела будет издаваться эта книга, но подозреваем, что шрифт на ее страницах будет черным, а бумага белой. Если бы была возможность делать шрифт разноцветным, то следующий абзац мы бы выделили красным — а так просто делаем его жирным и снабдим отступом. Это чтобы вы понимали, что на самом деле он — красный.
В настоящее время, когда мы пишем эти строки, в мире происходит технологическая революция, масштабы которой пока не оценены по достоинству. Суть этой революции заключается в том, что на вебе наконецто научились достоверно исследовать предпочтения каждого конкретного человека и предлагать ему многие вещи именно в соответствии с его собственными, а не чьимито еще, и актуальными прямо сейчас, предпочтениями.
И пусть еще имеют место неточности, и много в современных технологиях распознавания предпочтений нерешенных проблем, но — лед тронулся, господа присяжные заседатели! И командовать парадом отныне будут те, кто это понял.
От мысленных экспериментов на тему «аудитории вообще» интернет переходит к практике на уровне «конкретный живой человек в частности».
Существуют три большие группы методов, позволяющих оценивать предпочтения аудитории.
К первой группе относятся методы коллаборативной фильтрации. Несмотря на мудреное название, их суть убийственно проста.
Русская версия «Википедии» определяет коллаборативную (совместную) фильтрацию как метод, дающий автоматические прогнозы (фильтрацию) относительно интересов пользователя по собранной информации о вкусах множества пользователей (сотрудничающих между собой) [1].
Суть метода коллаборативной фильтрации заключается в следующем. Каждого пользователя системы просят высказать свое мнение, выраженное в определенном численном значении на некоторой шкале градации относительно предъявляемого ему ряда объектов. Этими объектами могут быть различные потребительские товары, фотографии, книги, музыкальные произведения, кинофильмы, телепередачи, компьютерные игры и так далее.
По мере того как в базе системы коллаборативной фильтрации набирается все больше и больше собранных оценок, происходят следующие важные вещи:
система начинает реально понимать, как выглядят собственные предпочтения каждого отдельного пользователя этой системы;
система начинает объединять пользователей в группы по схожести их интересов и делится персональным составом групп с самими пользователями, входящими в эти группы;
система становится способной дать персональную рекомендацию каждому конкретному пользователю в отношении объектов, с которыми он пока не сталкивался.
Это происходит на основании логики вида: «Если вы оцениваете это, это и это такто, такто и такто, но не знаете пока чегото нового, а люди, очень похожие на вас по своим оценкам, оценили это новое вот так, то я предложу вам это новое, потому что я уверен, что вы с высокой степенью вероятности оцените это новое для себя так же, как и те, чьи предыдущие предпочтения совпадают с вашими».
Коллаборативная фильтрация идеально выглядит на бумаге, но на практике сталкивается с большими проблемами. Впрочем, эти проблемы не носят фатального характера, а вполне себе преодолимы.
Первая из них именуется проблемой холодного старта. Она заключается в том, что чем больше оценок в системе, тем точнее ее предсказания и тем она эффективнее. Но что делать в самом начале ее функционирования, когда количество оценок в ней минимально? Ведь в этом случае система практически ничего не может предложить пользователю в качестве полезного результата — она сама пока ничего не знает. В то же самое время она требует, чтобы пользователь сам дисциплинированно оценивал объекты, ничего при этом не получая взамен.
Получается настоящий замкнутый круг: нет оценок — нет точности и ценности системы; а если нет точности — кто согласится жертвовать своим временем и силами? Следовательно, нет оценок. Поэтому на старте систему коллаборативной фильтрации приходится привязывать к другим сервисам, которые на первых порах обеспечат пользователям некоторую «добавленную стоимость» в отношении их усилий, затраченных на выставление оценок.
Вторая проблема — это проблема разработки четкой шкалы, по которой будут градуироваться пользовательские оценки. Если сделать шкалу, допустим, трехбалльной: хорошо (3), нормально (2), плохо (1), то при постановке оценок пользователи не будут сильно утомляться, потому что выбирать придется всегото из трех возможных вариантов, но вот точность таких оценок будет невысока, и, соответственно, пострадает достоверность прогноза.
И действительно, для одного респондента в предложенных условиях «нормально» будет означать «сгодится в сельских условиях», а для другого «нормально» — это «на миллиметр не дотянуло до отличной оценки, но ее тут нет, значит, ставлю “хорошо”».
Можно ввести в качестве шкалы, например, десятибалльную систему[2], которая будет выглядеть вот так:
лучше не бывает (10);
отлично (9);
хорошо (8);
нормально (7);
выше среднего (6);
средне (5);
ниже среднего (4);
плохо (3);
очень плохо (2);
хуже не бывает (1).
Тогда владельцы сервиса столкнутся с противоположной проблемой — производить оценку станет затруднительно ввиду трудности в дифференциации соседних градаций используемой шкалы оценок.
Третья проблема заключена в так называемой «банальности» даваемых оценок и выстраиваемых на их основе предсказаний. Рассмотрим ее на примере психологического теста, ставшего завсегдатаем сборников бородатых анекдотов.
Первая секунда.
— Птица?
— Курица!
Вторая секунда.
— Фрукт?
— Яблоко!
Наконец, третья секунда.
— Поэт?
И вы, не задумываясь, отвечаете: «Пушкин»!
Именно так ответят 90 из 100 опрошенных. Хотя на самом деле они вовсе не считают, что курица, яблоко и Пушкин — это единственно возможные ответы. Просто вопросы следуют друг за другом с высокой скоростью, времени на раздумья нет, вот и вылетает в ответ первое, что придет в голову. То есть ответы даются на основании не собственного продуманного мнения, а сложившихся в течение жизни динамических стереотипов.
Оценки в системах коллаборативной фильтрации выставляются пользователями с высокой скоростью, потому что оценивать приходится много, а свободного времени на обдумывание каждой оценки не всегда достаточно. Поэтому владельцам сервисов коллаборативной фильтрации приходится заранее предсказывать такие ситуации, вычленять их, нивелировать и добиваться минимизации их влияния на точность формируемых прогнозов.
Наконец, четвертая проблема связана с тем, что не все объекты могут быть оценены методом коллаборативной фильтрации с одинаковой точностью. А именно — чем больше однотипных объектов за свою жизнь потребил респондент, тем более точные оценки он может им выставить.
Если человек за свою жизнь просмотрел 500 фильмов, можно не сомневаться, что он умеет их оценивать. Плохо он это делает или хорошо — это уже другой вопрос, но свой алгоритм оценки кинофильма он для себя выработал. То же самое относится и к прочитанным книгам, и к прослушанным музыкальным произведениям. Здесь коллаборативная фильтрация работает без сбоев.
Ну а если взять другие товарные категории, например — телевизоры или автомобили? За свой предшествующий опыт подавляющее большинство респондентов сменили с десяток телевизоров и с пяток автомобилей. А самые «продвинутые»? Ну, пусть это будет 30 телевизоров и 20 автомобилей. Тогда как эти люди смогут оценить телевизоры и автомобили, которых у них никогда не было? Только по прессе, рекламе и отзывам друзей. Стоп, но это же не будет их личным персональным опытом! Это же всего лишь косвенные оценки, построенные не на впечатлениях от непосредственного использования продукта, а на «впечатлениях от впечатлений».
Именно! И метод коллаборативной фильтрации отказывается здесь работать.
На этом оставим в покое коллаборативную фильтрацию, предложив читателю самому опробовать ее в действии[3], и обратимся к следующей группе методов — эвристическому моделированию.
Наиболее понятное определение эвристического моделирования сформулировано, как это ни покажется странным, не столпами математического анализа, а гениальным советским врачомхирургом, академиком Николаем Михайловичем АМОСОВЫМ (1913–2002)[4], который не только воспитал несколько поколений врачей, но и очень много сделал для развития биокибернетики как в СССР, так и во всем мире.
«Метод эвристического моделирования, — учил он, — заключается в том, что создается математическая модель сложной системы на основании гипотезы о ее структуре и функциях. Такая модель фактически является способом увязать в единую систему множество количественной и качественной информации, известной из литературы и собственного опыта. При этом качественную информацию также необходимо представить в виде количественных оценок.
Эвристическая модель в первую очередь позволяет путем сравнения поведения модели и моделируемого объекта в различных условиях проверить непротиворечивость заложенных в модель гипотез и, при необходимости, их скорректировать. Кроме того, исследование объекта совместно с моделью позволяет целенаправленно формировать эксперименты (или наблюдения) над объектом и формировать новые гипотезы, что приводит к более глубокому пониманию свойств и функций моделируемой системы»[5].
Таким образом, эвристическое моделирование сходно с коллаборативной фильтрацией, но если прогноз в коллаборативной фильтрации опирается исключительно на факты, то в эвристическом моделировании на первый план выходит построение заранее обусловленной математической модели, а реально получаемые результаты сравниваются с теми, что получены методом математического моделирования.
Метод эвристического моделирования работает там, где коллаборативная фильтрация пасует, а именно в тех товарных группах, где непосредственный опыт каждого индивидуального потребителя незначителен. Однако, сопоставляя алгоритмы поведения потребителей и вводя различные поправочные аппроксимации и коэффициенты, зачастую удается добиться неплохих результатов.
Почему, несмотря на схоластичность любого моделирования и на то, что оно имеет мало общего с «живой жизнью», все же удается получать значимые результаты? Почему они не являются сплошь ошибками?
Дело в том, что с чем более дорогой и менее массовой товарной категорией приходится иметь дело, тем уже в ней выбор. Возьмем, к примеру, автомобили. В самой нижней ценовой категории выбор велик. В средней — огромен. В дорогой — приемлем. А в очень дорогой (свыше 200 тысяч долларов)? 10–15 пятнадцать моделей — и на этом все. Возьмем мобильные телефоны. И здесь то же самое. Найти себе телефон по цене свыше 5 тысяч долларов — очень непростое дело: таких моделей выпускается крайне мало.
Тогда — следим за мыслью — чем выше ценовая категория, чем в более дорогой нише находится респондент, тем меньше у него выбора и, следовательно, с тем большей долей вероятности он будет покупать то же самое (или почти то же самое), что и его «собрат по счастью». Жизнь удалась? © — вот и попробуйте «обратную сторону удачи».
И если в этой ситуации подойти к моделированию ответственно, то есть со знанием вопроса, то получившаяся модель поразит своей точностью, в основе которой лежит крайне узкий диапазон выбора в товарных категориях, скажем так, специфического потребления.
Но следует помнить, что точность этого метода в значительной степени зависит от понимания проблемы теми людьми, которые разрабатывают конкретную математическую модель. Ошибаются они — не ждите точности и от моделей.
Ну а теперь самое время обратиться к третьей, и последней, группе методов персонализации в интернете — к поведенческому таргетингу.
Если в случае коллаборативной фильтрации пользователю задают много вопросов, в случае эвристического моделирования за него додумывают, как бы он сделал тото и тото, то при использовании систем поведенческого таргетинга его ни о чем не спрашивают и за него не думают. За ним просто внимательно наблюдают, то есть следят.
На одном или нескольких вебресурсах устанавливают систему статистики, которая позволяет отслеживать все перемещения конкретного пользователя внутри него — на какие баннеры кликал, на какие ссылки жал, какие слова для поиска вводил, в каком порядке перемещался между htmlдокументами, как много времени проводил на каждой странице, откуда появился на сайте и через какую страницу его покинул, как скоро вернулся и так далее.
По итогам анализа формируется профиль пользователя, на основании которого ему «подсовывается» соответствующая реклама — и непосредственно при вебсерфинге, и более отдаленно (например, в почтовой рассылке, на которую он подписан).
При этом, если ресурс, на котором установлена такая система, имеет сервис бесплатной электронной почты, то почта сканируется, выявляются ключевые слова в письмах, и на их основании система принимает решение, какую рекламу показать данному конкретному пользователю.
Иными словами, поведенческий таргетинг — это не что иное, как тотальная слежка за пользователем, причем в ряде случаев — с автоматической перлюстрацией писем.
Если называть вещи своими именами, это система шпионажа за действиями пользователя.
Да, конечно, она запускается в основном в отношении тех пользователей, которые зарегистрировались на сервисе, а регистрация — всегда дело добровольное.
Да, безусловно, при регистрации и вы, и мы ставим галочку напротив поля «С пользовательским соглашением ознакомлен и возражений не имею». Кстати, вы хоть раз читали подобное соглашение внимательно, с расстановкой и до самого конца? Мы, если честно признаться, нет.
Да, это происходит только на бесплатных сервисах и представляет собой цену бесплатного сыра.
Но — при всем при том — любая система поведенческого таргетинга грубо и бесцеремонно нарушает privacy любого отдельно взятого пользователя и privacy всей своей аудитории в целом.
Не так давно в Рунете появился новый любопытный рекламный сервис (не будем показывать пальцем, так что ссылки не ждите). Работает он так.
Вы заходите на одну из поисковых систем. Вводите запрос. Получаете ответ и уходите. Приходите на другой сайт, не имеющий отношения к поисковым системам. И тут вам показывают баннер другой поисковой системы, на котором вы видите ваш собственный поисковый запрос, сделанный некоторое время назад, — дословно, один в один как вы его вводили! — и утверждение, что эта поисковая система (которая рекламируется баннером), ищет лучше.
Нам сложно предугадать вашу реакцию на описанную ситуацию. Что же до авторов «Взгляда практика», то у нас эта «метода» вызвала легкое отвращение к поисковой системе, рекламирующейся подобным образом. Тем более что по нашему проверенному практикой мнению, ищет она не лучше, а хуже той, у которой пытается отбить аудиторию.
Игра зашла слишком далеко. Но назад она не вернется. Дальше будет еще веселее.
Кстати, поисковые машины сейчас вовсю работают над новым поколением поиска — «с человеческим лицом», персонализированного. Интересно, как он будет выглядеть?
Вот что на эту тему думают в Google.
***
Каким будет поиск следующего поколения?
Мэтт Катс (Matt Cutts), ведущий разработчик Google
Мэтт Катс о персонализированном поиске и новых пользовательских интерфейсах.
— В настоящее время Google активно работает над поисковыми технологиями следующего поколения. Расскажите, что именно предпринимает Google в данном направлении, например, персонализированный поиск, AI (Application Identifier) и др.
— Я считаю, что персонализация способна значительно усовершенствовать поиск для среднестатистического пользователя. К тому же для этого не нужно предпринимать что-то невероятно сложное. Пользователю нужно только решить, что ему это нужно — об остальном позаботится Google. Недавно я натолкнулся на пост, в котором пользователь выражал свое недовольство по поводу метаданных. Именно поэтому у пользователей есть выбор за или против персонализации. Что касается поиска следующего поколения, я думаю, это тема, которая сегодня волнует многих.
— Приведите примеры того, как Google реализует технологии персонализации.
— Одним из типов персонализации можно считать локализацию — когда поисковик предлагает разные результаты в зависимости от места нахождения пользователя. На запрос «банк», введенный в Google в Новой Зеландии, пользователь найдет банки Новой Зеландии, в Австралии — австралийские банки, и так далее. Это яркий пример персонализации на уровне стран. Однако даже на таком уровне можно судить о том, каких результатов можно добиться с ее помощью.
— Некоторое время назад Google представил технологию персонализации в сервисе Google Accounts. Можно ли надеяться на то, что скоро она будет использована и в основном поиске Google?
— Безусловно. Сейчас упрощена интеллектуальная модель, которая позволяет пользователям сохранять свои данные. Если вы зарегистрированы в Google, мы сможем персонализировать ваши поисковые результаты. Это существенный шаг. Если пользователь не хочет персонализировать свои результаты, ему достаточно отписаться, кликнув на нужную иконку. Удостовериться в том, что «отписка» совершена, можно по местоположению вашего электронного адреса. Если он указан в правом верхнем углу экрана, следовательно, вы будете автоматически пользоваться услугами персонализации.
— Что вы думаете о семантических технологиях? Какую роль играет естественный язык в поиске и что предпринимает Google в данном направлении?
— Мы уделяем большое внимание самым разным разработкам и технологиям. Я бы сказал, что Google подходит к этому очень прагматично. Мы следим за всем, что происходит на рынке, и рады поддержать те многообещающие начинания, которые направлены на улучшение качества поиска. В первую очередь это, конечно, семантические технологии, за развитием которых небезынтересно наблюдать. Например, вы ищете: «Сколько штатов в Америке?» Некоторые поисковые системы, позиционирующие себя семантическими, не предоставляют хороших результатов. Нашим главным преимуществом является размер индексной базы Google, именно она позволяет системе распознавать все значения слов и синонимов. Это во многом определяет наш прагматичный подход — мы делаем ставки только на одно традиционное решение, а рассматриваем одновременно все возможные.
— То есть Google уже предоставляет такую же семантическую технологию, которая интегрирована в сервисе Google Accounts?
— Да, именно! В настоящий момент уже не одна семантическая технология интегрирована и работает в Google.
— Большой резонанс у читателей вызвала статья «Топ-100 альтернативных поисковиков»[6]. Каким поисковым системам вы симпатизируете? Какие технологии произвели на вас впечатление?
— Мне очень понравилась статья о результатах голосования пользователей относительно того, каким будет следующий поиск. Примечательно то, что 209 голосов было отдано за персонализированный поиск, позволив ему обогнать искусственный интеллект. Бесспорно, интерес представляют все перечисленные направления. Чем большим объемом данных мы обладаем, тем больше у нас шансов предложить пользователям новые возможности. Например, та же визуализация, или кластеризация, результатов. Иногда, после получения некоторых результатов поиска, пользователь может найти предложение поиска по близким запросам. Однако эта технология пока не запущена, мы хотим потестировать ее еще какое-то время. Запускать сервис в сыром виде нет смысла. В целях усовершенствования мы пристально следим за разными технологиями и новыми разработками.
— Осенью 2006 года Google представил свой экспериментальный проект SearchMash, который выполнен на основе AJAX-технологий. Можно ли рассчитывать на то, что передовой функционал SearchMash уже скоро найдет свое воплощение в интерфейсе основного поисковика ?
— Рассчитывать, конечно, можно, но никаких обещаний мы не даем. Будет выработано оптимальное решение на основании многих факторов, например, видимости в разных браузерах, предпочтений пользователей, а также объемов и мощностей, которых это может потребовать. Например, в SearchMash была интересная функция — пользователь мог начать печатать в любом месте страницы, а вводимый текст автоматически появлялся в поисковой строке. Однако это работало лишь в некоторых браузерах. SearchMash для Google представляет экспериментальную площадку, на которой мы рассматриваем различные пользовательские интерфейсы и оцениваем вероятность их дальнейшего внедрения.
— Какие планы Google связывает с вертикальным поиском, но не связанным с блогами, а обширным? Например, некоторое время назад Microsoft приобрела медицинский поисковик. В таком направлении Google будет что-нибудь предпринимать?
— На этот вопрос у меня будет два ответа. Во-первых, у Google уже есть поиск по патентам, кодам, книгам. Вертикальные они или нет — может стать темой другой дискуссии. Они осуществляют поиск по разным данным. Например, с помощью Google Calendar можно искать по календарным данным, с Gmail — по email-сообщениям. Во-вторых, мне кажется очень заманчивым, что Google отвлекся на вертикальный поиск, в результате чего запустил Google Custom Search Engine (CSE). Данная система настраиваемого поиска разработана на базе Google Co-op. С ее помощью пользователи могут сами создавать свои кастомизированные поисковики.
— Одним из ваших приоритетных направлений является борьба со спамом. Что было предпринято в последнее время? Может, назовете основные направления, в которых ведутся разработки в спамобороне?
— За последний год мы внедрили много технологий, которые позволяют предоставлять пользователям более чистую выдачу. Одним из основных направлений является интернационализация. Для нас очень важно представлять незаспамленные поисковые результаты на всех языках. Именно поэтому мы тщательно рассматриваем возможность использования новых разработок в поиске на всех языках[7].
Англоязычный оригинал опубликован 13.03.2007 [8]
***
Мы попытались дать вам краткий обзор проблемы персонализации, многоликого Януса современного интернета. Ну а каким будет выражение этих лиц, зависит исключительно от нас самих.
Кстати, за последние шесть месяцев уже двое наших клиентов[9], работающих в области продаж промышленного оборудования, независимо друг от друга обратились к нам с предложением включить в программное обеспечение создаваемых корпоративных сайтов механизмы коллаборативной фильтрации и эвристического моделирования. Интересно, к чему бы это?
[4]* Биографию Николая Михайловича АМОСОВА можно найти на http://www. *****/medicine/surgery/amosov/
[5]** Цит. по: http://www. icfcst. /museum/amosocio_r. html
[7]* Позаимствовано с http://www. *****/interview/61/
[8]** Опубликовано на http://www. /archives/interview_with_matt_cutts_next_generation_search. php
*** Клиенты компании «РБСДизайн» (http://www. *****/) на создание сайтов.


