Экономика символического обмена - Александр Долгин
Шрифт:
Интервал:
Закладка:
2.7.1.1. Недостатки
Их в контентном методе несколько. Во-первых, машинный анализ годится не для всяких объектов. Так, сильно осложнена работа с мультимедийными приложениями, графикой, аудио- и видеоматериалами. (Хотя в последнее время в этой области наблюдается бурный прогресс.) Другая проблема данного метода в том, что два разных предмета, представленных одинаковыми профилями, неразличимы. В частности, с помощью контентных систем невозможно отличить хорошую статью от плохой, если их лексикон близок. Это касается и потребительских профилей, поэтому рекомендации, основанные на выборе якобы схожих людей, могут быть низкого качества. На деле оказывается, что профили близки, а люди, стоящие за ними, разные. Еще один очевидный недостаток – узость рекомендаций. Потребителю не могут рекомендовать товары, отличные от тех, которые ему уже знакомы. С другой стороны, ему могут настойчиво предлагать объекты, слишком похожие на те, что ему хорошо известны.
2.7.2. Вспомогательные системы
Эти системы не вычисляют рекомендации. Их смысл в другом: служить инструментом обмена рекомендациями. Первая в мире рекомендательная система Tapestry, разработанная в Xerox PARC, относилась к вспомогательному типу[327]. Популярные ныне веблоги (weblog) – пример такой системы.
Узкое место вспомогательных систем в том, что они эффективны только при наличии некоторого числа добровольцев, готовых генерировать информацию, полезную для сообщества[328]. В большинстве случаев эта работа не оплачивается, хотя вот-вот она превратится в статью дохода благодаря усилиям коммерческих поисковых сервисов[329]. Пока же рекомендателями движут немеркантильные интересы, возможно, потребность в расширении знаний или в выстраивании обратной связи с пользователями, или стремление обрести статус эксперта. Часто все, чего они ждут – это благодарность за разъяснение, советы или провокационные реакции.
2.7.3. Коллаборативные методы производства рекомендаций
Системы коллаборативной фильтрации основываются на двух принципах и, соответственно, бывают двух типов: анамнестические (memory-based) и модельные (model-based)[330].
Анамнестические алгоритмы строят прогноз, исходя из предшествующих оценок клиента [331] и совокупности оценок, данных товару другими пользователями. Это типичная поклиентская, или, иначе, субъект-субъектная схема коллаборативной фильтрации. Чтобы подсказки были точны, нужно решить две задачи: отфильтровать качественных рекомендателей и резюмировать их оценки. Вкусовая близость между клиентами устанавливается на основании того, какие оценки они дали одним и тем же товарам[332]. А вот вычисляться подобие может корреляционным методом (используется коэффициент корреляции Пирсона), методом линейного сходства, и рядом других способов. Простейший способ измерения сходства между пользователями – по среднеквадратичному отклонению.
Для улучшения работы системы используются различные модификации ранее описанных методов[333]. В частности, для преодоления дефицита оценок конкретного пользователя и подбора ему подходящих рекомендателей прибегают к «голосованию по умолчанию» (эта схема подходит в том случае, если все потребляют одно и то же и сходным образом оценивают). Эмпирически установлено, что точность предсказания растет, если присваивать неоцененным товарам некую гипотетическую оценку. Чтобы получить ее, предложено вычислять сходство не между пользователями, а между товарами[334].
Поскольку вкусы людей из группы рекомендателей, подобранных компьютерной программой для данного клиента, хотя и близки между собой, но все же не идентичны, нужно каким-то образом резюмировать их общую оценку. В примитивном варианте она вычисляется как простое среднее. В то же время ясно, что чем более сходны во вкусах клиент и кто-то из его рекомендателей, тем весомей должен быть вклад оценки данного рекомендателя в предсказание, обобщающее мнение группы. Однако и в этом варианте учтено не все: в частности, пользователи по-разному воспринимают шкалу оценок. Эта проблема снимается, если абсолютные значения оценок корректируются с учетом систематического сдвига от их среднего значения для соответствующего рекомендателя (так нивелируется общая позитивная или негативная установка абонента).