В поисках новых механизмов поиска во Всемирной Паутине

Обзор августовского, 2007 г. номера журнала Computer (IEEE Computer Society, V. 40, No 8, Август 2007).

Авторская редакция.
Также обзор опубликован в журнале "Открытые системы"

Почти все большие статьи августовского номера посвящены одной теме "Инновации в области поиска" (Search Innovations). Тематическая подборка подготовлена редактором журнала Computer по тематике управления информацией и данными Нареном Рамакришнаном (, Virginia Tech). Вводная заметка редактора выпуска называется "Поиск: новые инкарнации" ("Search: The New Incarnations").

Поисковые машины продолжают проникать в массовую культуру. Этому способствуют многочисленные книги, газетные статьи и блоги, посвященные бизнесу поиска и войнам между производителями средств поиска. Со времени предыдущей публикации в журнале Computer подборки статей, посвященных тематике поиска, появилось много новых инкарнаций поиска. В данном специальном выпуске обсуждаются четыре таких инкарнации: персонализированный поиск (personalized search), коллаборативный поиск (collaborative search), спонсируемый поиск (sponsored search) и мобильный поиск (mobile search).

Первая статья тематической подборки написана Торстеном Йоахимсом и Филиппом Радлински (, , Cornell University) и называется "Поисковые машины, обучаемые на основе неявной ответной реакции" ("Search Engines that Learn from Implicit Feedback").

Каждый раз, когда пользователь формулирует запрос или выбирает результат поиска, поисковой машине обеспечивается легко наблюдаемая обратная связь. В отличие от опросов пользователей или других типов явной обратной связи, эта неявная ответная реакция является, по существу, не принудительной, связана с естественным использованием поисковой машины и индивидуальна для конкретного пользователя и заданного набора документов. Интеллектуальная поисковая машина может использовать неявную ответную реакцию для выработки персонализированных функций ранжирования, позволяющих, например, понять, что запрос "SVM" от пользователей из подразделений компьютерных наук наиболее вероятно относится к методу машинного обучения Support Vector Machines, а другие пользователи обычно имеют в виду биржевой символ компании ServiceMaster. При увеличении числа пользователей поисковых машин и повышении уровня их разнородности такая персонализация обеспечивает существенно лучшее качество поиска, чем при использовании функций ранжирования, общих для всех пользователей (http://people.csail.mit.edu/teevan/work/publications/posters/sigir07.pdf).

Аналогичным образом, в поисковой машине неявная обратная связь может использоваться для настройки на некоторую коллекцию документов. Таким образом, готовый поисковый продукт можно настроить на конкретную коллекцию документов, например, обучить его тому, что служащие, производящие поиск в intranet своей компании по запросу "travel reimbursement" (возмещение расходов по командировке), в действительности ищут форму отчета о расходах, даже если в этой форме не содержится слово "reimbursement". Ответную реакцию для этой задачи обучения могут обеспечить последовательности новых формулировок запросов. В частности, если существенная часть служащих, выдающих запрос "travel reimbursement", затем обращается с новыми запросами, доходя, в конце концов, до запроса "expense-report form", то поисковая машина может научиться тому, чтобы включать данные об этой форме в результаты исходного запроса (http://www.cs.cornell.edu/people/tj/publications/radlinski_joachims_05a.pdf).

В большинстве крупных поисковых машин Internet теперь фиксируются запросы и действия пользователей по выбору результата. Но, хотя кажется интуитивно ясным, что неявные ответные реакции могут обеспечить информацию, требуемую для персонализации и адаптации к предметной области, не очень понятно, как поисковая машина может реально воспользоваться этой информацией. Очевидно, что данные о неявных ответных реакциях могут содержать ошибки и искажения, которые обрекают на неудачу применение простых методов обучения.

Авторы статьи показывают, что при обеспечении должного планирования экспериментов и поддержке их правильной интерпретации неявные ответные реакции могут обеспечить точные обучающие данные в форме попарных предпочтений (pairwise preference). Предлагается алгоритм машинного обучения, в котором используются эти предпочтения, и демонстрируется, как можно интегрировать его в действующую поисковую машину.

Название следующей статьи - "Подход к персонализации поиска в Web на основе сообществ" ("A Community-Based Approach to Personalizing Web Search"). Ее написал Бэрри Смит (, University College Dublin).

В последние годы машины для поиска в Web стали доминирующими средствами оперативного доступа к информации. Однако даже сегодня разработчики наиболее успешных поисковых машин борются за достижение высококачественных результатов поиска. Примерно в половине случаев поиск в Web не приводит к получению релевантных результатов.

В ранних поисковых машинах для Web перенимались методы поиска из области информационного поиска. Для определения релевантных документов с повторяющимися вхождениями существенных элементов запроса использовались сложные методы сопоставления. Хотя такие методы оказались полезными для определения наборов потенциально релевантных результатов, они мало способствовали полезному ранжированию результатов.

Как следует ранжировать и упорядочивать документы? Некоторые исследователи решали эту проблему на основе оценивания важности или авторитетности конкретных документов (http://infolab.stanford.edu/pub/papers/google.pdf, http://www.cs.cornell.edu/home/kleinber/auth.pdf). Путем анализа ссылок, входящих в документ и выходящих из него, можно оценить относительную важность этого документа в окружающей его части Web. Например, в знаменитой метрике Google PageRank документу назначается высокое значение веса страницы (page-rank), если он связан со многими другими документами с высокими весами страниц. Таким образом, вычисляются веса для всех проиндексированных документов, и эти веса используются для ранжирования результатов поиска.

Другие исследователи начали применять альтернативные методы ранжирования. В одном из известных альтернативных методов, реализованных в поисковой машине Popularity Engine компании Direct Hit, результаты поиска ранжируются в соответствии с их популярностью среди пользователей. При прочих равных условиях при ранжировании предпочтение отдается тем результатам, которые более часто выбирались пользователями в прошлом. К сожалению, Popularity Engine не сыграл центральную роль на сцене современного поиска (хотя эта технология продолжает использоваться в поисковой машине Teoma), большей частью, потому, что технология оказалась неподходящей для использования при работе с новыми или недостаточно часто посещаемыми сайтами, хотя и в этих случаях этот метод мог бы обеспечить повышенную контекстную релевантность результатов поиска.

Несмотря на не слишком счастливую судьбу Direct Hit, благополучно продолжает существовать идея того, что пользователи должны сами влиять на ранжирование результатов своими предыдущими поисковыми сессиями. Она хорошо резонирует с идеями, лежащими в основе подхода социального Web, название которого подчеркивает важность видения более активной роли пользователей при создании Web-контента и управлении этим контентом. Социальный Web распространяется на направления блогов, wiki, социальных сетей и теггинг, подчеркивая важность сообщества, участия и совместного использования при создании, организации и распространения Web-контента.

Эти идеи стимулируют исследования возможностей соединения и совместного использования данных о поведении сообществ единомыслящих пользователей для адаптации результатов традиционных поисковых машин к потребностям и предпочтениям конкретного сообщества. В идеале это может привести к усовершенствованному индивидуализированному поиску с более релевантными результирующими страницами, соответствующими особенностям сообщества пользователей, к образованию коллективных поисковых знаний.

В центре подхода коллаборативного поиска в Web (collaborative Web search, CWS) находится та идея, что поисковые активности сообщества могут обеспечить ценные поисковые знания, и что обеспечение совместного использования этого знания отдельными пользователями и сообществами делает возможным приспособление к нуждам сообщества результатов традиционных поисковых машин. Это направление исследований мотивируется несколькими естественными сценариями поиска на основе сообществ, и полученные результаты подтверждают перспективность подхода коллаборативного поиска.

Статью "Спонсируемый поиск: мотивируют ли деньги релевантность результатов поиска?" ("Sponsored Search: Is Money a Motivator for Providing Relevant Results?") представили Бернард Йансен и Аманда Спинк (, Pennsylvania State University, , Queensland University of Technology).

Поисковые машины необходимы для взаимодействия с Web. В дополнение к тому, что они обрабатывают поисковые запросы, они также являются навигационными инструментами, обеспечивающими пользователям прямой доступ к конкретным Web-сайтам или содействие в просмотре Сети. Поисковые машины также могут содействовать выполнению транзакций e-бизнеса, а также обеспечивать доступ к некоммерческим службам. Люди используют поисковые машины как словари, средства проверки орфографии и тезаурусы; как дискуссионные группы (Google Groups) и социальные сетевые форумы (Yahoo! Answers); они используются даже как средство для развлечений (Googlewhacking).

На этом конкурентном рынке соперники постоянно стремятся к совершенствованию своих возможностей информационного поиска и к повышению финансовой прибыли. Одной из инноваций является спонсируемый поиск, модель, в которой поиск оплачивается бизнесом: поставщики контента платят владельцами поисковых машин за пользовательский трафик к их Web-сайтам. Оказалось, что спонсируемый поиск является успешной бизнес-моделью для владельцев поисковых машин, рекламодателей и продавцов в режиме online, а также эффективным способом доставки контента пользователям.

Большинство поисковых машин для Web отображает на странице результатов поиска (search-engine results page, SERP) отдельные списки спонсируемых и не спонсируемых ссылок; последние называются алгоритмическими, или органическими ссылками. Для поиска не спонсируемых ссылок в поисковых машинах используются проприетарные алгоритмы, основывающиеся на десятках факторов, неизвестных пользователям, таких как веса PageRank и тексты ссылок (anchor text). Однако очевидным является экономическая мотивация размещения на SERP спонсируемых ссылок. Исследования показывают, что к спонсируемым ссылкам люди относятся отрицательно.

Если предположить, что пользователи желают получать в ответ на свои запросы релевантные результаты, и что спонсируемые ссылки являются настолько же релевантными, как и не спонсируемые ссылки, то не оказывают ли поисковые машины пользователям медвежью услугу, столь заметно выделяя спонсируемые ссылки? Не выиграют ли пользователи и не возрастет ли число переходов по спонсируемым ссылкам, если объединить их в единый список на SERP, как это делается в некоторых метапоисковых машинах. Для обеспечения ответов на эти вопросы авторы проанализировали журнал транзакций из более чем семи миллионов записей одной из основных метапоисковых машин, в которой на SERP спонсируемые и не спонсируемые ссылки объединяются в единый список. Исследовались паттерны пользовательских переходов по ссылкам и изучались смысл результатов спонсируемых поисковых платформ и влияние представления спонсируемых ссылок.

Авторами статьи "Расшифровка тенденций в мобильном поиске" ("Deciphering Trends In Mobile Search") являются Мариам Камвар и Шумит Балуйа (, , Google).

Подобно тому как компьютерные средства поиска в Web открыли путь к увеличению потребления данных, мобильный поиск поможет удовлетворить потребности пользователей в доступе к данным в любое время и в любом месте. В 2006 г. 76% населения США, или 233 миллиона человек пользовались услугами мобильной телефонной связи, и потенциальное влияние беспроводных приложений огромно. Понимание уникальных особенностей мобильного поиска поможет лучше удовлетворить потребности и увеличить число пользователей этой службы.

Авторы проанализировали более миллиона запросов на просмотр страниц, случайным образом выбранных из журналов Google за один месяц в начале 2007 г. Запросы были анонимными; не поддерживалась какая-либо идентификационная информация, позволяющая ассоциировать запросы с пользователями. Во избежание дополнительных факторов, которые могли бы проявиться при работе с несколькими поставщиками услуг поиска, в исследовании использовались услуги только одного поставщика из США. Для проведения различий между компьютерами, PDA и мобильными телефонами использовался пользовательский агент браузера, посылаемый в HTTP-запросе.

Во время проведения исследования пользователям предоставлялся мобильный интерфейс Google с опцией поиска в четырех репозиториях информации: Web (стандартный поиск в Web), локальный репозиторий (информация, относящаяся к конкретному географическому местоположению), репозиторий изображений (поиск изображений по ключевым словам) и мобильный Web (поиск по сайтам, адаптированных для представления информации на экранах мобильных телефонов). Для обеспечения возможности точного сравнения с поиском с использованием стационарных компьютеров авторы сосредоточили свои исследования на запросах к Web.

Запросы группировались в сессии, которые определялись как последовательности запросов одного пользователя, заданные в короткий промежуток времени (http://www.acm.org/sigs/sigir/forum/F99/Silverstein.pdf). Для сессии устанавливался таймаут величиной в 5 минут. Если в течение этого времени внутри пользовательской сессии отсутствовали взаимодействия, то сессия считалась закрытой, и следующее взаимодействие рассматривалось, как начало следующей сессии. Типичная сессия, инициируемая из мобильного или стационарного устройства, состоит из формулировки и ввода запроса, просмотра результатов запроса и анализа выбранного результата.

С использованием таких данных произведен анализ паттернов беспроводного поиска для одного из основных поставщиков поисковых услуг. Сильной стороной такого подхода является широта охвата используемых данных. Google - это популярный сайт, обеспечивающий мобильный поиск, и анализ использования Google обеспечивает обильную количественную информацию о поисковом трафике. Слабость метода состоит в том, что эти числа ничего не говорят об опыте пользователя. Известно, когда и что он запросил, но отсутствует контекст, в котором возник данный запрос. Неизвестны также демографические данные пользователей. Тем не менее, представленный широкий ассортимент данных о состоянии беспроводного поиска может служить полезным ориентиром для дальнейших исследований в этой области.

Последняя статья тематической подборки представлена Раджу Рамакришнамом и Эндрю Томкинсом (, , Yahoo! Research) и называется "Навстречу PeopleWeb" ("Toward a PeopleWeb").

Web превращается в динамический репозиторий информации практически на любую тему, включая людей, связи между ними и связи людей с Web-контентом. На онлайновую активность пользователей будут существенно влиять две появляющиеся возможности. Первая возможность касается данных, и она будет позволять пользователям создавать, аннотировать важные объекты, ссылаться на них и взаимодействовать с ними способами, не зависящими от специфики конкретных сайтов. Эта возможность будет способствовать созданию обильного контента. Вторая возможность касается людей, и она будет позволять пользователям создавать мобильные социальные среды, сопровождающие пользователей при взаимодействии с Web.

По мере возрастания роли онлайнового доступа к Web в повседневной жизни люди потребляют все больше структурированных данных. Структурированные данные включают информацию о ресторанах, продуктах, музыке, видео, людях, социальных сетях и т.д. Например, в конце 2006 г. на специализированных сайтах Google Base и Yahoo! (vertical property) поддерживалось примерно по 150 миллионов структурированных коммерческих списков - информация о домах, работе, продуктах, автомобилях и т.д. В подобных объемах поддерживаются и некоммерческие списки с кулинарными рецептами, комментариями и т.д. По данным компании eBay в 2006 г. она разместила около 2,4 миллиона таких списков.

Компании создают поисковые продукты, рассчитанные на извлечение структурированных метаданных, таких как теги категорий (Kosmix), типы продуктов (Google Base и Yahoo! Shortcuts) или персональные атрибуты (ZoomInfo). Потоки данных реального мира и текущие события отовсюду поступают на сайты социальных сетей, такие как Facebook, Upcoming и Yahoo! Answers, и обычно включают автоматически генерируемые метаданные для обеспечения адресной направленности данных заинтересованным пользователям.

Web-контент теперь производится широкой массой пользователей, а не небольшим числом профессиональных издателей, и скорость создания Web-контента намного превышает скорость порождения других видов контента. Генерируемые пользователями метаданные, в которые члены сообществ помещают такую опорную информацию, как рейтинги, теги и комментарии к контенту, также генерируются быстрее, чем профессионально производимый текст ссылок, традиционная "рабочая лошадка", используемая поисковыми машинами для оценки качества документов.

Более того, метаданные внимания (attentional metadata), которые детализируют части контента, реально используемые пользователями, получают существенный перевес над всеми другими видами метаданных, используемых для обнаружения информации. Метаданные внимания все чаще ищутся и начинают накапливаться в значительных объемах, что, с одной стороны, может привести к смене парадигмы поиска, а с другой стороны, порождает серьезные вопросы по поводу конфиденциальности пользователей.

Пользователи создают и потребляют контент в быстром темпе, часто находясь внутри конкретной социальной структуры, и этот контент становится все более структурированным. В то же время, пользователи должны преодолеть существенные бреши в инфраструктуре Web.

Все значительные репозитории структурированного контента являются специализированными: Amazon специализируется на информации о продуктах, MySpace - на информации о профилях людей, Yelp - на локальных списках и т.д. Репозитории объектов одного и того же типа не связываются между собой, а репозитории с объектами разных типов являются разъединенными. Например, у пользователя, желающего сослаться на определенный цифровой фотоаппарат, отсутствует доступ к его идентификатору. Ему приходится ссылаться на URL, или на URL известного дистрибьютора, или на сайт комментариев, или он должен описать фотоаппарат текстуально. Другому пользователю, желающему добавить метаданные к информации об этом фотоаппарате, приходится это делать изолированно на одном сайте, зная, что большинство потенциальных потребителей этой информации, вероятно, никогда ее не найдет.

Пользователи вынуждены создавать полностью новых персонажей на каждом посещаемом ими сайте и воссоздавать с нуля свои социальные сети. Но даже после этого возможности разных сайтов не взаимодействуют. Отсутствует какой-либо понятный способ совместной глобальной деятельности в Web группы пользователей. Например, пользователь не может составить журнал о путешествии с использованием фотографий с одного сайта и программного обеспечения с другого сайта, даже если у его друзей имеется доступ к обоим сайтам. Методы автоматического определения того, что контент одного пользователя может быть интересен для другого пользователя, также являются специализированными и потому скудными.

По мере того как люди и объекты будут обзаводиться метаданными при перемещении между Web-сайтами, будет образовываться новый тип структуры смешанных сообществ. Объекты данных будут обогащаться метаданными на основе взаимодействий, происходящих в контексте вовлекаемых в них людей. Репутационно-взвешенное авторство (reputation-weighted authorship), а также явно и неявно генерируемые пользователями метаданные будут обеспечивать информацию о качестве объектов, социальная среда будет определять данные для управления доступом и распространения информации, более обширные взаимодействия сообществ будут приводить к созданию более объемного и качественного контента. Будет возрастать число индивидуальных параметров пользователей, отражая их активности по отношению к различным темам и сайтам, происходящие в единообразной манере; аналогичным образом будет разрастаться информация об объектах, отражая восприятия различных сообществ.

Результатом явится новый PeopleWeb, образуемый пользователями и их взаимодействиями со все более ценным контентом. В качестве иллюстрации приводится следующий сценарий. На сайте PhotoManiacs Эндрю может пометить заданный атрибут некоторого объекта - например, атрибут "num-pixels" (число пикселей) у Nikon D80 - значением "10.2M", добавить комментарий, и предоставить доступ к этим метаданным группе AndrewPhotoBuddies, которой он управляет на другом сайте. Затем этот объект может увидеть некоторый другой пользователь, например, Раджу, на некотором другом сайте - например, на странице Майка на сайте Facebook - и все метаданные, накопленные в PhotoManiacs, будут ему доступны в соответствии с правилами доступа.

Единственная большая статья августовского номера, опубликованная вне тематической подборки, называется "Неизбежный цикл: графические инструментальные средства и парадигмы программирования" ("The Inevitable Cycle: Graphical Tools and Programming Paradigms"). Ее авторы - Иржи Сукап и Мартин Сукап (, Code Farms, , Nortel).

Вне зависимости от того, какие компьютеры и языки программирования имеются в наличие, программисты увеличивают размеры и сложность создаваемых ими программ до тех пор, пока не лишатся возможности надежно отлаживать их или изменять. В этой ситуации производственные программисты изобретают и начинают использовать различные графические инструментальные средства, возрождая старую идею программирования в картинках. Потом кто-либо предлагает новую парадигму или язык программирования, позволяющие создавать более контролируемые программы. Программисты быстро забывают про графические инструменты. Используя новую технологию, они начинают заниматься более сложными проблемами, размер программ возрастает, и начинается новый цикл.

В статье эта цикличность демонстрируется на трех исторических примерах. Структурное программирование привело к отказу от некогда распространенных блок-схем, появление указателей и структур вынудило отказаться от табличных диаграмм (table diagram), принятых в мире Fortran, а приход объектно-ориентированного программирования с использованием библиотек классов сопровождался отказом от диаграмм указателей (pointer diagram), популярных в 1980-х гг. Авторы в своей статье сконцентрировались только на наиболее успешных парадигмах. В сообществе программистов не были приняты многие другие парадигмы и языки программирования, от части из-за персональных предпочтений, отчасти в связи с коммерческими интересами.

Попытки перехода к графическим языкам программирования начались одновременно с возникновением дисциплины программирования. Эта идея заново возникала на каждом цикле. Графические инструментальные средства получают широкое распространение, потому что используемая технология разработки программного обеспечения на основе текстуального программирования становится слишком сложной. Требуются новые парадигмы или языки программирования, позволяющие программистам вернуться к более компактному текстуальному программированию.

В частности, популярность диаграмм классов UML отражает потребность в программном механизме для описания связей между данными, а кодирование паттернов разработки для их повторного использования продолжает оставаться проблемой. Интересно будет увидеть, какие появятся новые парадигмы и преуспеют ли они.

Авторы статьи работают над одним из возможных решений этой проблемы. Они пытаются заменить существующие библиотеки контейнеров существенно более общей библиотекой повторно используемых ассоциаций. Это должно упростить синхронизацию между кодом и диаграммами UML и позволить связям между данными стать явно видимой, хотя и неотъемлемой частью кода.