Интернет-компания Google в рамках конференции разработчиков в Пекине представила новое программное обеспечение, которое должно в корне изменить системы поиска графических изображений, сделав этот процесс более простым и эффективным.



Новое средство, получившее название PageRank for Image Product Search, применяет в поиске и анализе графических файлов те же принципы, что и поисковая машина компании при индексировании веб-страниц, в частности, новинка индексирует картинки не только по названию, но и по содержанию, релевантности и качеству.

"Графический поиск представляет для интернет-поисковиков серьезную проблему, так как поисковый механизм не способен распознать картинку точно также, как это делает человек. Большая часть механизмов, которые сейчас занимаются поиском графики, на самом деле такие же текстовые поисковики, так как реагируют на названия файлов. Новая же система работает непосредственно с изображениями", - говорят в Google.

В компании отмечают, что довольно близки к моменту представления первой бета-версии программы, которая действительно станет графическим поисковиком и будет работать с содержанием картинок и их релевантностью запросу.

Известно, что новая система будет работать с набором шаблонов, так называемых визуальных тем, которые будут содержать графику и описание тех или иных объектов. Система будет самообучающейся, то есть чем больше запросов через нее прошло, тем больше связей между картинками было создано и тем более точные результаты будут в итоге выданы.

Сортироваться картинки будут и по принципу похожести - программа будет находить основной предмет, изображенный на картинке и брать его за основу, одновременно с этим, если на картинке будут присутствовать и другие объекты, то они также будут проиндексированы, но им будет присвоен меньший коэффициент. В итоге после индексирования в базе поисковика будет создана многомерная индексная матрица, в которой объекты будут связаны по принципу "многие ко многим".

Например, при запросе пользователя "McDonalds" система в первую очередь предоставит картинки, где данному запросу соответствует наибольшее количество определений (логотипы, интерьер, продукты и проч), ранжироваться картинки будут по анализу веса каждого из объектов на картинке.

На сегодня в Google уже продемонстрировали свой алгоритм на примере 2000 самых популярных картинок, встречающихся в запросах на Google Images.

Год назад свой подход к данной проблеме представила и японская Hitachi, которая разработала новую технологию поиска информации, способную найти те или иные данные из миллионов документов буквально за считанные секунды, причем документы могут быть как текстовыми, так и графическими.

Разработка оценивает схожесть графических изображений на базе повторяющихся цепочек двоичных данных. В качестве ключевых данных, которые система берет для основы поиска, выступает самый широкий диапазон информации - текстовые последовательности, переходы цветов или распределение информации.

По словам представителей Hitachi, представленная разработка является усовершенствованием представленного ранее алгоритма, который использовал данные на жестких дискам и в ОЗУ ПК. Однако новая технология способна регистрировать изображения или документы и разбивать похожие по содержанию на кластеры. Каждый кластер представляет собой выборку по той или иной характеристике. Кластеров может быть сколь угодно много, поэтому реализуется технология многомерного поиска, сравнимая с работой нейронов головного мозга людей. При поступлении запроса технология сначала производит поиск по кластерам, затем, обнаружив несколько кластеров с подходящими данными, сужает поиск до групп документов, из которых состоят кластеры.

Инженеры компании говорят, что новая разработка способна практически мгновенно находить нужные данные из массы информации, а кроме того, заметно экономить память и процессорные ресурсы компьютера, когда поиск производится по "тяжелым" файлам, например фотографиям с высоким разрешением или видеофайлам.