[identity profile] xzekytep.livejournal.com posting in [community profile] useless_faq
Возможно ли сделать такой интернет-поисковик: рядом со строчкой кнопочка "Обзор", за ней - "Поиск". Вы нажимаете "Обзор" и выбираете графический файл, который недавно скачали из интернета. Суть в том, что поисковик ищет сайты, на которых встречается данная картинка. Понятно, что это отнимет кучу ресурсов, вообще неясно как проводить индексирование, много ещё вопросов, но в принципе - реально?
PS Знаю, что существуют подобные программы для поиска порно на компе, там анализируется процентное отношение цвета человеческой кожи к остальным цветам.

UPD Спонсоры, где вы...

Date: 2006-02-18 10:17 pm (UTC)
From: [identity profile] glukinho.livejournal.com
В принципе, с помощью компьютера вообще абсолютно всё реально :)

Date: 2006-02-18 10:41 pm (UTC)
From: [identity profile] netp-npokon.livejournal.com
На самом деле это не так, ну да ладно :)

Date: 2006-02-18 10:20 pm (UTC)
From: [identity profile] dr-von-ozgg.livejournal.com
Ну есть же системы распознования образа. Вот думаю, что на их подобии можно.

Date: 2006-02-18 10:28 pm (UTC)
From: [identity profile] dr-von-ozgg.livejournal.com
Не только. Есть ещё и системы отслеживания ракет, и т.п. :) Вон на ВМК у студентов была курсовая - написать систему, которая распознавала бы ложки на картинках. Так что в принципе это реально :)
А анализировать можно просто схожесть картинки по тем или иным критериям. Индексы хранить - в каком-ньть не шипко большом формате. Скажем JPG с почти минимальным качеством :)

Date: 2006-02-18 10:26 pm (UTC)
From: [identity profile] ortemko.livejournal.com
Проще всего найти тот же самый (бит-в-бит) файл.

Чуть сложнее - "такую же" или очень похожую картинку. Но тоже можно. В целом, наука готова :)

А каков бюджет проекта с поисковика?

Date: 2006-02-18 10:39 pm (UTC)
From: [identity profile] ortemko.livejournal.com
Имя файла, пропорции (отношение высоты к ширине) - это легче всего.

Содержимое - несравнимо сложее. Если оригинал был в PNG, а его сохранили скажем, в JPG, даже отдельные пикселы цвета поменяют. Чтобы файл узнать, нужно с тем самым "распознаванием образов" (вейвлетами, нейронными сетями) маяться. Это не только сложно реализовать, но и здоровенная нагрузка на вычислительные ресурсы (перелопатить все картинки инета, да её "выделить" из них собственно суть).

Date: 2006-02-18 11:14 pm (UTC)
From: [identity profile] ortemko.livejournal.com
Так мы решим только частную задачу, когда картинка осталась почти неизменной. Если юзер хочет найти "эту" картинку (размером 1000x1000 пикселов), ему будет сложно понять, почему не нашлась такая же картинка, после того, как её масштабировали, отрезали края и сделали размером 800x600.

Явно же видно, что изображено одно и то же. Но так по простому "на области" две картинки уже не поделишь.

Date: 2006-02-19 01:45 pm (UTC)
From: [identity profile] grey-horse.livejournal.com
Ксати, замечательную штуку сделал Гугл для файрфокса: http://www.google.com/tools/firefox/webcomments/
Действительно, занятно. Как http://talkdigger.com/, но там нет интеграции с броузером.

Date: 2006-02-19 02:25 pm (UTC)
From: [identity profile] nishi-miller.livejournal.com
Есть же программы по нахождению дубликатов картинок на компе - так и назыается - dup detector
Работает вне зависимости от формата и размера картинки - по соотношению пикселей определенного цвета и света картинки...

Date: 2006-02-18 10:33 pm (UTC)
From: [identity profile] netp-npokon.livejournal.com
Индексирование проводить легко - достаточно посчитать хеш картинки и ее размер (чтобы уменьшить число нежелательных коллизий). Поскольку картинки обычно путешествуют по Сети в неизменном состоянии (в отличие от текстов), собирать и хранить их - одно удовольствие, даже ключевые слова не нужны.
Если вы таки имеете в виду поиск похожих картинок (или, к примеру, подкартинок в картинке), то задача эта куда сложнее. К примеру, существует поучительная байка о том, как губернатор одного американского штата приказал запретить распространение порно, а в качестве критерия выбрал одну из таких программ. Естественно, нашлись умники, которые скормили программе портрет самого губернатора. Результат предсказуем :)

Date: 2006-02-18 10:36 pm (UTC)
From: [identity profile] f2065.livejournal.com
Найти не именно похожий сюжет, а именно такой-же файл - запросто. Индексировать файлы вполне можно, например по CRC64+Size.

я как-то в ЖЖ повесил картинку со своего сервера. И потом смотрел логи и IP тех кто её скачивал. Там было около 20 роботов в час!!!. Причём, я тогда только пришёл в ЖЖ и нигде не засветился. Какие-то американские зеркала-архиваторы картинок (куда потом можно было зайти и посмотерть картинку когда я её уже снял), и детекторы watermark-копирайтов...

и помнится некоторые фирмы - регистраторы watermark - предлагают на некое кол-во денег искать по всему инету кто выложил зарегистрированную картину...

вобщем, такие поисковики в инете давным-давно существует, но интерфейса для рядовых юзеров - у них нет.

Date: 2006-02-18 11:07 pm (UTC)
From: [identity profile] bumper-11.livejournal.com
И ещё с музыкой и видео то же самое надо сделать!

Date: 2006-02-18 11:13 pm (UTC)
From: [identity profile] bumper-11.livejournal.com
Это просто мои фантазии. Поскольку я в компьютерах ничего не понимаю и ничего умного предложить не могу.
Хотя может оказаться полезной такая фишка: по заданному тексту песни находить её в mp3.

Date: 2006-02-18 11:17 pm (UTC)
From: [identity profile] bumper-11.livejournal.com
Вообще-то Вы правы:)))

Date: 2006-02-18 11:40 pm (UTC)
From: [identity profile] mlcn.livejournal.com
я щаз занимаюсь проблемой поиска музыки по контенту, там очень дофига работы сделано в этой отрасли.
лично я занимаюсь содержательным онализом музыки с точки зрения музыкальной теории и музыкальной семиотики. Если бы не лень - давно бы уже была готова модель для поисковика ;))

ISMIR - так называется конференция по music information retrieval

Date: 2006-02-18 11:42 pm (UTC)
From: [identity profile] bumper-11.livejournal.com
Работайте, работайте... :))

Date: 2006-02-18 11:52 pm (UTC)
From: [identity profile] mlcn.livejournal.com
простой пример использования:
допустим, у тебя на винте есть 50 гигов музыки, разных стилей, аффтаров, и т.д. А тебе надо поехать на дачу, и записать в дорогу компакт диск какой-нибудь под настроение.
Как это сделать быстро, если не вдаваться в подробности об авторе, стиле, названии композиции, и т.д. - а просто подобрать музончик ? Оказывается, каждое музыкальное произведение имеет свое эмоциональное содержимое, которое можно анализировать, индексировать, ну и тому подобное. Поэтому, вбив в систему эмоцию "Шоб пёрло" и описав её параметрически (например "весело - 10%, энергично- 20%, радостно - 50%....) можно заставить своего железнаво иликтроннаво друга выбрать все более-менее подходящие композиции. Учитывая твою индивидуальность, некоторое время придется потратить на подгонку поисковика под тебя, любимого, но зато потом он сможет помочь тебе подобрать музончик конкретно под настроение. Кстати, пару недель назад был запатентован плейер который реагирует на состояние слушателя (меряет пульс, давление, потоотделение). Так што это перспективно весьма.

Date: 2006-02-19 12:51 am (UTC)
From: [identity profile] mlcn.livejournal.com
лень спорить

Date: 2006-02-19 01:14 pm (UTC)
From: [identity profile] grey-horse.livejournal.com
Но вот наверное этот самый анализ будет отнимать довольно много ресурсов
http://www.irateradio.com/ потребляет не так много. Канал забивает, конечно, но процессорное время ест весьма умеренно.

Date: 2006-02-19 01:10 pm (UTC)
From: [identity profile] grey-horse.livejournal.com
можно заставить своего железнаво иликтроннаво друга выбрать все более-менее подходящие композиции
Мне сразу вспомнилось http://www.irateradio.com/.

Date: 2006-02-19 04:38 am (UTC)
From: [identity profile] grey-horse.livejournal.com
http://www.musipedia.org/ - поиск музыки, содержащей заданную последовательность нот.

Date: 2006-02-19 01:09 pm (UTC)
From: [identity profile] bumper-11.livejournal.com
Ух ты! Обалдеть! Жалко, я ноты не знаю.

Date: 2006-02-19 01:16 pm (UTC)
From: [identity profile] grey-horse.livejournal.com
Поиск похожего - вообще увлекательная вещь. Если оно интересно и вам, заглядывайте время от времени в [livejournal.com profile] ru_preference.

Date: 2006-02-19 04:39 am (UTC)
From: [identity profile] grey-horse.livejournal.com
http://labs.systemone.at/retrievr/ - поиск похожих картинок. Пока работает плохо.

Date: 2006-02-19 01:08 pm (UTC)
From: [identity profile] grey-horse.livejournal.com
Только кажется она не по всему инету ищет, а только у себя где-то
Ищет она на Flickr.

Date: 2006-02-19 11:42 am (UTC)
From: [identity profile] da-pretzel.livejournal.com
Я сейчас участвую в тестировании сервиса, который делае именно то, что здесь предложено. И что удивительно - делает замечательно. Ссылку пока дать не могу, но у меня есть сведения, что в течение ближайших недель они готовятся открыться