http://xzekytep.livejournal.com/ ([identity profile] xzekytep.livejournal.com) wrote in [community profile] useless_faq2006-02-19 01:13 am

Бредовая идея из детства:

Возможно ли сделать такой интернет-поисковик: рядом со строчкой кнопочка "Обзор", за ней - "Поиск". Вы нажимаете "Обзор" и выбираете графический файл, который недавно скачали из интернета. Суть в том, что поисковик ищет сайты, на которых встречается данная картинка. Понятно, что это отнимет кучу ресурсов, вообще неясно как проводить индексирование, много ещё вопросов, но в принципе - реально?
PS Знаю, что существуют подобные программы для поиска порно на компе, там анализируется процентное отношение цвета человеческой кожи к остальным цветам.

UPD Спонсоры, где вы...

[identity profile] glukinho.livejournal.com 2006-02-18 10:17 pm (UTC)(link)
В принципе, с помощью компьютера вообще абсолютно всё реально :)

[identity profile] dr-von-ozgg.livejournal.com 2006-02-18 10:20 pm (UTC)(link)
Ну есть же системы распознования образа. Вот думаю, что на их подобии можно.

[identity profile] ortemko.livejournal.com 2006-02-18 10:26 pm (UTC)(link)
Проще всего найти тот же самый (бит-в-бит) файл.

Чуть сложнее - "такую же" или очень похожую картинку. Но тоже можно. В целом, наука готова :)

А каков бюджет проекта с поисковика?

[identity profile] dr-von-ozgg.livejournal.com 2006-02-18 10:28 pm (UTC)(link)
Не только. Есть ещё и системы отслеживания ракет, и т.п. :) Вон на ВМК у студентов была курсовая - написать систему, которая распознавала бы ложки на картинках. Так что в принципе это реально :)
А анализировать можно просто схожесть картинки по тем или иным критериям. Индексы хранить - в каком-ньть не шипко большом формате. Скажем JPG с почти минимальным качеством :)

[identity profile] netp-npokon.livejournal.com 2006-02-18 10:33 pm (UTC)(link)
Индексирование проводить легко - достаточно посчитать хеш картинки и ее размер (чтобы уменьшить число нежелательных коллизий). Поскольку картинки обычно путешествуют по Сети в неизменном состоянии (в отличие от текстов), собирать и хранить их - одно удовольствие, даже ключевые слова не нужны.
Если вы таки имеете в виду поиск похожих картинок (или, к примеру, подкартинок в картинке), то задача эта куда сложнее. К примеру, существует поучительная байка о том, как губернатор одного американского штата приказал запретить распространение порно, а в качестве критерия выбрал одну из таких программ. Естественно, нашлись умники, которые скормили программе портрет самого губернатора. Результат предсказуем :)

[identity profile] f2065.livejournal.com 2006-02-18 10:36 pm (UTC)(link)
Найти не именно похожий сюжет, а именно такой-же файл - запросто. Индексировать файлы вполне можно, например по CRC64+Size.

я как-то в ЖЖ повесил картинку со своего сервера. И потом смотрел логи и IP тех кто её скачивал. Там было около 20 роботов в час!!!. Причём, я тогда только пришёл в ЖЖ и нигде не засветился. Какие-то американские зеркала-архиваторы картинок (куда потом можно было зайти и посмотерть картинку когда я её уже снял), и детекторы watermark-копирайтов...

и помнится некоторые фирмы - регистраторы watermark - предлагают на некое кол-во денег искать по всему инету кто выложил зарегистрированную картину...

вобщем, такие поисковики в инете давным-давно существует, но интерфейса для рядовых юзеров - у них нет.

[identity profile] ortemko.livejournal.com 2006-02-18 10:39 pm (UTC)(link)
Имя файла, пропорции (отношение высоты к ширине) - это легче всего.

Содержимое - несравнимо сложее. Если оригинал был в PNG, а его сохранили скажем, в JPG, даже отдельные пикселы цвета поменяют. Чтобы файл узнать, нужно с тем самым "распознаванием образов" (вейвлетами, нейронными сетями) маяться. Это не только сложно реализовать, но и здоровенная нагрузка на вычислительные ресурсы (перелопатить все картинки инета, да её "выделить" из них собственно суть).

[identity profile] netp-npokon.livejournal.com 2006-02-18 10:41 pm (UTC)(link)
На самом деле это не так, ну да ладно :)

[identity profile] bumper-11.livejournal.com 2006-02-18 11:07 pm (UTC)(link)
И ещё с музыкой и видео то же самое надо сделать!

[identity profile] bumper-11.livejournal.com 2006-02-18 11:13 pm (UTC)(link)
Это просто мои фантазии. Поскольку я в компьютерах ничего не понимаю и ничего умного предложить не могу.
Хотя может оказаться полезной такая фишка: по заданному тексту песни находить её в mp3.

[identity profile] ortemko.livejournal.com 2006-02-18 11:14 pm (UTC)(link)
Так мы решим только частную задачу, когда картинка осталась почти неизменной. Если юзер хочет найти "эту" картинку (размером 1000x1000 пикселов), ему будет сложно понять, почему не нашлась такая же картинка, после того, как её масштабировали, отрезали края и сделали размером 800x600.

Явно же видно, что изображено одно и то же. Но так по простому "на области" две картинки уже не поделишь.

[identity profile] bumper-11.livejournal.com 2006-02-18 11:17 pm (UTC)(link)
Вообще-то Вы правы:)))

[identity profile] mlcn.livejournal.com 2006-02-18 11:40 pm (UTC)(link)
я щаз занимаюсь проблемой поиска музыки по контенту, там очень дофига работы сделано в этой отрасли.
лично я занимаюсь содержательным онализом музыки с точки зрения музыкальной теории и музыкальной семиотики. Если бы не лень - давно бы уже была готова модель для поисковика ;))

ISMIR - так называется конференция по music information retrieval

[identity profile] bumper-11.livejournal.com 2006-02-18 11:42 pm (UTC)(link)
Работайте, работайте... :))

[identity profile] mlcn.livejournal.com 2006-02-18 11:52 pm (UTC)(link)
простой пример использования:
допустим, у тебя на винте есть 50 гигов музыки, разных стилей, аффтаров, и т.д. А тебе надо поехать на дачу, и записать в дорогу компакт диск какой-нибудь под настроение.
Как это сделать быстро, если не вдаваться в подробности об авторе, стиле, названии композиции, и т.д. - а просто подобрать музончик ? Оказывается, каждое музыкальное произведение имеет свое эмоциональное содержимое, которое можно анализировать, индексировать, ну и тому подобное. Поэтому, вбив в систему эмоцию "Шоб пёрло" и описав её параметрически (например "весело - 10%, энергично- 20%, радостно - 50%....) можно заставить своего железнаво иликтроннаво друга выбрать все более-менее подходящие композиции. Учитывая твою индивидуальность, некоторое время придется потратить на подгонку поисковика под тебя, любимого, но зато потом он сможет помочь тебе подобрать музончик конкретно под настроение. Кстати, пару недель назад был запатентован плейер который реагирует на состояние слушателя (меряет пульс, давление, потоотделение). Так што это перспективно весьма.

[identity profile] mlcn.livejournal.com 2006-02-19 12:51 am (UTC)(link)
лень спорить

[identity profile] grey-horse.livejournal.com 2006-02-19 04:38 am (UTC)(link)
http://www.musipedia.org/ - поиск музыки, содержащей заданную последовательность нот.

[identity profile] grey-horse.livejournal.com 2006-02-19 04:39 am (UTC)(link)
http://labs.systemone.at/retrievr/ - поиск похожих картинок. Пока работает плохо.

[identity profile] da-pretzel.livejournal.com 2006-02-19 11:42 am (UTC)(link)
Я сейчас участвую в тестировании сервиса, который делае именно то, что здесь предложено. И что удивительно - делает замечательно. Ссылку пока дать не могу, но у меня есть сведения, что в течение ближайших недель они готовятся открыться

[identity profile] grey-horse.livejournal.com 2006-02-19 01:08 pm (UTC)(link)
Только кажется она не по всему инету ищет, а только у себя где-то
Ищет она на Flickr.

[identity profile] bumper-11.livejournal.com 2006-02-19 01:09 pm (UTC)(link)
Ух ты! Обалдеть! Жалко, я ноты не знаю.

[identity profile] grey-horse.livejournal.com 2006-02-19 01:10 pm (UTC)(link)
можно заставить своего железнаво иликтроннаво друга выбрать все более-менее подходящие композиции
Мне сразу вспомнилось http://www.irateradio.com/.

[identity profile] grey-horse.livejournal.com 2006-02-19 01:14 pm (UTC)(link)
Но вот наверное этот самый анализ будет отнимать довольно много ресурсов
http://www.irateradio.com/ потребляет не так много. Канал забивает, конечно, но процессорное время ест весьма умеренно.

[identity profile] grey-horse.livejournal.com 2006-02-19 01:16 pm (UTC)(link)
Поиск похожего - вообще увлекательная вещь. Если оно интересно и вам, заглядывайте время от времени в [livejournal.com profile] ru_preference.

[identity profile] grey-horse.livejournal.com 2006-02-19 01:45 pm (UTC)(link)
Ксати, замечательную штуку сделал Гугл для файрфокса: http://www.google.com/tools/firefox/webcomments/
Действительно, занятно. Как http://talkdigger.com/, но там нет интеграции с броузером.

[identity profile] nishi-miller.livejournal.com 2006-02-19 02:25 pm (UTC)(link)
Есть же программы по нахождению дубликатов картинок на компе - так и назыается - dup detector
Работает вне зависимости от формата и размера картинки - по соотношению пикселей определенного цвета и света картинки...