AntiDupl.NET — поиск похожих изображений

Сайт программы: antidupl.sourceforge.net, скачать можно здесь
Автор: Игорь Ермолаев
Язык интерфейса: русский, английский и другие.
Графические форматы: JPEG, GIF, TIFF, BMP, PNG, ICO и другие.
Программа не требует инсталляции, представляя собой самораспаковывающийся архив.

В борьбе хомяка с жабой последняя капитулирует как только речь заходит о бесплатном, тем более, когда это бесплатное (и прекрасное) можно скачать в пару кликов. Давеча, обнаружив у себя потайную папку с шестью гигабайтами вязальных журналов, некогда слитых с торрента и благополучно забытых, ((И я не упоминаю о неразобранных фото-журналах разной степени свежести, неразобранных и, видимо, обреченных навсегда остаться в папке Unsorted, ибо Искусство (в отличие от вязания) не терпит суеты.)) и внезапно осознав, куда девается место на диске, я принимаю решение избавиться от дубликатов. Программ, облегчающих эту неинтересную, утомительную, но нужную работу, не мало. Рекомендую одну из них: герой обзора — AntiDupl.NET. Программа бесплатна, и даже, благодаря любезности автора, в открытых исходных кодах.

Далее… »

Программа, как гласит документация, может находить не только полностью одинаковые изображения, но и похожие картинки, то есть одно и то же изображение может содержаться в файлах с разным форматом, степенью сжатия и разрешением. Итак, к делу.

Подготовим две папки — два скана журнала Сабрина. Хотя число страниц в сканах одинаково, имена файлов и их размер не совпадают, что наводит на мысли о разном качестве сканирования. Запускаем программу и нажимаем кнопку с надписью Open (или Поиск — Пути), указываем обе папки и, предвкушая легкий успех (Knitting Club плохого не посоветует), нажимаем «Начать поиск» и… ничего не происходит. Таблица осталась пуста, дубли не найдены. Пришло время изучить панель инструментов, обратив особое внимание на выпадающий список «Пороговая разность». Не дрогнувшей рукой выставляем 15% и вуаля: получаем дублей даже больше чем хотелось бы — многие схемы программа сочла одинаковыми, хотя невооруженным глазом видна разительная разница.

Истина где-то посередине, подумалось мне, 7% — самое оно. Это пороговое значение нужно подбирать опытным путем в зависимости от качества сканов и степени их похожести. Посмотрите настройки — там есть еще некоторые рычаги, позволяющие поднастроить процесс сравнения. В особо сложных случаях придется отделить цветные страницы с фотографиями от текстовых черно-белых страниц со схемами, и подбирать параметры сравнения для каждой группы картинок индивидуально.

Теперь результат просто отличный — найдено ровно столько дублей, сколько и ожидалось — по числу страниц в журнале. Беглый просмотр показывает, что все дубли выявлены верно. Программа делает все возможное, чтобы облегчить задачу отсева дублей — выделяет красным те параметры, которые хуже в данной паре, подсказывая какую из картинок удалить. Любопытно, что в некоторых случаях больший размер картинки не свидетельствует о лучшем качестве или большем разрешении. Это заставляет задуматься — а какую из копий оставить? я решаю этот вопрос субъективно: открывая две картинки на весь экран и сравнивая. (Есть и программы, визуализирующие разницу между картинками, но не о них сейчас речь). Иногда принятое решение можно распространить на остальные пары. На верхней панели вы найдете кнопки для массовой обработки: «Удалить первые картинки в выделенных результатах», «Удалить вторые картинки в выделенных результатах», «Удалить все парные картинки в выделенных результатах» и «Автоматически обработать выделенные результаты», хотя можно и вручную пройтись по всем парам и вдумчиво удалить в каждой паре именно то, надо, а может и ничего не удалять, бывает, что сканы дополняют друг друга.

Что еще: есть профили; программа может запоминать свои неправильные срабатывания и учитывать это при повторном поиске; поддержка 64 битности; умение искать повернутые и зеркальные дубликаты; при сравнении изображений программа может игнорировать рамку; загрузка поврежденных файлов; настройка горячих клавиш. Сравнение формата GIF ведется по первому кадру последовательности. Тестирование на коллекции в 1 миллион картинок: результаты. Как сказано на одном популярном форуме: «…как будто мы не пробовали Дуплексы и прочие хренексы. Антидупл это шедеврик….»

Andarin:
Вот мой краткий тест: 4500 картинок JPG, из них 1000 размером меньше 400х500, больше 1600х1200 200 картинок, максимальный размер 5045х5700.
Время затраченное ImageDupeless — 3 мин. 10 сек. на добавление картинок в галерею + 10 сек на поиск дубликатов, итог 146 похожих.
AntiDuplNET — 30 сек на всю процедуру, 123 похожих.
Процент отличия в обоих случаях установлен 5%.
В обоих случаях главные ошибки — на однотонных картинках и текстурах.
ImageComparer показал соответственно время 39 сек. + 51 сек. Итог — 232 картинки.
Итоги в них считаются по разному, так что тут числа весьма приблизительные.
Что мне нравится в AntiDupl.NET и ImageComparer — можно отсортировать по проценту отличия. У AntiDupl.NET дополнительный плюс — бесплатно.
WatsonRus:
Для меня главным показателем стало дикое количество пропущенных остальными [программами] 100% одинаковых картинок, хотя я даже глазами видел одинаковые картинки в разных папках. И это при том, что картинки с различиями другие проги прекрасно видели, видели они и 100% одинаковые, которые были мной удалены. Но почему они не видели оставшиеся 100% одинаковые….
Andarin:
В настройках AntiDuplNet большое значение имеет параметр «отнормированный размер картинок». При 16х16 и 32х32 ложных результатов гораздо больше и даже процент различия показывается разный. Но об этом и в справке сказано.

P.S. Отмечу, что хранение журналов в виде (упакованных) наборов картинок снова оказалось удобнее, чем формат pdf: таких качественных бесплатных программ для нечеткого сравнения pdf-документов я не припомню. Впрочем, почти всегда pdf можно разобрать на отдельные картинки и свести задачу к предыдущей, но в об этом в следующий раз. Подписывайтесь на Rss и следите за новинками, пока нашу планету не захватили инопланетяне.
(Для просмотра необходимо авторизоваться)
P.P.S. Пост написан, вычитан, опубликован. Дубликаты в количестве шести гигабайт на прежнем месте. Писать, оно, как известно, легче, чем работать.

*

Copyright © All Rights Reserved · Green Hope Theme by Sivan & schiy · Proudly powered by WordPress