Scan Tailor. Программа для обработки отсканированных книг

30 апреля 2009, 09:33 пп
Теги: графика, книги, софт

Попалась мне недавно программка Scan Tailor, которая предназначена для автоматической обработки отсканированных книг. С помощью этой программы можно разрезать страницы, если страницы сканировались не по одной, а целыми разворотами, можно исправить наклоны страниц, если они криво лежали в сканере, и провести еще некоторые полезные обработки.

Программа является бесплатной, да еще и с открытыми кодами, если версия под Винду, а можно из исходников скомпилить и под Линух. Официальный сайт — http://scantailor.sourceforge.net/.

Книжки сканирую я, к счастью, не часто, а вот обрабатывать уже отсканированные кем-то иногда приходится, в основном чтобы разрезать отсканированные развороты страниц на отдельные страницы. Описать программу Scan Tailor я решил на примере такой обработки. Для экспериментов взял первую попавшуюся книжку в формате DJVU с двойными страницами (первой попалась книга Ю.Ю. Ненахова «Чудо-оружие третьего рейха») и для начала преобразовал все страницы в формат TIFF, потому что для Scan Tailor исходными данными являются отсканированные рисунки. Для преобразования DJVU -> TIFF я использовал программу DjvuOCR. В результате у меня получилось 310 файлов TIFF каждый из которых содержал по две страницы.

При запуске Scan Tailor спросил где находится папка с отсканированными файлами, указал на папку с TIFF-ами и создался новый проект. Внешний вид программы видно на следующем скриншоте:

Главное окно программы

Первым этапом обработки идет исправление ориентации страниц. В данном случае этот этап можно пропустить, все страницы расположены в нужной ориентации, но для эксперимента посмотрел сколько по времени программа будет вращать 310 файлов. Оказалось, что на моем компе на AMD 3500+ с гигом оперативки и WinXP + SP2 это заняло пару секунд. Вообще программа за все время работы не занимала больше 50 МБ оперативки.

Вторым этапом идет разрезка страниц. Scan Tailor автоматически пытается определить границы между страницами и в большинстве случаев ей это удается.

Зарзезка страниц

Но даже если она и ошибается, то за ней можно исправить огрехи, перемещая линию, разделяющую страницы. Причем программа даже может разделять страницы, если они отсканированы под углом. На следующем скриншоте это хорошо видно, заодно видно как Scan Tailor немного промахнулся:

Еще парочка промахов:

Разрезка страниц заняла чуть больше двух минут, а если точнее 2 минуты и 18 секунд, и на 310 разворотов программа ошиблась 14 раз, что, ИМХО, не так уж и плохо. На выходе получилось 620 одинарных страниц.

После этого наступает черед компенсации наклона. Программа просматривает все страницы и разворачивает их так, чтобы текст был строго горизонтально. Тоже это происходит автоматически, но при желании можно и вручную повращать страницы. Для удобства на отсканированные страницы при этом накладывается «листик в клеточку».

Компенсация наклона заняла полторы минуты и вмешиваться после автоматической коррекции не пришлось, программа отработала этот этап просто замечательно.

Четвертым этапом обработки идет определение полезной области, чтобы отсечь лишние пустые места. Это довольно долгий процесс, который для 620 страниц занял 22 минуты. Здесь программа тоже сработала без ошибок.

На пятом этапе задается так называемый макет страницы, то есть какого размера должны быть поля у отсканированного текста и выравнивание на странице. На следующем скриншоте я установил слева и справа нулевые поля (все-равно они остались от исходных отсканированных страниц, зачем их еще увеличивать), а по вертикали добавил по 5 мм.

Эта операция заняла несколько секунд.

И, наконец, на последнем, шестом этапе, происходит вывод результирующих файлов. Здесь можно задать некоторые обработки вроде удаления пятен. В результате программа создала папку out, куда сохранила полученные файлы тоже в формате TIFF. Поменять выходной формат нельзя. В результате получились файлы с именами вида XXXX_filename.tiff, где filename.tiff — изначальное имя каждого файла, а XXXX — порядковый номер страницы.

Это была самая долгая операция, она заняла 35 минут.

Итого. Мне программа очень даже понравилась, интерфейс работает шустро, на сколько быстро работают алгоритмы обработки сказать трудно, потому что мне не с чем сравнивать, с подобными программами я сталкиваюсь впервые. Обработать 620 страничную книгу удалось чуть больше, чем за час. Для сравнения закачал в обменник исходную книгу и ее же после обработки. Не обращайте внимания, что там не хватает пары страниц в 20-ых страницах, это не я их вырвал, это так и было. 🙂

Программа активно развивается, последняя на данный момент версия вышла 26 апреля этого года, автор принимает пожелания и сообщения об ошибках, в том числе и на форуме ru-board.

В Scan Tailor удобно, что если во время обработки увидел косяк, пропущенный на предыдущем шаге, то можно вернуться и исправить. Следующие шаги придется переделывать только для измененных страниц. Жаль, что программа сама не понимает формат DJVU, но это не такая уж и проблема преобразовать из/в DJVU сторонними программами. Хотя еще хотелось бы уметь открывать и сохранять PDF. Но, к сожалению, во время работы программа у меня пару раз вылетала, поэтому надо сохранять проект почаще. А в целом очень удобная софтина.

Еще раз напомню ссылку на официальный сайт — http://scantailor.sourceforge.net/.

PS. Вы можете подписаться на новости сайта через RSS, Группу Вконтакте или Канал в Telegram.

Пожалуйста, оцените запись

(Количество голосов: 36, средняя оценка: 4,78)

Загрузка...

комментариев 14

Aleks:

в принципе все понятно, как раз ищу похожую прогу, спасибо за пояснение
6 сентября 2009, 6:56 пп
ayqwwedff:

R7yYmf mzswwbmiiuub, [url=http://pbdygrolwfdp.com/]pbdygrolwfdp[/url], [link=http://iggzqosadpdn.com/]iggzqosadpdn[/link], http://ooxhbqqlebzm.com/
21 октября 2009, 4:06 дп
Palunya:

Я еще нигде не встречал абсолютно идеальной программы для обработки сканированного материала.
24 февраля 2010, 8:16 пп
Юрий:

Осталось найти программу, которая автоматически соберет все TIFFs в PDF или дежавю.
5 марта 2010, 9:19 дп
Ruslan:

А что там искать-есть Gscan2pdf , есть такие вещи как imagemagik, в конце концов скрипты типа tiff2djvu и tiff2pdf.
Ещё можно sam2p и далее pdftk для соединения отдельных pdf файлов в один.Всего две команды и готово,причём довольно быстро.
18 июня 2010, 4:23 дп
Алексей:

Хорошо, что есть такие программы. Я давно уже пользуюсь СКАНКРОМСАТОРом, и не могу нарадоваться. Согласно описанию, она работает кромсатор работает все же быстрее. Ибо самый длинный этап — пять минут. Многие из описанных здесь этапов настраиваются один раз в задании, которое достаточно запустить и идти пить кофе. Вообще пользуюсь ею, когда сам оцифровываю отсканированную книгу.
29 сентября 2010, 12:46 пп
OleM2k:

Кравець заслуживает всяческих респектов и похвал!!!
Через некоторое время поигрывания с прожкой понял, что она идеально спроектирована и более чем то, что она умеет желать можно если не понимаешь что она это уже умеет. Пусть по иному, но лучше.

Вопрос к участникам: сколько стоит, скажем — постранично, обработка сканированных книг (да и журналов)?
12 февраля 2011, 1:07 пп
сергей:

спасибо большое! давно искал подобную прогу.теперь можно начать сканить!!!
27 апреля 2011, 11:42 дп
MAX_BULL:

Как отправлять в печать!!!!???? =(
4 февраля 2012, 1:07 пп
Игорь:

Программа просто шедевральная! Очень клевая!
10 декабря 2012, 6:17 пп
Наталья:

Всё получилось, но… TIFF файлы почему-то в папке out оказались размером всего 400х200pic
15 января 2013, 7:19 пп
Алексей:

Наталья, увеличьте разрешение на вывод до 200-300 dpi
18 июня 2014, 4:06 пп
Валюшка:

Добрые люди, подскажите хорошую програмку для редактирования сканированого текста, только так что б шрифт текста не менялся. Пользуюсь ABBYY FineReader 9.0, так он меняет шрифт, а мне нужно так чтоб в было чётко.
Зарание всем благодарна.
22 марта 2017, 6:09 пп
OleM2k:

Валюшка
https://www.google.com.ua/search?&q=распознать+шрифт+по+картинке
якшо виберете найкраще — повідомте будьласочка 🙂
25 марта 2017, 11:19 пп

Jenyay's blog

Scan Tailor. Программа для обработки отсканированных книг

Пожалуйста, оцените запись

Похожие посты

комментариев 14

Aleks:

ayqwwedff:

Palunya:

Юрий:

Ruslan:

Алексей:

OleM2k:

сергей:

MAX_BULL:

Игорь:

Наталья:

Алексей:

Валюшка:

OleM2k:

Leave a comment

Об авторе

Облако меток

Лучшие записи