Scan Tailor. Программа для обработки отсканированных книг

Scan Tailor. Программа для обработки отсканированных книг

Попалась мне недавно программка Scan Tailor, которая предназначена для автоматической обработки отсканированных книг. С помощью этой программы можно разрезать страницы, если страницы сканировались не по одной, а целыми разворотами, можно исправить наклоны страниц, если они криво лежали в сканере, и провести еще некоторые полезные обработки.

Программа является бесплатной, да еще и с открытыми кодами, если версия под Винду, а можно из исходников скомпилить и под Линух. Официальный сайт — http://scantailor.sourceforge.net/.

Книжки сканирую я, к счастью, не часто, а вот обрабатывать уже отсканированные кем-то иногда приходится, в основном чтобы разрезать отсканированные развороты страниц на отдельные страницы. Описать программу Scan Tailor я решил на примере такой обработки. Для экспериментов взял первую попавшуюся книжку в формате DJVU с двойными страницами (первой попалась книга Ю.Ю. Ненахова «Чудо-оружие третьего рейха») и для начала преобразовал все страницы в формат TIFF, потому что для Scan Tailor исходными данными являются отсканированные рисунки. Для преобразования DJVU -> TIFF я использовал программу DjvuOCR. В результате у меня получилось 310 файлов TIFF каждый из которых содержал по две страницы.

При запуске Scan Tailor спросил где находится папка с отсканированными файлами, указал на папку с TIFF-ами и создался новый проект. Внешний вид программы видно на следующем скриншоте:

Главное окно программы

Главное окно программы

Первым этапом обработки идет исправление ориентации страниц. В данном случае этот этап можно пропустить, все страницы расположены в нужной ориентации, но для эксперимента посмотрел сколько по времени программа будет вращать 310 файлов. Оказалось, что на моем компе на AMD 3500+ с гигом оперативки и WinXP + SP2 это заняло пару секунд. Вообще программа за все время работы не занимала больше 50 МБ оперативки.

Вторым этапом идет разрезка страниц. Scan Tailor автоматически пытается определить границы между страницами и в большинстве случаев ей это удается.

Зарзезка страниц

Зарзезка страниц

Но даже если она и ошибается, то за ней можно исправить огрехи, перемещая линию, разделяющую страницы. Причем программа даже может разделять страницы, если они отсканированы под углом. На следующем скриншоте это хорошо видно, заодно видно как Scan Tailor немного промахнулся:

scan_04

Еще парочка промахов:

scan_055 scan_05

Разрезка страниц заняла чуть больше двух минут, а если точнее 2 минуты и 18 секунд, и на 310 разворотов программа ошиблась 14 раз, что, ИМХО, не так уж и плохо. На выходе получилось 620 одинарных страниц.

После этого наступает черед компенсации наклона. Программа просматривает все страницы и разворачивает их так, чтобы текст был строго горизонтально. Тоже это происходит автоматически, но при желании можно и вручную повращать страницы. Для удобства на отсканированные страницы при этом накладывается «листик в клеточку».

scan_06 scan_07

Компенсация наклона заняла полторы минуты и вмешиваться после автоматической коррекции не пришлось, программа отработала этот этап просто замечательно.

Четвертым этапом обработки идет определение полезной области, чтобы отсечь лишние пустые места. Это довольно долгий процесс, который для 620 страниц занял 22 минуты. Здесь программа тоже сработала без ошибок.

scan_08 scan_09

На пятом этапе задается так называемый макет страницы, то есть какого размера должны быть поля у отсканированного текста и выравнивание на странице. На следующем скриншоте я установил слева и справа нулевые поля (все-равно они остались от исходных отсканированных страниц, зачем их еще увеличивать), а по вертикали добавил по 5 мм.

scan_11

Эта операция заняла несколько секунд.

И, наконец, на последнем, шестом этапе, происходит вывод результирующих файлов. Здесь можно задать некоторые обработки вроде удаления пятен. В результате программа создала папку out, куда сохранила полученные файлы тоже в формате TIFF. Поменять выходной формат нельзя. В результате получились файлы с именами вида XXXX_filename.tiff, где filename.tiff — изначальное имя каждого файла, а XXXX — порядковый номер страницы.

Это была самая долгая операция, она заняла 35 минут.

Итого. Мне программа очень даже понравилась, интерфейс работает шустро, на сколько быстро работают алгоритмы обработки сказать трудно, потому что мне не с чем сравнивать, с подобными программами я сталкиваюсь впервые. Обработать 620 страничную книгу удалось чуть больше, чем за час. Для сравнения закачал в обменник исходную книгу и ее же после обработки. Не обращайте внимания, что там не хватает пары страниц в 20-ых страницах, это не я их вырвал, это так и было. 🙂

Программа активно развивается, последняя на данный момент версия вышла 26 апреля этого года, автор принимает пожелания и сообщения об ошибках, в том числе и на форуме ru-board.

В Scan Tailor удобно, что если во время обработки увидел косяк, пропущенный на предыдущем шаге, то можно вернуться и исправить. Следующие шаги придется переделывать только для измененных страниц. Жаль, что программа сама не понимает формат DJVU, но это не такая уж и проблема преобразовать из/в DJVU сторонними программами. Хотя еще хотелось бы уметь открывать и сохранять PDF. Но, к сожалению, во время работы программа у меня пару раз вылетала, поэтому надо сохранять проект почаще. А в целом очень удобная софтина.

Еще раз напомню ссылку на официальный сайт — http://scantailor.sourceforge.net/.

PS. Вы можете подписаться на новости сайта через RSS, Группу Вконтакте или Канал в Telegram.

Пожалуйста, оцените запись

УжасноПлохоТак себеХорошоОтлично (Количество голосов: 36, средняя оценка: 4,78)
Загрузка...

комментариев 14

  1. Aleks:

    в принципе все понятно, как раз ищу похожую прогу, спасибо за пояснение

  2. ayqwwedff:

    R7yYmf mzswwbmiiuub, [url=http://pbdygrolwfdp.com/]pbdygrolwfdp[/url], [link=http://iggzqosadpdn.com/]iggzqosadpdn[/link], http://ooxhbqqlebzm.com/

  3. Palunya:

    Я еще нигде не встречал абсолютно идеальной программы для обработки сканированного материала.

  4. Юрий:

    Осталось найти программу, которая автоматически соберет все TIFFs в PDF или дежавю.

  5. Ruslan:

    А что там искать-есть Gscan2pdf , есть такие вещи как imagemagik, в конце концов скрипты типа tiff2djvu и tiff2pdf.
    Ещё можно sam2p и далее pdftk для соединения отдельных pdf файлов в один.Всего две команды и готово,причём довольно быстро.

  6. Алексей:

    Хорошо, что есть такие программы. Я давно уже пользуюсь СКАНКРОМСАТОРом, и не могу нарадоваться. Согласно описанию, она работает кромсатор работает все же быстрее. Ибо самый длинный этап — пять минут. Многие из описанных здесь этапов настраиваются один раз в задании, которое достаточно запустить и идти пить кофе. Вообще пользуюсь ею, когда сам оцифровываю отсканированную книгу.

  7. OleM2k:

    Кравець заслуживает всяческих респектов и похвал!!!
    Через некоторое время поигрывания с прожкой понял, что она идеально спроектирована и более чем то, что она умеет желать можно если не понимаешь что она это уже умеет. Пусть по иному, но лучше.

    Вопрос к участникам: сколько стоит, скажем — постранично, обработка сканированных книг (да и журналов)?

  8. сергей:

    спасибо большое! давно искал подобную прогу.теперь можно начать сканить!!!

  9. MAX_BULL:

    Как отправлять в печать!!!!???? =(

  10. Игорь:

    Программа просто шедевральная! Очень клевая!

  11. Наталья:

    Всё получилось, но… TIFF файлы почему-то в папке out оказались размером всего 400х200pic

  12. Алексей:

    Наталья, увеличьте разрешение на вывод до 200-300 dpi

  13. Валюшка:

    Добрые люди, подскажите хорошую програмку для редактирования сканированого текста, только так что б шрифт текста не менялся. Пользуюсь ABBYY FineReader 9.0, так он меняет шрифт, а мне нужно так чтоб в было чётко.
    Зарание всем благодарна.

  14. OleM2k:

    Валюшка
    https://www.google.com.ua/search?&q=распознать+шрифт+по+картинке
    якшо виберете найкраще — повідомте будьласочка 🙂

Leave a comment

Subscribe without commenting