На чистку влияет также опция Strong connected speckles на закладке Options. По умолчанию выключена, что означает: если пиксел касается другого только по диагонали, то они все равно считаются принадлежащими одному спеклу, и размер его получается больше, и вероятность его удаления понизится. Поэтому лучше не включать этот флаг.

Какой-бы ни был despeckle, он все равно попортит не-векторные иллюстрации. Поэтому такие иллюстрации всегда нужно включать в exclude-зону. Т. е. выделить мышкой прямоугольник, так, чтобы иллюстрация оказалась полностью внутри выделения, и в контекстном меню выбрать команду Exclude region - регион визуально будет в виде красного прямоугольника.

Инструкция по созданию книг в формате DjVu от DMVN (специально для http://lib. *****)


Введение

Перед тем, как сканировать какую-либо книгу, надо сначала понять, не сделано ли это до Вас кем-либо ещё. Для этого рекомендуется поискать по разным электронным библиотекам (по фамилии автора, например) это творение. Если книги и правда нигде не найдено, то можно приступать к работе.

При создании книги нужно исходить из следующих соображений. Во-первых, получаемый файл должен быть разумного размера. Так, книга объёмом 300-400 страниц не должна занимать больше 10 мегабайт. Во-вторых, получаемый DjVu-файл должен быть таким, чтобы его потом можно было напечатать, и при этом текст можно будет прочесть. Хорошо, если при этом на страницах не будет содержаться ничего лишнего, то есть чёрных краёв. В этом случае при печати тонер или чернила расходуются только на текст.

НЕ нашли? Не то? Что вы ищете?

Далее мы расскажем, как делать книги, удовлетворяющие этим критериям. Следует иметь в виду, что предлагаемый способ не претендует на скорость/оптимальность/универсальность/идеальное_качество/что_либо_ещё. Это просто один из методов, дающий в целом неплохой результат. Итак, приступим...


Шаг 1: Сканирование

Существует несколько методов изготовления книги. Страницы можно фотографировать или сканировать. Последний метод является наиболее качественным, поэтому мы будем описывать именно его.

Пусть пока для простоты наша книга не содержит цветных (или полутоновых) иллюстраций и цветного текста. Тогда лучше всего для сканирования использовать программу FineReader 7.0 (далее - FR для краткости). Еще ссылка в помощь.

п. 1. Настройки сканера в FR

Некоторые производители сканеров предоставляют некоторый набор ПО для сканирования. Оно часто работает медленно и не так, как нужно. В FR имеется возможность использовать его собственный интерфейс для работы со сканером, и это обычно удобнее и быстрее. Чтобы использовать этот интерфейс, нужно в настройках сканера выбрать пункт "Use FR Interface" ("Использовать интерфейс FR").

Важными параметрами сканирования являются разрешение (resolution) и яркость (brightness). В FR эти настройки имеются в диалоговом окне "Scanner Settings" ("Настройки сканера"). Скажем про них пару слов.

Оптическое разрешение - это то количество точек на дюйм, которое будет содержать получаемое изображение. Чем оно больше, тем больше получается файл и тем качественнее получается само изображение. Для книг приемлемым является разрешение 300 DPI (dots per inch - точек на дюйм), но лучше использовать 600 DPI (хотя процесс сканирования при этом занимает больше времени).

Что касается яркости, то очень часто хватает автоматической настройки, но иногда, если бумага слишком тёмная, или шрифт слишком жирный, её приходится регулировать вручную. Для этого в диалоге настроек яркости нужно выбрать пункт "Manual" ("Вручную") и установить ползунок в нужное положение. Какое оно должно быть - определяется опытным путём: выберите типичную страницу, отсканируйте с разной яркостью и посмотрите, какое положение ползунка даёт наиболее качественное изображение.

При этом нужно помнить, что установленная вручную яркость может перестать быть приемлемой, если изменить разрешение.

п. 2. Сканирование

Кладите книгу на сканер как можно более ровно! Главное - прижать её посильнее на сгибе, чтобы страница поплотнее прилегала к стеклу. Если не лень - сканируйте не разворот целиком, а по одной странице, так получается качественнее.

п. 3: Очистка от мусора

Чистить края страниц от "мусора" нужно не только для того, чтобы не тратить чернила. Его наличие отрицательно сказывается на размере выходного файла. В FineReader есть инструмент типа ластика, которым можно убирать с отсканированных страниц прямоугольные фрагменты "мусора". Как правило, если при сканировании достаточно плотно прижимать книгу к стеклу сканера, то мусор бывает только по краям, и проблем с его уничтожением не возникает (правда, это долгий процесс сам по себе).

п. 4: Сохранение страниц

FR сохраняет все страницы в формате TIFF (чёрно-белом). Когда все страницы отсканированы, нужно сохранить так называемый "пакет" ("batch"). При сохранении FR создает папку с кучей файлов (отдельных страниц), к каждой из них прилагается. frf-файл. Но нам нужны только TIFF-ы. Складываем их для простоты в отдельную папку, а далее работа с FR закончена, и мы переходим к шагу 2.


Шаг 2: Подготовка страниц

Чтобы обработка велась быстрее, можно отконвертировать все файлы в bmp-формат. Сделать это можно с помощью утилиты IrfanView (её и некоторые plug-in'ы, которые лучше сразу поставить вместе с программой, можно скачать по ссылкам: Viewer, plug-ins). В меню File есть пункт "batch conversion/rename", в котором можно обработать сразу много однотипных файлов. С помощью той же программы можно порезать сканированные развороты на отдельные страницы. Там есть операция crop, которая вырезает из картинки прямоугольный кусок, задаваемый координатой левого верхнего угла, а также шириной и длиной. Так можно вырезать отдельно чётные и нечётные страницы (пользуясь тем, что утилита позволяет увеличивать номер выходных файлов на 2).

Таким образом, мы имеем набор отдельных страниц. Можно также повернуть (опция Fine rotation в Irfan view) криво положенные страницы и убрать остатки мусора. А когда эта кропотливая работа будет завершена, переводим дух и приступаем к шагу 3.


Шаг 3: Кодирование в DjVu

Для этого сначала запаситесь компьютером помощнее и воткните в него 512 метров памяти, если Вам дорого время. Запускаем DjVu Editor Pro 5.0, открываем в нём ПЕРВУЮ страницу книги, а далее говорим ему "Insert pages after..." в меню "edit", и открываем сразу штук 50-60 файлов-страниц, потом ещё столько же, и так далее. Вы спросите: "почему не все сразу?". А потому, что будете ждать до скончания века, пока он их прожуёт. Причём при добавлении файлов надо не перепутать порядок (в файлере их нужно выделять так, чтобы в строке они шли в правильном порядке, начиная со второго). Можно выделить все разом (Ctrl+A), и потом, зажав Ctrl, убрать первый файл, который уже есть. Нажимаем OK и идём пить кофе. Признаком завершения операции открытия является появление изображений страниц, начиная со второй, в левой части окна (там, где отображаются страницы в колонку). А теперь говорим "Save As...", выбираем тип документа "bundled", качество ставим "quasilossless", разрешение - какое было при сканировании, другое бессмысленно. Снова давим OK и второй раз идём пить кофе. Лучше поставить галочку "OCR", только нужно проверить, что язык книги соответствует настройкам Editor'a (edit->preferences). Тогда в книге можно будет потом делать контекстный поиск. Но в этом случае кофе придётся пить дважды: когда кодирование завершится, начнётся процесс распознавания, столь же долгий и мучительный.

Ну, вот, кажется, и всё. Отметим также, что для распознавания текста можно использовать информацию из FRF-файлов, предоставляемых FR. Для этого нужно перед сохранением пакета сделать распознавание текста в FR, а уже к готовому DjVu файлу применить программу FRFGrab. Мы её пока не используем, но возможно, что это неплохая вещь.


© DMVN Corporation, 2005
http://dmvn.
ICQ:
Вопросы, комментарии, замечания и предложения направляйте на мыло dmvn на сервере ***** или в форум на сайте (http://dmvn. /forum. php).


Ссылки в тему:

*  http://mail. dir. bg/~are/they/scanning_readme. txt

*  http://irodov. *****/cgi-bin/ikonboard/topic. cgi? forum=3&topic=9

*  http://irodov. *****/cgi-bin/ikonboard/topic. cgi? forum=3&topic=2

*  http://forum. /topic. cgi? forum=93&topic=0341

Рекомендации по сканированию и дальнейшей обработке научных и прочих книг

Для начала нужно концепции разъяснить, подробнее см. ниже. Обновление .

Сразу же оговорюсь: я почти никогда не работаю в системе MS Windows, за

исключением случаев крайней необходимости. (Мой девиз: GNU/Linux is the

answer; what was your question?) Поэтому мой выбор программного обеспечения

будет, возможно, далёк от вашего. Но впрочем почти все свободные программы

из-под GNU (djvulibre, libtiff, pbmtools, ...) написаны так, что они

прекрасно компилируются и работают в MS Windows.

Моя цель: получить отсканированный файл научной книги, с формулами, рисунками и

так далее, который подходит как для просмотра на экране, так и для печати. В

громадном большинстве случаев меня вполне удовлетворят чёрно-белые изображения

страниц в разрешении 300 точек (300 dpi). О переводе изображений в электронный

текстовый формат типа MS Word, TeX, ..., основанный на распознавании текста

(OCR), речь обычно не идёт, т. к. книги содержат много формул, которые нельзя

надёжно распознавать без очень долгого ручного труда. Тем более что современные

форматы (PDF версии 1.6, т. е. начиная с Акробата 6, и Djvu 3.х) позволяют

хранить распознанный текст вместе с очень сильно сжатым изображением и при этом

предоставляют поиск по распознанному тексту. Графические форматы предыдущих

поколений (gif, tiff, pdf версии до 1.5) не позволяли сжимать изображение до

приемлемого размера, требуя примерно по 100 КБ на страницу, в то время как

формат Djvu требует обычно от 5 до 15 КБ на страницу. Такое радикальное

сокращение размеров напоминает революцию в музыкальной индустрии, произошедшую

с разработкой формата mp3. Теперь можно позволить себе хранить на локальном

диске компьютера десятки тысяч отсканированных книг.

Выбор конечного формата книг

На мой взгляд, формат Djvu вполне достаточен для хранения книг. Однако Djvu

иногда искажает форму букв, стараясь получше сжать изображение. Поэтому книги,

распечатанные на бумагу из дежавю-файлов, выглядят хуже (буквы слегка неровные,

например). Меня лично это не раздражает, лишь бы можно было прочесть. Но другие

люди придерживаются мнения, что надо хранить неискажённое изображение (lossless

Djvu, сокращённо ll-djvu) или в формате PDF (последние версии этого формата

дают хорошее сжатие, приближаясь к эффективности формата дежавю). Так что вам

решать.

Для справки: среди дежавю-файлов моей домашней библиотеке сейчас в среднем

около 11 КБ на страницу. Обычно я храню книгу в lossless формате (ll-djvu, pdf,

ps, html, ...) только если этот другой формат даёт выигрыш в размере файла, или

если качество дежавю файла гораздо хуже, или если книга супер-ценная, но скан

плохого качества и хочется застраховаться от возможных потерь информации.

Почему файлы с сосканированными книгами такие большие?

Потому что сосканированные изображения страниц содержат гораздо больше

информации, чем электронный текст. Так что всегда следует предпочитать

графическим текстовые форматы (txt, html, TeX, и Postscript/PDF сделанные из

отформатированного текста). Но здесь речь идёт именно о сосканированных

книгах.

Если сканировать в низком разрешении, то качество изображения будет плохим, а

если в высоком разрешении, то размер файла будет большим. Однако для формата

сжатия JBIG2 (который используется в Djvu и PDF1.6-jbig2), важнее, чтобы текст

был "чистым", т. е. чтобы буквы были чёткие, непотрескавшиеся и хорошо отделены

друг от друга, и чтобы не было "шума" из чёрных точек или полос. Особенно это

важно для формата Djvu, который пытается оптимизировать размер файла

распознаванием похожих букв. Если бумага грязная, жёлтая или просвечивает на

обратную страницу, а печать блеклая, то размер сосканированного файла будет

существенно больше, чем для текста, отпечатанного ярко-чёрным шрифтом на чистой

белой бумаге. Скан хорошего качества сильно сжимается даже в 600 дпи.

Общая картина событий

Итак, процесс оцифровки книг разбивается на этапы:

1) Постраничное сканирование физической книги, промежуточный результат -

обычно набор tiff файлов с изображениями страниц.

2) Обработка изображений страниц (подчистка, разрезание разворотов на

отдельные страницы, поворот, преобразование цвета).

3) Подготовка конечного продукта - компактных файлов в формате PDF и/или

Djvu. На завершающем этаме можно сделать OCR.

4) Лечение проблем с конечными файлами (неверная ориентация страниц,

пропущенные или переставленные страницы, склеивание кусков книги, слишком

большой размер файла из-за неоптимального сжатия). Это весьма актуально в

том случае, если у вас нет исходных сканов и вы уже не можете повторить

этапы 1 и 2.

Для работы вам понадобятся: сканер, программа для сканирования, программы

для работы с изображениями страниц, и программы для перевода сосканированных

изображений в нужный формат.

Замечу, что даже без подчистки, разрезания и т. д. часто можно получить

вполне приемлемое качество и размер конечного файла.

Сканирование

Я пользуюсь сканером Canon LiDE 50, потому что для него есть поддержка в

программе VueScan под Linux. Сканер дешёвый, лёгкий и компактный, но не

быстрый (около минуты на лист), так что я кладу книгу на сканер, сверху

придавливаю парой тяжёлых томов, и могу заниматься другими делами, пока

сканируется лист. После гудка я переворачиваю лист и нажимаю кнопку прямо на

сканере - это удобнее, чем нажимать на компьютере, где мне пришлось бы

каждый раз переходить в окно программы сканирования и значит прерывать

основную работу. (Сейчас, когда я это пишу, сканируется Боголюбов и Ширков.)

Сканировать можно либо по одной странице, либо разворотами. Сканировать

разворотами вдвое быстрее, но жизненно важно, чтобы книга хорошо (почти

полностью) раскрывалась и плотно по всей ширине прилегала к сканеру. Иначе

получатся чёрные полосы, закрывающие часть текста, или текст будет сильно

размыт. Иногда книга плохо раскрывается в начале или в конце, а в середине

хорошо. Это надо контролировать, вы сэкономите кучу труда потом! Когда книга

слишком большого формата и не влезает в сканер, приходится сканировать по

одной странице. Это обычно приводит к существенно меньшим проблемам с

чёрными полосами, но естественно занимает почти вдвое больше времени.

Перед сканированием проверьте с помощью Preview, что выбранная вами рамка

прямоугольного региона сканирования надёжно покрывает текст как в начале

книги, так и в середине и в конце. А то при раскрытии книги в разных местах

текст может съезжать вбок. Лучше оставить поля, чем потом отлавливать

обрезанные края листов. Я предпочитаю настроить всё с запасом, чтобы потом

не надо было контролировать каждую страницу.

Поскольку мой сканер очень медленный, я сканирую в разрешении 300 dpi, за

исключением книг с мелким шрифтом и плохой печатью, когда такое разрешение

приводит к плохо читаемому тексту и надо пользоваться 600 dpi. Если ваш сканер

быстрый - делайте всегда 600 дпи. В сомнительном случае лучше попробовать пару

страниц отсканировать, перевести для верности в Djvu и посмотреть результат.

Сканирование в greyscale я не рекомендую - обычно это приводит только к потере

времени (однако см. ниже рассказ botolph).

Промежуточные файлы получаются в формате TIFF с хорошей компрессией (метод

CCITT), этот формат автоматически выбран моей программой сканирования

(Vuescan). Пакетное сканирование под Windows можно делать из FineReader и

ACDSee.

Программы DjvuSolo / DocumentEditor позволяют сканировать прямо с сохранением в

дежавю, но это очень неоптимально, т. к. дежавю файл трудно редактировать, чистить,

поворачивать и т. д. Лучше всего сканировать с помощью чисто графической программы,

которая позволяет записывать результат в файлы постранично.

Настройте такой режим сканирования, когда каждая страница после

сканирования автоматически записывается в файл под названием page0001.tif,

page0002.tif, ...

Правда, имейте в виду, что иногда некоторые файлы формата TIFF не читаются

некоторыми программами из-за сбоев в формате или ошибок в программах.

Поэтому проверяйте, что вы в самом деле можете просматривать только что

сосканированные файлы страниц, и будьте готовы к необходимости перегнать все

эти файлы в другой формат (разумеется, автоматически, а не каждый файл

вручную). Под GNU/Linux все такие операции тривиально автоматизируются на

основе shell scripts. Под MS Windows можно пользоваться PaintShopPro,

ACDSee, ... Я иногда пользуюсь коммерческой программой Image Alchemy,

которая умеет читать почти все виды TIFF, даже такие, на которых виснет

PaintShopPro. Эта программа есть для Linux и для MS DOS.

Сырые сосканированные файлы TIFF лучше всего архивировать куда-нибудь, а не

стирать сразу после получения конечного результата. Мало ли что потом

случится, а сканирование всё-таки самый трудоёмкий этап.

После сканирования проверьте, что не пропустили страниц. Я обычно

просматриваю номера страниц в файлах page0010.tif, page0110.tif,

page0210.tif - они должны образовывать арифметическую прогрессию. Также я

вычисляю количество сосканированных страниц и сравниваю с правильным.

Пропуск страниц залечивается так: я сканирую пропущенную страницу и называю

её например page0110.5.tif. Тогда при сортировке она будет следовать за

page0110.0.tif.

Обработка сосканированного

Обработка нужна для исправления дефектов скана. Например, если сканировать

разворотами, то почти всегда остаются чёрные полосы между страницами, и

страницы почти всегда чуть-чуть перекошены.

Для исправления этих дефектов есть несколько способов: самый клёвый -

программа ScanKromsator от bolega. К сожалению, эта программа не является

свободно распространяемой и нет исходников, поэтому работает только под

текущими версиями MS Windows. Я пока что не смог воспользоваться этой

программой, потому что эмулятор MS Windows, который у меня есть, в чём-то с

ней пока несовместим.

Результат этого этапа - опять-таки постраничные файлы TIFF, но уже

исправленные (повёрнутые, почищенные и т. д.) Рекомендую их также

архивировать на CDR.

Создание конечного файла

Итак, у вас есть постраничные изображения и вы хотите сделать конечный

продукт.

Формат Djvu (дежавю)

Для создания Djvu оптимально иметь чёрно-белые (не greyscale!) изображения

страниц в разрешении 300 dpi или 600 dpi.

Способ 1: сделать один ZIP файл (не RAR!!) со всеми тиффами и загрузить этот

файл в дежавюку. См. readme. djvu. txt - там все детали по поводу дежавюки.

Преимущества: работает быстро и качественно, для англоязычных текстов даёт

сразу OCR.

Недостатки: иногда дежавюка отказывается читать tiff файлы без объяснений

причин ("a problem was encountered", но не говорит, что за проблема). Из

моего опыта я могу заключить, что причины скорее всего такие: 1) сбои в tiff

формате, или такие варианты этого формата, которые не поддерживаются

сервером any2djvu. 2) даётся слишком много страниц сразу. Кроме того, на

русском тексте OCR даёт чушь типа PAOCPAOPIIC.

Лечение недостатков: пакетно перевести все тиффы в. gif, запаковать в ZIP

файл и загрузить на any2djvu снова. Если не помогает, то разбить на

несколько ZIP файлов по 200 или 300 страниц в каждом и потом склеить

полученные дежавю файлы. (Дежавюка работает оптимально, если число страниц в

одном куске делится на 20.)

Для OCR теперь есть программа DjvuOCR от gencho, она берёт файлы

FineReader'а и присоединяет их к готовым файлам djvu. Вот это класс!

Примечание: теперь не рекомендуется пользоваться службой any2djvu. Там не всегда оптимальное кодирование pdf->djvu и плохое OCR по сравнению с Файнридером.

Способ 2: воспользоваться DjvuSolo 3.1.

Преимущества: не надо никуда загружать много десятков мегабайт, всё работает

дома.

Недостатки: иногда не читает файлы тифф (то же самое, что и

дежавюка). При сбоях в файлах тифф программа иногда виснет. Лечение:

переводить из тифф в bmp.

Способ 3: воспользоваться Document Editor.

Преимущества: OCR для англоязычных текстов, мощные возможности редактирования

дежавю файлов. Недостатки: дежавю файлы получаются версии 4.5, которую не

читают некоторые старые плагины (лечение: утилита DjvuVersion). Качество

получается иногда хуже, чем от сервера any2djvu, а иногда лучше.

Формат PDF

Ну вообще-то я не спец по пдф файлам, но скажу, что знаю:

Способ 1: взять Acrobat 6 (не Acrobat Reader, а полную программу, она дорого

стоит!) и сделать PDF с классным сжатием и OCR.

Преимущества: размер PDF приближается к размеру дежавю-файла.

Недостатки: такой PDF иногда плохо читается более старыми программами,

работает медленнее.

Способ 2: использовать tiff2ps, ps2pdf, tiff2pdf

Недостатки: пдф получается очень большого размера по сравнению с дежавю.

Способ 3: утилита c42pdf - преобразование TIFF G4 -> PDF. Размер PDF файла

будет точно такой же, как суммарный размер всех TIFF файлов.

Лечение проблем с конечными файлами

Вы получили от кого-то конечный файл (djvu, pdf), а он вас не устраивает.

Исходных сканов нет. Что делать?

Почти все проблемы решаются тем, что из конечных файлов извлекаются

изображения отдельных страниц, и потом проходят по этапам Иногда есть

и более короткие пути решения.

Как извлечь изображения страниц из файла djvu? Ответ: с помощью утилиты

ddjvu, или djvudecode. exe, можно извлечь из djvu файла изображения всех

страниц, скажем в формате PBM. При этом можно указать требуемое разрешение и

размер картинки в пикселях.

Как извлечь изображения страниц из файла pdf? Ответ: Это делает Acrobat, ещё

есть программа pdfExtractTiff для MS Windows. Под GNU/Linux эта операция не

всегда осуществима! (из-за козней формата пдф последних версий и из-за

отсутствия Acrobat). Под Linux почти всегда работает pdftoppm, pdfimages (из

пакета xpdf 3.0). Можно с помощью AcrobatReader распечатать в Postscript и

далее действовать с помощью ghostscript, но это работает не всегда. Или можно

попробовать сразу через ghostscript, но он не понимает некоторых последних

версий формата пдф (но если работает, то получается гораздо быстрее, чем xpdf).

Теперь некоторые часто мне встречающиеся ситуации:

Проблема 1: дежавю файл жутко большого размера.

Типичный дежавю файл от нормально сосканированной книги должен быть от 5 до

15 КБ на страницу (не на разворот!). Если в файле 30 или 50 КБ на страницу,

то тут что-то не так. Чаще всего -- сканировали в greyscale вместо

black/white. Или файл сосканирован в плохом разрешении и грязный - но это

уже почти не лечится.

Лечение проблемы с greyscale: Способ 1: с помощью djvups (это утилита из

djvulibre, для MS Windows тоже есть) распечатать в формат Postscript (.ps) и

при этом задать чёрно-белый режим печати. Сжать gzipом (получится файл

.ps. gz) и залить в дежавюку. Надеяться на лучшее. Способ 2: извлечь все

страницы в greyscale PBM, затем сконвертировать в чёрно-белые TIFF, далее

как выше.

Проблема 2: дежавю файл неправильно повёрнут, или белым по чёрному вместо

чёрного по белому, или в нём слишком большие белые поля по бокам текста.

Лечение: Способ 1: извлечь изображения страниц и лечить их. Способ 2: в

djvu-редакторе Document Editor можно поворачивать страницы, однако полученный

дежавю-файл будет правильно читаться только новыми версиями плагина djvu.

При просмотре в старых версиях плагина текст не будет повёрнут.

Проблема 3: пропущены страницы в дежавю или в пдф файле, или есть несколько

кусков файла, которые надо склеить.

Лечение: Недостающие страницы надо отсканировать, преобразовать в дежавю или

соответственно в пдф, и вставить в конечный файл в нужные места. Для работы

с дежавю файлами (вставка страниц, склеивание файлов) можно использовать

утилиту djvm из библиотеки djvulibre. Читайте руководство к ней. Для

склеивания и разрезания пдф файлов можно использовать бесплатные утилиты из

комплекта PDF-TOOLS (скачивать с www. ). Там есть утилиты pdcat

(склеить несколько пдф файлов, а также повернуть пдф файл на 90 или 180

градусов), pdsel (вырезать блок страниц), и т. д.

Проблема 4: пдф файл жутко большого размера. Лечение: либо его надо

оптимизировать с помощью Acrobat, либо перевести в дежавю.

Проблема 5: перевод пдф файлов в дежавю.

Решение 1: залить пдф файл в дежавюку. Надеяться на лучшее. Недостатки:

работает очень долго, иногда несколько часов. Иногда получается очень плохой

дежавю файл из-за того, что в пдф файле неверно указано разрешение или размер

страниц. Иногда просто не работает из-за проблем с пдф файлом (хотя Acrobat

Reader может показывать вроде бы нормально) или из-за пдф формата 1.5, который

не поддерживается сервером any2djvu. Файлы пдф, сделанные в совместимом с

AcrobatReader 4 режиме, почти всегда проходят через дежавюку нормально.

Преимущества: залил файл - отдыхай и жди. Если пдф файл содержит гиперлинки (на

тот же файл), то они воспроизводятся в дежавю файле. Гиперлинки на другие файлы

сохраняются как гиперлинки на что-то, но работать не будут. Их можно потом

вручную вылечить в DjvuSolo 3.1, например, или с помощью утилиты djvused.

Недостатки: гиперлинки в последнее время не работают, а файл djvu получается

слишком большой. Служба any2djvu начиная с мая 2004 года стала работать

существенно хуже прежнего и я больше не рекомендую ей пользоваться. Используйте

DjvuSolo / DjvuEditor.

Решение 2: извлечь изображения страниц из пдф файла и далее действовать как

выше. Преимущества: полный контроль над разрешением и качеством изображений.

Недостатки: много мороки, и под GNU/Linux не всегда можно с первого раза

правильно извлечь изображения из пдф файла.

Проблема 6: пдф файл, отсканированный в greyscale, был пропущен через

дежавюку и дал дежавю файл жутко большого размера. Это происходит из-за

того, что дежавю формат очень неоптимален для greyscale изображений.

Лечение: Исходник - пдф файл - надо нарезать на порции по 60, максимум 80

страниц (лучше блоки делать кратными 20) и пропустить через дежавюку, задав

режим "black/white image". затем надо склеить полученные дежавю файлы.

Проблема 7: перевод дежавю файлов в пдф (исходных сканов нет). Решение 1:

извлечь изображения страниц из дежавю файла и перевести их в пдф, как

указано выше. Решение 2: распечатать в пдф с помощью MS Windows драйвера

типа PDFPrint. Или распечатать в Postscript и затем перевести в пдф

дистиллером. Обычно результаты получаются хуже, чем в решении 1 (т. е. пдф

файлы большие), но мороки меньше.

Успехов!!

_________________________________

Подробнее:

_________________________________

Итак, Вам хочется отсканировать книгу/статью и после того хранить ее в удобной для Вас форме - pdf, djvu,... multipage-tiff,..

Естественно, хочется как можно быстрее сканировать, но получить максимально возможное при этом качество...

Тут завязаны многие нюансы, которые следует

учесть ЗАРАНЕЕ - до этапа сканирования следует осознать, в какой

промежуточной форме и с каким качеством сохранять ПРОМЕЖУТОЧНЫЕ результаты

- и что хочется получить в конце.

Я постарался дать основные идеи

- может быть тривиальные большинству опытных

- может быть полезные начинающим

- и выложил простейшие (свободные!) утилиты для переработки и

полировки результата - конечно не сравнимые с творчеством

профи - ну што могем :-)

Выбор сканера

Если Вы не требуете какой-то суперреалистичной передачи тонких оттенков

цветов - и сканировать будете в black-white или grayscale

то естественный вопрос - какой сканер при этом самый быстрый?

Если позволить себе потратить не более 200 $ то ОЧЕНЬ разумный выбор -

сканеры серии Epson Perfection. Там сейчас много моделей,

я года 2 назад работал на одном из первых - он давал для b/w 300 dpi

примерно 20 сек. на скан.

Сейчас у меня Epson Perfection 1660 Photo - на том же разрешении

легко 4 скана в минуту, причем если в паре с ACDSee работать -

очень удобно настроить их совместную работу - сразу будет виден и

результат и на каждый скан надо жать ровно 1 кнопку...

Если даже выбираете grayscale (8bit) то тоже довольно быстро.

600 dpi будет раза в 2 медленнее (естественно).

Только полдня вначале пришлось разбираться с настройками

самого драйвера сканера и ACDSee - а потом как по маслу!

По моему опыту - что-то другие фирмы (даже вроде солидные типа Hewlett Packard)

скоростью не увлекаются - и других недорогих быстрых сканеров не встречал...

Большинство спецификаций сканеров либо умалчивает о реальном быстродействии

- или говорят о raw-режиме - видимо имея в виду "продварительный просмотр"

низкого разрешения. Либо хвастаются идеальной цветопередачей - умалчивая о

времени... В различных тестовых сравнениях сканеров в интернете тоже не

очень тут много обращают внимания - в основном копаясь в той же

цветопередаче - тут кстати честно отмечу якобы профессионалы замечают что

мой любимый Epson Perfection не самый идеальный - а я не замечал, вроде

все ОК. В общем, по скорости - мой выбор - Epson Perfection!

Его и рекомендую. Заметим. что многие дешевые сканеры китайских брэндов

опасны еще тем, что дают разрешение и качество намного НИЖЕ заявляемых -

сам видел такой - так результат при установке 300 dpi выглядет как

будто там 100 или ниже, регулировки порога между черным/белым нет...

И прочие ужасы!

Люди писали о "потоковых сканерах" - типа по 1 сек на скан с

автоматической загрузкой страниц А4 (книжки в разворот не пойдут!)

- ну стоимость таких монстров даже не берусь предсказать.

Тут прежде всего обговорим три вещи:

1) вы хотите сделать МНОГО страниц и хорошего качества

или побыстрее парочку страниц - и забыть об этом деле?

Если второе - я вряд ли помогу.

Ну можете в этом случае попробовать напрямую через любую

программу, понимающую сканер с автоматической настройкой - и не удивляйтесь

если это будет по 5 минут на страницу!

Если же ваша работа объемна - то потратив время, чтобы разобраться разок в

основах и общих принципах - получите очень большой выигрыш в скорости и

скорее всего в качестве.

2) на каждом шагу придется выбирать между автоматизацией/ручной работой

или между скоростью/качеством. Я стараюсь идти в обоих случаях первой

дорогой. Как правило, и качество не страдает.

3) я НИЧЕГО не говорю о РАСПОЗНАВАНИИ сканированного текста.

Мой идеал - графический формат, не текстовый. Вы должны понимать разницу.

И знать, что такое "графический файл" и как он отличается от

"текстового" (включая продукты таких программ, как Word)

Форматы файлов

Итак, о конечных и промежуточных форматах.

Конечным форматом может быть в настоящее время любой Вам подходящий -

из тех, что достаточно компактно хранят сканированные многостраничные

графические изображения и удобно их показывают/печатают:

pdf, djvu, multipage tiff,...

А вот ПРОМЕЖУТОЧНЫЙ формат - который можно почистить-подрезать-(далее по

вкусу) лучше выбрать другой - хотя и (полный) Adobe Acrobat и

DJVu Solo или DJVu Editor позволяют НАПРЯМУЮ сканировать многостраничный

документ прямо не выходя из указанных программ

(см. их меню "File -> Acquire") - но вот потом... As is!

Кстати, можно терзаться мыслью - какой из указанных форматов "лучше"?

Это я не случайто в кавычках слово поставил!

Во-первых, дело не только какой "лучше жмет" или другой параметр на выбор,

тут по моему опыту надо осознать, что современное железо действительно

стоит НАМНОГО дешевле чем Ваше время - и купив большой винчестер или

пишущий быстрый CD-дисковод Вы сэкономите кучу сил не особо концентрируясь на

рекордах сжатия - выбирайте наиболее удобный - ну может Вам хочется чтоб

качество показываемой страницы на экране было максимальным, или чтоб

листать побыстрее.

Во-вторых - ЛЮБОЙ формат МОЖНО преобразовать в ЛЮБОЙ!

Об этом я собираюсь выкладывать информацию в поддиректории transform-any2any

(пока соотв. readme - в стадии написания...)

Правда, качество может и пострадать - если не разбираться долго и упорно с

настройками...

Опыт подсказывает следующее: сканируйте каждую страницу в отдельный

файл в формате TIFF (расширение tif) - потом будет удобнее и почистить

от черных полос в разворотах и порезать если надо разворот на отдельные

страницы и преобразовать/склеить в один файл требуемого Вам конечного

формата.

Отступление в сторону - ликбез по графическим файлам - если Вы СОВСЕМ не

понимаете в чем разница между *.bmp *.tif *.gif *.jpg - смотрите ниже.

Наконец, о трудоемкости процесса. Здесь я пытаюсь описать процедуры,

позволяющие минимизировать затраты ручного труда и процессы "очистки" и

склейки/преобразования в конечный формат - тут многое уже

(полу)автоматизировано, особенно на большом числе страниц легко

сэкономить много времени.

==============================================

Современные сканеры позволяют настроить многие параметры выходного файла,

и если Вы можете это сделать - рекомендую для случая, когда сканируется

текст и графики-штриховые рисунки выбрать выходной формат *.tif,

черно-белый, со сжатием "CCITT Group4" (или по-другому "faxg4")

Если иногда требуется вводить имя файла для каждого получаемого файла -

попробуйте многостраничный *.tif

- подробнее см. ниже

Если надо на некоторых страницах точно передать градации серого - придется

менять настройки на greyscale и сжатие выбирать ДРУГОЕ - LZW если есть.

Но тут и чистить эти страницы, скорее всего, придется индивидуально...

=============================================

По опыту под Windows наименее хлопотно сканировать, используя популярную

программу ACDSee - она и это умеет! Иногда, правда (со старыми

или плохими китайскими сканерами и глючными драйверами таковых) не

получается... ну методом тыка - тут как повезет...

Сканировать ACDSee следует так - в меню File есть Acquire setup.

Введите тип файла TIFF и в опциях - сжатие "CCITT Group4",

а в окошке заготовки имени файла сделайте ### - это означает, что

автоматически будут генерироваться файлы 001.tif 002.tif 003.tif...

010.tif... После чего выбираете Acquire - запускается интерфейс сканера

- тут все зависит от модели и извращенности писавших таковой.

Мне очень понравился интерфейс Epson Perfection (и в этом он оказался

намного лучше Hewlett-Packard - у тех явно непродумано):

вы запускаете один раз этот интерфейс, настраиваете разрешение 300 dpi,

текст/штрих. рисунок (это у них означает, что будет 1-битовый

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5