черно-белый выход, не grayscale), после предварительного сканирования
устанавливаете границы поля сканирования и пороговое значение между черным
и белым - тут опыт быстро подскажет - можно кстати настройки сохранить!
После чего, не выходя из этого интерфейса кладете страницу (разворот книги)
на сканер и жмете ввод - изображение будет послано в ACDSee, и та ее
примет, сожмет в TIFF и автоматом пронумерует каждую страницу,
а Вам остеется только класть очередную страницу на сканер и жать ввод.
Кончили серию страниц - Esc.
Приступайте к обработке полученных файлов - читайте раздел "Обработка".
Если Вам не повезло, и надо МНОГО сканировать, а сканер МЕ-Е-ЕДЛЕННЫЙ
- попробуйте, на каком разрешении скорость повышается.
Был у меня недавно опыт с одним Hewlett-Packard - так там 300 dpi
как ни крути требовало почти минуту на страницу. А при 150 дело шло
в 2 раза быстрее! Даже если требовать не черно-белый результат,
а grayscale. Выкрутился так - сканировал 150 dpi grayscale.
Как ни странно (кто не верит - пусть проверит!) даже маленькие индексы в
формулах вроде нормально гляделись и при печати той же любимой ACDSee
приличные были за счет сглаживания - видимо, она (ACDSee) тут хорошо написана!
Правда, размерчики были у файлов - 1 стр. под 400 Кбайт...
Но скорость сканирования в 2 раза выше!
И что потом? Потом полученные файлы (а было их сделано около 15 тысяч!)
я с помощью Corel Draw 10 (можно и Adobe Photoshop, но у меня не пошел чего-то)
в batch-режиме с помощью скрипта поднимал разрешение до 300
(Resample с anti-aliassing - т. е. вроде сглаживание), делал Smoothing
и иногда гамма-корекцию (если светловатые тонкие буквы) и затем
в черно-белый с должным порогом. Получалось почти (ну, не всегда)
неотличимо от того, что бы получилось при 300 dpi black/white!
Заодно прочищал черные полосы в середке разворота.
Конечно, тут тоже были немалые затраты ручного труда - но и выигрыш
был - за короткое время отсканировал много, а потом время разборки с
результатом было некритично - а кстати и печатать вполне прилично
можно было и не перерабатывая. После переработки объем, занимаемый
сканированной книгой, падал раза в 4 - иногда в 10 :-)
Возможно, это и для Вас будет намеком - как исхитряться.
Одно можно четко посоветовать - для данной книги постарайтесь, чтобы
ВСЕ страницы (развороты если влезают в сканер) были ОДИНАКОВО расположены
при сканировании - т. е. не плавали влево-вправо-вверх-вниз.
Тогда потом (см. последующие readme) намного легче подстроить программы
подчистки изображения.
О разных форматах файлов
Графические файлы бывают в очень разных форматах.
Я кратко поясню здесь то, что существенно для нужд сканирования.
Не более!
1) Графические файлы по самой грубой классификации бывают двух типов:
- с потерей качества (lossy) для повышения коэффициента сжатия
- и без потери качества (lossless).
Типичный представитель первого типа - формат *.jpg (JPEG)
Он просто замечателен для ЦВЕТНЫХ изображений и дает малый размер файла
при довольно (на мой взгляд непрофессионала) высоком качестве
цветопередачи. Но это - за счет некоторой "размытости" изображения,
несущественной при ПЛАВНЫХ переходах.
Для ЧЕРНО-БЕЛЫХ изображений с четкими мелкими деталями -
а именно такие, как правило, и нужны при сканировании книжек -
дает очень плохое размытое изображение!
НИ В КОЕМ СЛУЧАЕ не применяйте для черно-белого формата!
Если вы сканируете в черно-белом режиме (см. ниже) - советую
TIFF с сжатием "CCITT Group4" (или по-другому "faxg4") - совершенно без
потерь качества и с хорошим сжатием (от 20 до 50 килобайт на стр.)
Это как раз для нас - типичный представитель второй группы - lossless
compression.
И есть форматы вообще без сжатия - таковы *.bmp (как правило, иногда это
не так, но скорее всего ) Вряд ли они разумны - расходуется до 1 мегабайта
на стр. при 300 dpi и черно-белом изображении - не говоря о 600 и
градациях серого... Про этот и др. устаревшие форматы типа *.pcx
говорить не будем - ничем особо хорошим они не отличаются.
2) Второй существенный параметр, по которому следует различать графические
файлы - количество информации об одном пикселе (точке) изображения -
бывают 1-битовый (соответственно могут различить только белый и черный
цвет точки) или скажем 8-битовые (соотв. 256 градаций серых оттенков от
чисто черного до чисто белого). Далее идут форматы, отводящие по несколько
байт на пиксел - они соответственно идут на передачу цвета.
Для нужд сканирования - за особым случаем, когда надо сканировать цветные
иллюстрации - мой опыт подсказывает, что максимум, что МОЖЕТ БЫТЬ НАДО -
чисто черно-белый формат (1-битовый) для текста и графиков-чертежей и
изредка 8-битовый для черно-белых (точнее, в оттенках серого) фотографий.
Заметим, что указанный выше TIFF с сжатием "CCITT Group4" - ТОЛЬКО для
1-битовых черно-белых (по определению). Это опять-таки не означает, что
TIFF (что расшифровывается как Tagged Image File Format) подходит только
для черно-белых форматов - см. ниже.
3) Третий существенный параметр - "разрешение", т. е. количество точек
на дюйм ("dots per inch" = "dpi") которое сканер различает (генерирует)
при проходе по странице. Иногда (а именно в TIFF практически всегда!) этот
параметр ХРАНИТСЯ в самом файле - и может НЕ СОВПАДАТЬ с реальной по
какой-либо причине типа Вашей ошибке при установке параметров
сканирования. Иногда этот параметр чисто формален - особенно при выставлении
файла в интернет - тут это просто играет роль при определении размера
(ширины и высоты изображения в пикселах).
С (моей :-) практической точки зрения для сканирования
текста/формул/графиков/штриховых рисунков 300 dpi - самое то.
Эстеты говорят, что 600 - ну намного лучше... Попробуйте сами - если
времени не жалко - при сканировании соответственно вам придется ждать у
сканера в 2 раза дольше! О размере файла умолчим - да и при сжатии это не
столь радикальная разница.
==============================
Теперь о деталях и некоторых нюансах. И здесь верны (ну, почти..)
два принципа:
1) Все современные форматы - гибки и перестраиваемы.
Тот же TIFF на самом деле внутри может вполне сжимать изображение по
алгоритму JPEG - и тогда практически дает то же. что и *.jpg
Следует иметь в виду, что в одном файле может быть НЕ ОДНА, А МНОГО
страниц! Особенно в *.tif! Как узнать? Ну, например, популярная - и я ее
рекомендую - универсальная гляделка графических файлов ACDSee это выводит
в строке информации о файле - типа *****@***т. е. 117 страниц в файле
при размере каждой в 2500 на 3647 пиксела. В этой гляделке на след.
страницу в данном файле легко перейти, нажав Shift-PageDown.
Можно получить информацию о типе сжатия и др., запросив "File info"
в меню - или воспользовавшись для *.tif утилитой tiffinfo. exe
2) в общем, любой формат легко преобразовать в любой - причем "пакетно",
т. е. много-много файлов за раз - в той же ACDSee это стандартная функция -
доступна через меню. Не забудьте установить способ сжатия - если
преобразуете в TIFF или качество (количество теряемой информации) при
преобразовании в jpg!
Так что если Ваш сканер выдает только *.bmp - не стоит отчаиваться - это
легко ужать и преобразовать в *.tif - см. выше! Далее можете обрабатывать
полученные файлы способами и утилитами, описанными в других readme.
Если Ваш сканер выдает многостраничный *.tif
(чтобы добиться минимального числа нажатий на клавиши для каждой
страницы - я такое встречал в ранних версиях Epson perfection) - тоже не
проблема - многостраничные *.tif можно быстро и без хлопот разбивать на
отдельные страницы - см. описание утилит для работы с *.tif.
Можно и наоборот - склеивать одностраничные *.tif в один многостраничный
- см. там же.
Короче - выбираете описанные выше три основных параметра - название
формата не играет большой роли.
================================================
Нюансы формата TIFF:
1) возможна многостраничность
2) различные методы сжатия. Из них отбросим метод JPEG - он с потерей
качества. Остаются - из наиболее часто встречающихся
а) "CCITT Group4" (или по-другому "faxg4") - ТОЛЬКО для
черно-белых! другие сжимать не может. Если вы по недосмотру
преобразуете какой-то другой формат в TIFF с этим сжатием -
будет черно-белый с "dithering" - т. е. градацтт серого будут
передаваться мелкими точками различной величины и частоты
расположения. Хорошо видно при большом увеличении - и иногда очень неплохо
смотрится даже для форографий
б) "CCITT Group3" (или по-другому "faxg3") - по моему, просто устарел и
оставлен для совметимости. Существенно хуже сжимает. Тоже только
для черно-белых.
в) "run-length" - сжимает плохо.
г) LZW (Lempel-Ziv-Welsh)-сжатие. Подходит и для черно белых (уступая
при этом "CCITT Group4" процентов 30) и для grayscale - но поскольку
владельцы патента требуют деньги за его поддержку - сейчас западные
программисты его избегают. Российские, понятно, до таких "благ
цивилизации" не доросли - используют, он же описан...
д) "без сжатия" - ну ясно и без комментариев...
Так что не удивляйтесь, если одно и то же изображение при одном и том же
расширении *.tif может иметь радикально различающийся размер.
Еще один нюанс TIFF: поскольку это Tagged Image File Format, там бывают
разные "тэги". нестандартные, которые, к примеру, несут информацию о
программе-создателе данного файла - и некоторые другие программы считают
такое (наверно, зря :-) недопустимым, ругаются, не обрабатывают и т. п.
Кроме того, столкнулся с тем, что та же популярная на российских просторах
довольно мощная Corel Draw еще и корежит информацию о разрешении -
поработал в этой программе с файлом, почистил - а он ЯКОБЫ стал не 300
dpi а 95 (разрешение экрана), в остальном смотрится как конфетка
- ну что тут поделаешь, и на старуху бывает проруха...
И это потом больно бьет, когда работает программа типа tiff2ps -
она честно прочитает эту иныормацию о файле и такое разрешение и сделает -
точнее буквы станут огро-о-омными и на странице А4 уместится еле 1/5
исходного изображения...
Можно насильно устанавливать разрешение в таком случае.
Я включил разные утилиты для работы с TIFF-форматом.
Они скомпилированы из свободной билиотеки libtiff - пользуйтесь на
здоровье!
Если Вы решили следовать моим скромным советам и выбрали в качестве
формата (первоначального) сканированных файлов формат tif -
для обработки есть масса утилит.
1) утилиты, скомпилированные из свободной библиотеки libtiff
(version 3.5.7 - август 2003) - режут многостраничный ТИФ
на одностраничные и др - см в директории TIFF-tools
2) Написанная на их основе cleantif. exe (писал не я...)
- в поддиректории cleantif
Данная программка примененная к ОДНОМУ одностраничному b/w
или grayscale ТИФу позволит почти полностью удалить черную полосу
- где скажете или где сама найдет. Описание там же.
Все вышеуказанные программы настроены на обработку ОДНОГО файла.
Что делать для нескольких СОТЕН? Ответ прост - ДОС/ВИНДОУЗ
умеет запускать ЦИКЛЫ - пример в директории cleantif - файл ca. bat
поочередно обработает ВСЕ *.tif в данной директории (т. е. где Вы его
запустите), настройки очистки - во вспомогательном файле cl. bat
который и вызывается ca. bat для обработки каждого конкретного файла.
Почищенные файлы будут в поддиректории (автоматически созданной)
"cleaned"
Более подробно о разных пакетных обработках этим способом
- напишу чуть позже в директории bat-awk-utils В частности - как бороться с
тем, что цикл for (до сих пор - ПОЗОР Биллу Гейтсу & Co!!!)
дает в качестве аргументов в цикле по именам файла лишь их КОРОТКИЕ
имена. Ну самое простое - не делайте длинных :-) Достаточно 1.tif,
2.tif... Впрочем, эта проблема уже решена! (попозже опишу)
3) В одном из форумов недавно выставлена свободная и КРУТАЯ
программа под виндоуз "Skan Kromsator". С разрешения автора
здесь - линк на его страницу: http://bolega. *****/
Краткое описание - в файле ScanKromsator
Возможности - совершенно фантастические!
Обработка файлов
Здесь я описываю, как потом склеить полученные сотни одностраничных ТИФФов
в один файл и преобразовать в тот формат (pdf, djv...) который Вам по
душе.
1) если речь идет о djv - можно воспользоваться утилитами
из свободной библиотеки djvlibre - ну об этом попозже...
А самое простое - доверьтесь профессионалам - пошлите на бесплатную
службу http://any2djvu. djvuzone. org/
Описание деталей (спасибо castleofmusic) - в файле any2djvu. txt
2) pdf - тут у меня опыт имеется...
есть отличная быстрая программка tiff2pdf - вот только демо-версия
позволяет за один раз переводить в ПДФ не более 150 страниц...
(Ау, кто бы взломал :-) - см. tiff2pdfWin32.zip
Предпочитающим законно свободные программки - в TIFF-tools
есть tiff2ps. exe - тут без ограничений - но в Postscript.
После чего - если Вы имеете полный Acrobat с Distiller'ом - переводите
указанным Distiller'ом в ПДФ - кстати ужатие небольшое по сравнению
с результатом работы tiff2ps. exe если версия Acrobat до 6 - а вот после
(сам пока не пробовал - но видел результат) еше сожмет раза в 3,
но будет читаема только Acrobat 5 или 6 (и медленнее...)
Если же у Вас такового дорогого софта нет - есть свободный ghostscript
- тут придется подробнее объяснять... Чуть позже
===================
ВАЖНОЕ ОБЩЕЕ ЗАМЕЧАНИЕ - об именах ТИФ-файлов. Если Вы их нумеровали
001.tif, 002.tif, 003.tif, ...- молодцы, все указанные выше программы их
упорядочат ПРАВИЛЬНО - а вот если 1.tif, 2.tif, .., 10.tif, ... - надо
прибавить впереди должное количество нулей. На то - простейший 00.bat
в данной директории - он дотянет 1.tif до 001.tif и 10.tif до 010.tif
соответственно. Если страниц более 999 и надо побольше нулей
- просто добавьте еще одну строку
(ту же самую, что и первые две) в 00.bat
==============
Хватит для начала - подробности позже :-)
О Кромсаторе
Вот кратко - из описания автора (v1.0, вскорости ждем вторую верси):
основные функции:
- конвертация формата и DPI изображений;
- разворот изображений на 90, -90, 180 градусов;
- автоматическое исправление наклона страниц;
- разрезание разворотов страниц на две отдельные страницы;
- автоматическое определение ширины книги и приведение размеров всех ее страниц к
единому значению, автоматическое исправление полей страниц;
- убирание лишних или <грязных> полей;
- убирание черных полос на развороте страниц;
- полу-автоматическая чистка черных полос (как правило, на развороте), <налезающих>
на текст (в настоящей версии функция работает, но не совсем стабильно, поэтому
вынесена в пост-обработку);
- гибкие правила по именования выходных файлов (добавление префикса, нумерация с
шагом, нумерация начиная с определенного значения);
- smart-сортировка имен исходных файлов: правильно расположит файлы типа
[xxx]1.tif, [xxx]1[x].tif, [xxx]2.tif, :, [xxx]100.tif, :
где [xxx] - произвольный опциональный префикс, [x] - произвольный опциональный
однобуквенный суффикс;
- высокая скорость обработки: от 7 (600dpi - исходный, 300dpi - конечный) до
dpi-300dpi) разворотов страниц в минуту. (Данные для P-IV-2400).
Поддерживаемый формат исходных файлов: BMP (сжатый и несжатый), TIFF (все форматы включая LZW), GIF.
Поддерживаемый формат конечных файлов: BMP (несжатый), TIFF (сжатый и несжатый).
Поддерживаемое значение DPI исходных файлов: все.
Поддерживаемое значение DPI конечных файлов: 300, 600, а также режим сохранения DPI равным его значению в исходном файле.
=====================================
Кое-что о второй версии:
bolega
Всем привет.
Выложил на http://www. bolega. *****/sk. zip
новую, 2-ю версию. DLL-ки остались прежними. Их
можно не качать. Документация будет готова чуть позже.
Очень много новшеств, я ранее часть из них описал.
Исправлен ряд багов.
Может теперь генерировать PDF-файл с очень сильным сжатием.
Зацените.
Теперь поддерживает на входе многостраничные TIFF-файлы. Если надо,
могу и на выходе сделать.
Удаление черных налезающих на текст полос на развороте
включается опциями "Clear shadow" (отдельно для левой и
правой половинок). Алгоритм расчитан именно на налезающий
текст, поэтому использовать его просто так не рекомендую.
Также может удалять серпообразные пятна на развороте
по самому верху и самому низу страницы, образующихся
при сечении режущей линией скобообраной черной полосы.
После работы алгоритма от полосы может остаться небольшой мусор.
Это нормально, т. к. алгоритм работает очень деликатно,
стараясь правильно отделить тень от слившейся с ним буквы.
В options есть параметр, влияющий на эту "деликатность".
Лучше оставить его auto. Но мало ли. Чем он больше, тем
лучше будет зачишена тень, но тем больше возрастает шанс
повредить часть буквы.
Добавил страничку опций параметр "Sand despeckle".
Там же среди других есть "Convert to BW threshold".
И наконец, зацените новый алгоритм поворота.
Старый тоже остался. Для применения нового нужно
включить опцию "Antialias deskew" (включена по умолчанию).
Формат файла задания пока совместим в обе стороны.
В окне ViewResult теперь при изменении картинки выдается
предупреждение. Если это будет раздражать, можно
включить (в контекстном меню) режим autosave.
==================
Ещё рекомендации по сканированию (в дополнение к уже имеющимся)
1) Если книга в приличном состоянии, я ее сканирую в 600 dpi
черно/белый TIFF. Причины, почему не 300 такие:
а) При разрешении 300 мелкие символы читаются плохо, и тонкии линии на
некоторых глифах рвутся.
б) При последующем повороте строк дополнительный алиасинг гораздо менее
заметен при 600 dpi.
2) Пользуюсь сканером Canoscan 3000F. Он позволяет сосканировать лист
А4 в 600 dpi за 25 секунд, еще 15 секунд уходит на откат головки,
перекладываение книги и т. д. Наверное, есть и более быстрые сканеры. При
сканировании пользуюсь интерфейсом сканера, он сам автоматически нумерует
файлы (если ему указать имя файла foo. tif, и такой файл уже есть в
директории, то он даст имя foo0001.tif, foo0002.tif и т. д.). При появлении
первой страницы с номером, запоминаю разницу между номером файла и номером
страницы, после чего время от времени проверяю, что разница не изменилась
(чтобы не пропустить страницу).
Еще о выборе сканера - стоит проверить ахроматизм его линзы. Многие
дешевые сканеры имеют неахроматическую оптику, что проявляется в цверном
ореоле вокруг букв (если сканировать в цвете). При чернобелом сканировании
это эквивалентно потере фокусировки (эффективное разрешение падает до 100
dpi, и многие тонкие элементы становятся не видны).
3) Держу наготове специальные салфетки для протирки стекла. Годятся
салфетки из нетканого материала, слегка смоченные средством для мойки
стекол. Кроме борьбы с трухой, помогает увеличить срок жизни сканера (порой
в книгах попадается и песок, царапающий стекло).
4) Перед сканированием раскрываю книгу посередке, и определяю область
сканирования. Тут возможны два варианта:
а) Книга не умещается в разворот на стекле. Тогда она сканируется по
одной странице, каждый раз с поворотом на 180 градусов. Нижним обрезом
упираю книгу в край стекла, боковой обрез укладывается с небольшим (0.5-1
мм) отступом от края. Зона сканирования выбирается так, чтобы в вертикальном
направленнии оба ее края совпадали бы как можно точнее с обрезами книги
(таким образом удается уменьшить разницу в вертикальном положении четных и
нечетных страниц после разворота). В горизонтальном направлении зона
выбирается с запасом в пару сантиметров.
б) Книга умещается в разворот. В таком случае зона сканирования
выбирается точно по верхнему и нижнему обрезу, а по горизонтали оставляется
запас. Книга упирается верхним обрезом в край стекла.
5) Для большинства книжек нужен груз, позволяющий прижать бумагу к
стеклу ровно. Я иногда прикрепляю груз к книге скотчем; при этом крышка
сканера остается все время открытой. С грузом важно не переборщить (иначе
прогибается стекло, и нарушается фокусировка - особенно этим страдают
сканеры с высоким разрешением, у них меньше глубина резкости). Стоит
провести несколько опытов, сканируя мелкие узоры (например, микротекст на
банкнотах ;) на середине стекла в grayscale - это позволяет оценить расфокусировку.
6) Обработку сканов я делаю в несколько этапов, с сохранением
промежуточных версий. Прежде всего, если сканировалось по одной странице, то
в Кромсаторе выделяю все нечетные файлы и разворачиваю их, с сохранением.
Потом в Кромсаторе обрезаю края (и разрезаю страницы пополам, если это
разворот). Затем выравниваю строки (в последнее время пользуюсь не
Кромсатором, а своей программой, скоро она будет доступна всем). После этого
в Кромсаторе выставляю поля (иногда автомат сбивается на нестандартных
страницах, и их приходится обрабатывть специально). На последнем этапе
дочищаю книгу вручную (в частности, убираю библиотечные штампы).
7) Наконец, создаю Zip-архив из директории с полученными файлами и
отправляю его на дежавюку.
Последовательность работы и настройки:
Нажимаем кнопку Load Image Files и загружаем сканы, которые хотим обработать.

На вкладке Pages отмечаем:
Split (отмечаем только в том случае, если сканы содержат разворот книги. Если книга отсканирована постранично, то не отмечаем)
Deskew (очень полезная функция выравнивания страницы, если она отсканирована криво)
Остальные функции на этой вкладке не отмечаем. Если они отмечены, снимаем галки.

На вкладе Book выставляем Page width и Page height – в обоих случаях None

На вкладке Files в Output dir задаем путь в папку, где будут размещаться сканы после их обработки. Не задавайте ту же самую папку, в которой размещены исходные сканы.
В графе DPI выставляем Original 
Остальные вкладки нам не нужны, там ничего не изменяем.
Теперь задаем параметры для обрезания лишних полей.
Тут надо ориентироваться на сами сканы.
Разберем наиболее тяжелый случай. Отсканирован разворот и у него нужно обрезать все четыре стороны и черную полосу по середине.
Выставляем галки:
Cut left margin – отсекает левое вертикальное поле у скана.
Cut right margin – отсекает правое вертикальное поле.
Cut top margin – отсекает верхнее горизонтальное поле.
Cut bottom margin – отсекает нижнее горизонтальное поле.
Cut internal margin – делит разворот пополам, активировать ее нельзя, она активируется автоматически, если в настройках выставлено Split (см. сообщение № 2 в этой теме)
Cut internal2 margin – позволяет вырезать черное поле на развороте.
В том случае, если вам не нужно обрезать поля с какой-либо стороны или в центре разворота нет черной полосы, галки не выставляются.

После того как заданы параметры обрезания полей, мы можем, ориентируясь на изображение скана, обозначить с помощью ползунков то лишнее, что необходимо вырезать. Не выставляете линии обреза в самый край текста, оставляйте белые поля разумной величины, читать книгу с полями легче, а если она преобразована в формат PDF, то на полях удобно делать разного рода заметки.

Теперь необходимо зафиксировать положение ползунков. Для этого выставляем галочку напротив названия скана.
Внимание: если вы хотите изменить положение ползунков, сначала необходимо снять зеленую галочку напротив названия скана. В противном случае изменения не будут запомнены, а сохраняться старые значения.

Далее переходим к следующей странице. Регулируем положение ползунков, если в этом есть необходимость. Обратите внимание, что напротив номера страницы не должна стоять галочка. Она ставится только тогда, когда положение ползунков вас устраивает. Еще раз хочу повторить, что, выставив галочку, вы фиксируете параметры положения ползунков и обрезку страницы.


Обрабатываем таким образом все сканы. И нажимаем кнопку Process! Программа начнет обработку страниц.
После этого в отдельном окне Result view вам будет предложено просмотреть переработанные сканы.
На этом работа завершена.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 |


