Оцифровка книг с помощью цифрового фотоаппарата
ВВЕДЕНИЕ
Два основных варианта копирования печатной информации на сегодняшний день: ксерокопирование и сканирование. Хороший ксерокс дает скорость копирования минимум на порядок больше чем сканер. А если настроить сканер на качество, адекватное ксерокопированию, то еще больше. С другой стороны, ксерокопированная литература занимает много места и поделиться ей с друзьями, особенно живущими в другом городе, практически невозможно. Проблемой при хранени сканированой литературы был большой объем файлов. Недавно появившийся формат сжатия сканированных текстов формат DjVu, отлично справляется с этой работой, как и последнее поколение формата PDF. Единственную оставшуюся проблему, присущую сканеру - малую скорость оцифровки изображения, я решил обойти используя цифровой фотоаппарат. Соответственно, при работе с ним возникли проблемы, которых нет при обычном сканировании. Краткое описание этих проблем, а также их решение я и описал в этой статье.
Предложенная методика отрабатывалась на цифровом фотоаппарате Fuji FinePix S7000. Для обработки и сжатия фотографий до преемлемого размера применялись
Компьютер P-IV c 256 Мб памяти
Adobe Photoshop 6.0
IrfanView 3.80
SkanKromsator 3.5
DjVU Solo 3.1
Цель: оцифровать книгу формата А5 и объемом 180 страниц, содержащую в основном текст и простые черно-белые изображения, с помощью цифрового фотоаппарата и сконвертировать в формат DjVu (bitonal).
УСТАНОВКИ ФОТОАППАРАТА И СЪЕМКА
Использованный фотоаппарат имеет настройки матрицы от 12 до 1 мегапикселя. Для съемок одной страницы формата А5 вполне достаточно 3 мегапикселей. Емкость памяти фотоаппарата при этом составляет около 650 кадров (512 Mb). Разрешение снимков настроить нельзя. Оно всегда составляет 72 dpi; при изменении количества мегапикселей изменяется размер фотографии.
Фотографировать что бы то ни было лучше всего со штатива и со вспышкой. Встроенная вспышка довольно быстро сажает батареи, так что лучше пользоваться внешней, или по крайней мере обзавеститсь блоком питания для фотоаппарата. Штативы бывают маленькие настольные (десятки сантиметров высотой) и большие напольные (метры высотой). С маленьких штативов не очень удобно снимать книгу, лежащую горизонтально на столе. Если у вас нет штатива, или вам лень тащить его с собой в какую-нибудь библиотеку, остается снимать с рук. Здесь очень помогает ремень, идущий в комплекте с фотоаппаратом. Подгоняете его по высоте, вешаете на шею и слегка натягиваете. В таком виде фотоаппарат закреплен довольно жестко, по крайней мере кадр не уплывает из фокуса. При серийной съемке страниц расстояние до стола не меняется, так что можно переключить автофокус на ручное управление. На S7000 есть специальная кнопка быстрой настройки фокуса в этом режиме; можно один раз настроить и снимать всю книгу. При этом видоискателем пользоваться невозможно, приходится смотреть на встроенный монитор.
Поскольку я снимал без штатива, руки, особенно со второй сотни страниц, начинают заметно подрагивать. Чтобы снимать быстро и качественно, то выдержку надо ставить не больше 1/40, а лучше 1/50, иначе половина кадров будт смазана. Соответственно, снимать надо с приоритетом выдержки (shutter priority); при этом диафрагму (aperture) фотоаппарат устанавливает автоматически. Надо отметить, что у S7000 выдержка 1/40 обозначается как "40", 1/50 - "50", и т. д.
При малой выдержке могут возникнуть проблемы с освещенностью - кадр будет слишком темным, даже при полностью открытой диафрагме. (По крайней мере S7000 сообщает о недостатке освещенности, окрашивая значение дифарагмы в красный цвет). Здесь очень помогает вспышка, но если ее нет можно воспользоваться обычной настольной лампой, как я и делал. Чтобы избежать ярких бликов от страницы, свет должен быть направлен на книгу ОТ снимающего. Страница должна быть равномрно освещена. Сильная неравномерность освещенности не позволит сделать качественую обработку фотографий и их сжатие.
Для съемки близко расположенных объектов (до 80 см) в S7000 предусмотрен режим "Макросъемка". Не уверен, что именно он делает, но фотографии получаются более четкими.
Яркость и контрастность можно повысить снимая в цветовом режиме "Chrome". Так называемый режим "Black and White", на самом деле - 16 млн. градаций серого. Никакого преимущества в размере или качестве фотографий он не дает.
В целом скорость съемки составляет от 5 до 10 страниц в минуту. Если вам кто-то помогает перелистывать страницы книги и придерживать их пока вы снимаете, теоретически можно ускориться и до 15 стр./мин. Максимальная скорость ограничена скоростью переписывания информации с матрицы в память фотоаппарата.
Наиболее удобно располагать страницы горизонтально (в альбомном формате) так, чтобы страница занимала как можно большую часть кадра. Удобно снимать сначала все нечетные страницы начиная с начала, а затем все четные, начиная с конца. Это зависит от того, насколько легко книга раскрывается и спокойно лежит, пока вы ее снимаете. Если возникли сомнения в качестве сделанного кадра, лучше сразу его просмотреть на мониторе фотоаппарата и переснять если нужно.
Объем фотографий составил 140 Mb.
ОБРАБОТКА ЦИФРОВЫХ ФОТОГРАФИЙ
Теоретически, отснятые кадры должны содержать черный текст на белом фоне. На самом деле, получается черно-коричневй текст на красно - бежевых страницах. Цветовая гамма зависит от того, насколько старая книга, от освещенности и типа светильника (лампа накаливания, галогеновая лампа, и т. д.), а так же от цветопередачи данной модели фотоаппарата. Если не придавливать страницы сверху стеклом (что сильно замедляет скорость съемки), они остаются чуть неровными, что дает разнообразные тени и блики по всей странице. В обоих случаях контрастность текста сильно уменьшается. При попытке прямой конвертации в 2-х битный цвет, страница покрывается черными и белыми пятнами, на которых вообще не видно текста. Поэтому, конвертацию в B/W пришлось проводить программой Photoshop, которая обладает не только набором полезных фильтров, но и хорошими возможностями автоматизации.
Перед собственно конвертацией полезно привести все страницы к одному размеру в пикселях. Вообще, соотношение сторон кадра составляет 3:4, но если вы, например изменяли разрешение фотоаппарата во время съемки (например для фотографирования рисунков с мелким деталями 3 мегапикселей мало, нужно 6 мегапикселей) реальные размеры в пикселях будут отличаться. Это немного замедляет ручную обработку в SkanKromsator'e (см. ниже), а главное - мешает ему правильно рассчитать поля страниц. Большие страницы обрезаются по тексту, а маленькие наполовину состоят из полей. Привести страницы к одному размеру может IrfanView. В режиме пакетной обработки можно выставить желаемую ширину в пикселях (при установленных галках Preserve Aspect Ratio и Use Resample function). Я ставил пикселей. Если вы снимали в альбомном формате, то можно заодно и повернуть страницы. Правда тут нужно помнить, что Irfan сначала изменяет размер, а затем поворачивает страницу. Т. е. если с поворотом, то устанавливать размер нужно по высоте, а не ширине.
Полезным побочным эффектом от изменения размера является подавление мелкого шума. В результате применения ресэмплинга контуры размываются, причем крупные объекты (буквы) размываются значительно меньше, чем мелкие (точки). Размытые объекты исчезают при последующем фильтровании с помощью HighPass в Photoshop'е (см. ниже). Надо отметить, что изменение размера картинки превращает цвет в 16-битный, поэтому лучше его делать до обработки Photoshop'ом.
После этой операции размер файлов уменьшился со 140 до 90 Mb; скорость обработки 4,5 с на 1 файл.
Обработку в Photoshop'e я проводил так. Во-первых, удобно создать рабочий каталог для конвертации: D:\Photo_article с двумя подкаталогами \Input и \Output.
В палитре автоматизации Actions в Photoshop я создал новый пункт TextContrast. В него последовательно включены:
Levels
with Auto
HighPass
Radius 3,2 pixels
Brightness/Contrast
Brightness: 45
Contrast: 77
Convert Mode
to: grayscale mode
Gaussian Blur
Radius: 0,4 pixels
Brightness/Contrast
Contrast: 91
Threshold
Level: 180
Convert Mode
to: bitmap mode
resolution: 72 dpi
method: threshold
Save
as: TIFF
byte order: IBM PC
with LZW compression
in: d:\Photo_article\Output
with lower case
Close
На основании этого Action я создал droplet Photo_article. exe и поместил его в рабочий каталог. Каталог для сохранения результатов в droplet'е установил \Output. В дальнейшем, фотографии предназначенные на обработку переписываются в каталог \Input, затем в проводнике этот каталог drag'n'drop на droplet. Запускается Photoshop и довольно шустро конвертирует фотографии (около 4-5 с на фотографию), сохраняя все в \Output.
Разберем по пунктам действия при конвертации.
Levels. Автоуровни делают в конечном счете чуть жирнее все линии на фотографии. Без этого тонкие линии на рисунках могут стать пунктирными в процессе обработки.
HighPass. Ключевой момент. Это фильтр из стандартной поставки Photoshop, живет в меню Filter | Other. Про него отлично рассказано в справке к программе. Вкратце, он удаляет шум со страницы и выделяет места с сильно контрастным переходом цвета - то есть, собственно, границы букв.
Brightness/Contrast. Если этого не сделать, то при переходе к B/W цвет страницы станет инвертированым.
Convert Mode to Grayscale. Без этого не работает конвертация в Bitmap.
Gaussian Blur. Улучшает внешний вид букв и кривых, чтобы не терялись пиксели при переходе к B/W.
Brightness/Contrast. Полезно применить после Blur, но не обязательно.
Threshold. Ключевой момент. После этой операции на фотографии остается 2 реальных цвета. Но файл продолжает считаться 256-и цветным.
Convert Mode to bitmap mode. Окончательно переводит картинку в 2-х цветную.
Save as TIFF. Сохраняет файл с исходным именем но в формате TIFF в каталог \Output. К сожалению, поддерживается только сжатие LZW, хотя Group 4 Fax больше подходит для черно-белого текста.
Close. Переходим к следующему файлу.
Возможно, данная последовательность команд не является идеальной, но у меня она не дала ни одного сбоя с потерей текста или рисунка на 1000 сфотографированных страниц.
После этой операции размер файлов уменьшился с 90 Mb до 17 Mb; скорость обработки 4,6 с на 1 файл.
Следующий этап - поворот страниц (если этого не сделали на первой стадии), обрезка полей, выравнивание текста и удаление случайных пикселей. С этой работой отлично справляется программа SkanKromsator (С) by Bolega (инструкции по работе прилагаются к программе). Работа проходит в два этапа: сначала ручное выставление границ обрезки полей и некоторых других параметров, а затем автоматическая обрезка и установка равных размеров страниц с учетом выставленных полей. Она же заодно позволяет сохранять картинки в файл TIFF со сжатием Group 4 Fax (обозначено в программе G4Fax Compress). Лучше на соответствующей вкладке дать именам файлов какой-нибудь буквенный префикс, что очень облегчит работу на следующем этапе.
После этой операции размер файлов уменьшился с 17 до 5 Mb. Скорость обработки при ручной верстке - 9 с на 1 файл, при автоматической резке - 2,5 с на 1 файл.
Теперь настало время провести сортировку плохих и хороших страниц (для того, чтобы ускорить съемку я не возился со стиранием ненужных страниц из фотоаппарата). Кроме того, четные и нечетные страницы лежат отдельно, их нужно расположить в порядке следования. В принципе, можно применить какую-нибудь программу, умеющую автоматически переименовывать файлы числами с шагом 2, начиная с 1 для нечетных и начиная с 2 для четных страниц. Но для этого нужно быть уверенным, что все файлы идут по порядку и лишних среди них нет. Мне было проще переименовывать файлы вручную. Для этого я сначала перенес четные и нечетные файлы в отдельные каталоги (поскольку я снимал четные страницы с конца, пришлось в IrfanView переименовать их еще раз, предварительно отсортировав в обратном порядке), а затем просматривал их подряд в полноэкранном режиме IrfanView (при этом номер страницы обычно можно рассмотреть). Кнопка F2 переименовывает файл, причем вводить расширение каждый раз не надо. Если программа сообщает, что такой файл уже есть (то есть страница снята дважды), даю индекс a, b, c и т. д. Так все версии одной страницы идут последовательно друг за другом в списке файлов. Если не давать буквенные индексы в SkanKromsator'е, то переименованные файлы могут совпадать с еще непереименованными.
Скорость обработки - 2 с на файл.
В конце концов получается набор файлов с названиями, соответствующими номерам страниц и готовых к конвертации в формат DjVu. Здесь нужно отметить, что чем меньше размер файлов, втягиваемых в DjVu, тем быстрее он работает. Причем имеется в виду размер файла на диске, со сжатием, а не в памяти, когда он натурального размера. Втягивание я производил в программе DjVu Solo. Для этого первая страница копируется из IrfanView и вставляется Ctrl-V. Остальное добавляется списком командой Edit | Append page(s)... Нужно перейти в каталог с файлами и выделить мышью второй файл (первый уже скопирован) а затем с Shift'ом послединй. Затем нужно вернуться к первому ВЫДЕЛЕННОМУ файлу и удерживая Ctrl дважды медленно щелкнуть по нему мышью, иначе при импорте он встанет последней страницей. Полученный документ сохраняем с разрешением 72 dpi в режиме Bitonal.
После этой операции размер файла DJVU составляет 3,5 Mb. Скорость обработки - 1 с на 1 файл.
ЗАКЛЮЧЕНИЕ
Итого, выигрыш в размере между форматом DjVu Bitonal и исходными цветными фотографиями в JPEG составляет 40 раз. Суммарные затраты времени: * съемка - 20 мин * предварительная конвертация IrfanView - 14 мин * конвертация в B/W с помощью Photoshop'e - 14 мин * ручная верстка в SkanKromsator'e - 27 мин * автоматическая резка в SkanKromsator'e - 8 мин * переименование файлов - 8 мин * конвертация в DJVU с помощью DJVU Solo - 4 мин Итого: 20 + 27 + 8 = 55 мин ручной работы и 14 + 14 + 8 + 4 = 40 мин автоматической конвертации; всего 1,5 часа на 180-и страничную книгу.
Скорость фотосъемки по одной странице на кадр немного ниже скорости ксерокопирования, и гораздо выше скорости сканирования, составляя 5-10 страниц в минуту. Пакетное конвертирование Photoshop'ом из цветного JPEG в черно-белый TIFF занимает 4-5 секунд на страницу и не требует участия человека. Обработка изображений SkanKromsator'ом одинаково желательна как для сканированных, так и для сфотографированных изображений; хотя в последнем случае затраты времени на одну страницу немного выше, около 10 секунд на страницу. Создание списка страниц в порядке их нумерации наиболее утомительная процедура в случае фотографий, поскольку среди них выше процент брака (особенно при съемке без вспышки и штатива). Увеличение скорости съемки, благодаря обработке четных и нечетных страниц отдельно, компенсируется увеличением времени на приведение в порядок списка файлов. Я тратил на ручное переименование около 2 секунд на файл. Наконец, импорт в DjVu протекает быстрее для фотографий, так как их разрешение 72 dpi, а не 150-300 dpi, которое обычно используется при сканировании. Получающиеся в результате файлы, разумеется, ниже качеством, чем сканированные, поскольку имеющееся разрешение плохо передает мелкие детали. Тем не менее, текст в них хорошо читается; двухтоновые иллюстрации, обычные для научных публикаций, также не страдают от потери качества. На мой взгляд, мобильность цифрового фотоаппарата, позволяющая снимать практически где угодно, перевешивает некоторые недостатки его использования. Для рутинной работы по копированию больших объемов печатного текста, где важно не качество сканированной картинки, а скорость переведения информации в цифровой вид, сканер значительно проигрывает фотоаппарату.
(с) Кирилл Шубин kir101[sobaka]mail[dot]ru
Весна 2005 года
Инструкция по преобразованию книг
Предупреждение
- На текущий момент полное сканирование книги является противозаконным действием. Вы имеете право сделать только копию части произведения, необходимую вам для обучения. Кроме того вы можете осуществлять сканирование книг с разрешения автора и переводчиков.
Сканирование
- Пока у меня не было большого количества сканеров, чтоб посоветовать какую-либо определенную модель сканера. Если вы хотите заниматся сканированием книг профессионально, рекомендуется приобрести т. н. книжные (библиотечные) сканеры, но стоят они около 20000 долларов. Некоторые люди снимают изображение с помощью цифровой фотокамеры - это заметно ускоряет процесс, но качество изображения зависит от мастерства снимающего и знания им фотоаппарата. Сканируем страницы в любую программу для обработки изображений (например Adobe Photoshop) или в файл изображения. Рекомендуется сканировать в разрешении 300-600 dpi (ниже - хуже читается, выше - размер файла больше). Разрешение выбирается тем большее, чем более темной и потертой является бумага. Сканировать рекомендуется в форматы. tif или. bmp. Следует учесть, что форматов. tif несколько, и среди них есть такие, которые не открываются DjvuSolo. Преобразовать из одного tif-формата в другой можно тем же Adobe Photoshop. Рекомендуется преобразовывать в черно-белый формат сразу на этапе сканирования, так как сканер сможет более точно разделить границы текст-фон, чем любые редакторы в дальнейшем. При сканировании удобно называть файлы 001, 002, 003 и т. д. (или для больших книг 0001, 0002 и т. д.) - это в дальнейшем облегчает объединение их в книгу и исключает путаницу. При сканировании разворотов можно называть файлы по номеру одной из страниц. Интересная особенность была замечена при сканировании сканером HP ScanJet 5300C. Если книга полностью перекрывает левую границу сканера, то на изображении возникают белые пятна несосканированного текста. Сдвинув страницу можно избавится от эффекта.
Преобразование pdf-файлов
- Для преобразование pdf в tif используется Adobe Acrobat 5 или выше. В нем открывается pdf-файл и выбирается команда File -> Export -> Extract image as -> tiff files. Процесс преобразования довольно длительный. Полученные tif-файлы можно очистить от полос, если это требуется или сразу собирать из них djvu-книгу. Для прямого преобразования pdf в djvu есть программа VirtualDjvuPrinter. Она устанавливает виртуальный принтер на который можно печатать в djvu-файл из любой программы. Для печати из Acrobat рекомендуется поставить галочку Print as image. К недостаткам программы относятся медлительность и глючность, поэтому этот способ нежелателен.
Обработка изображения
- Обработку изображения с дефектами можно производить любым графическим редактором работающим с форматами tif и bmp. Я например пользуюсь Adobe Photoshop 7. Рекомендуется, где это возможно, преобразовывать книги из полноцветной графики в bitmap (двухцветный, черно-белый) вид, кроме случаев, когда на странице необходимо сохранить цветной рисунок или серый неконтрастный рисунок с мелкими деталями. Это сильно уменьшает объем книги. В некоторых случаях перед преобразованием требуется изменить контрастность и удалить фон. Рекомендуется удалять боковые и серединные черные полосы. За счет этих полос размер книги может возрости в 2-3 раза. Также желательно выровнять текст - это облегчает чтение и распознавание. Рекомендуется разделять сдвоенные страницы и располагать их по порядку с сохранением соответсвия номера страницы в книге и DjvuPlugin'е. Это сильно облегчает поиск нужной страницы, хотя и несколько увеличивает книгу. Рекомендуется сканировать страницу с названием или выходными данными книги. Не все записывают название книги со страниц сайта и очень помогает когда название есть внутри. Также очень полезно содержание книги, по нему хорошо искать необходимые страницы. В идеале хорошо было бы сделать содержание в виде гиперссылок на соответствующие страницы. Если желаете сохранить в файле оформление обложки книги, то рекомендуется помещать ее в конец, так как полноцветные страницы или темные открываются долго и человек может решить, что файл с книгой поврежден. В Adobe Photoshop есть возможность автоматизировать повторяющиеся действия. Для этого открываете вкладку Действия (Action), создаете новый набор, затем создаете действие. После нажатия кнопки Запись Photoshop начинает запоминать все ваши действия выполняемые над рисунком (кроме уменьшения-увеличения). После выполнения всех необходимых действий нажимаете на кнопку с черным квадратом. Запись прекращается. Не рекомендуется в записываемые действия вносить удаления и обрезание, так как могут быть обрезаны части книги с текстом. Для использования записанного действия выбираем Файл > Автоматизировать > Группа. Выбираете действие, папку с еще необработанными изображениями, назначение - Сохранить и закрыть и нажимаете ОК.
Сбор книги в программе DjvuSolo или DjvuEditor
- Запускаем программу DjvuSolo или DjvuEditor (из пакета Document Express). Выбираем в меню File -> Open (или кликаем на иконку открывающейся желтой папки на панели инструментов). Выбираем файл-картинку первой страницы (если ее не видно, значит в нижнем выпадающем списке необходимо выбрать "All Supported Image Files"). Нажимаем "Открыть". Выбираем в меню Edit -> Append Pages. Выбираем вторую страницу книги. Нажимаем "Открыть". И так можно собрать всю книгу. Для быстрого добавления всех страниц книги необходимо, чтобы названия файлов располагались в том же порядке, что и страницы (например называть их 0001, 0002, 0003 и т. д.) и находились в одной папке. Тогда после команды Append Pages выбираем последний файл списка и удерживая Shift кликаем на второй файл списка (первую страницу мы открыли ранее), после чего нажимаем "Открыть". При добавлении большого количества файлов создается впечатление, что программа зависла. Это происходит, так как она в этот момент использует большое количество оперативной памяти. Требуется переждать этот период (до исчезновения "часиков", на слабых машинах может продолжатся 1-2 часа). Длина командной строки для добавления файлов ограничена, поэтому если добавлять разом более 200-500 страниц может произойти сброс команды (тогда вместо ожидаемого курсора в виде часов остается стрелка). В этом случае нужно добавлять файлы группами по 100-200. Выяснилось, что не все виды tif-файлов поддерживаются программой DjvuSolo, на некоторые она выдает ошибку Invalid G4/MMR Data, а при попытке сохранения в виде djvu программа закрывается из-за ошибки. Такие tif-файлы пересохраняют в Adobe Photoshop в виде несжатых tif-файлов и снова собирают в книгу. После добавления всех страниц выбираем в меню File -> Encode As Djvu и в предложенном меню задаем имя конечного файла djvu. Затем в пявившемся окне указываем разрешение и источник файла. Ждем пока прогресс-бар не исчезнет (дойдет до 100%). Теперь у вас готовая книга в djvu-формате. Некоторые недокументированные возможности и секреты:
Убрать фон можно не пользуясь другими графическими программами, кроме DjvuSolo. Но для этого надо немного извратится. Открыть цветную сканированную страницу в DjvuSolo, перевести в файл djvu. После этого включить режим скрытия фона и импортировать страницу в bmp-файл. Полученный bmp-файл уже не будет содержать фона. Из bmp-файлов вновь собирают книгу.
При сборке книги рекомендуется цветную страницу обложки делать последней, так как отображение полноцветных изображений в DjvuPlugin'e медленное и человек может подумать, что у него сбой или зависание плагина при открытии документа. Программа DjvuEditor (она же Document Express Professional) позволяет также делать следующие действия, отсутствующие в DjvuSolo: поворачивать страницы (вручную каждую), проводить распознование на английском языке.
Подключение OCR
- Рекомендуется сделать распознавание (OCR) в книге. Это значительно облегчает поиск страницы с необходимой страницей. Хотя при этом размер файла увеличивается в 1,5 раза. Djvu-файл требуется разложить на tif-файлы. Это делается с помощью программы DjVuDecode. Для преобразования запускается командная строка, переходят в папку с программой DjVuDecode и пишут команду djvudecode имя_файла. djvu имя_файла. tif. При этом образуется один многостраничный tif-файл. Распознование осуществляется программой ABBYY FineReader 7. Она умеет открывать многостраничные tif-файлы и дает frf-файлы подходящие для следующей стадии. После распознования ABBYY FineReader 7 закрывается с сохранением пакета. Полученные при распозновании frf-файлы лежат там куда вы сохранили пакет. Они копируются в отдельную папку. В эту же папку помещают программу FRFGrab. Запускают командную строку и выполняют команду FRFGrab - g *.frf > book. txt. При этом получается файл book. txt. Полученный book. txt присоединяют к исходному файлу djvu с помощью программы djvused. Для этого в командной строке выполняют следующую команду djvused - f book. txt имя_файла. djvu. Получается файл djvu с OCR.
Распознавание книг
- Для электронной книги наилучшим форматом является все-таки doc-формат (Файлы Microsoft Word) с сохранением оформления и страниц оригинала, так как в тексте можно проводить полнотекстовый поиск и он меньше по размеру, но в связи с трудностью преобразования в этот формат из графики и используется djvu-формат как наиболее компактный из графических. Как текстовый можно использовать и pdf-формат, но pdf составленный из графических файлов лучше преобразовать в djvu. Дальнейшие рекомендации даются для djvu-книг. Пороцесс распознавания - это преобразование djvu-книги в doc-файл. В процессе преобразования рекомендуется сохранять соответствия между номерами страниц оригинала и номерами страниц doc-файла получающегося при распозновании. Это позволит ссылатся на страницы оригинала используя распознанную книгу. В случае если вы хотите добавить свои замечания - лучше их вставить последней страницей. Распознавание можно проводить программой ABBYY FineReader. При этом можно использовать пакеты полученные при подключении OCR к djvu-файлу. Просто после распознавания нужно сохранить результат в файл Microsoft Word. Полученный doc-файл будет содержать большое количество ошибок. Их исправление - трудоемкий процесс, который в основном и является помехой для распознавания. Практически все формулы и схемы реакций придется перерисовывать. Формулы и схемы реакций я бы рекомендовал рисовать программой ChemSketch от ACDLabs, которая интегрируется с Word'ом. Это позволит тем кому необходимо отредактировать схемы в дальнейшем. У тех у кого нет ChemSketch формулы будут графическими файлами.
======================================
New DjVuVersion Utility Fixes Compatibility Issues
a posting by PlanetDjVu, July 22, 2003
Download DjVuVersion (20 KB)
On July 15th, we published an article titled New DjVu Version 25 Has Compatability Issues, in which we described the various problems and issues with DjVu Version numbers.
The compatability issues can be summarized as follows:
1. If the DjVu Version number is higher than the Version number that is supported by the DjVu viewer, then an upgrade message will automatically be displayed by the viewer when the DjVu file is opened. For example, a DjVu file created in the current DjVu Editor 4.0 for Windows (Version 24), will display an upgrade message when viewed in the DjVu Browser Plugin 3.6.2 for Windows (upgrade messages after Version 23).
2. If the DjVu Version number is 25, then the DjVu file will not decode in legacy viewers like DjVu Solo and the ActiveX Control for MS Office.
If you have not added Annotations to the file using DjVu Editor 4.0, then the DjVu Version number can safely be reduced to Version 22, thereby eliminating upgrade messages in all current viewers and all decoding problems in all current DjVu software. This is good news for those who are hosting DjVu document collections, and do not want the upgrade message to ever appear for their users, regardless of which DjVu browser plugin they are using.
We are pleased to offer you a utiity for modifying the Version number of a DjVu file. We offer this to you in two forms, supplied within the downloadable ZIP file:
1. A compiled command-line executable for Windows that can be run in a batch file or command window.
2. C-source code that you can compile into any application on any platform.
How to use the Command Line Utility
Usage: djvuversion [--version=<n>] ...djvufiles...
Action: reduce the version of DjVu files to <n> at most.
Default: the default version is 22.
Volunteers needed to create. bat or GUI files for batch version updating
If you write a batch file or a GUI application for batch version updating of entire folder or folder tree, using DjVuVersion, please consider sharing this with other DjVu users. Send it to this email address, and we will publish it here. Thanks!
==============================
Новая версия. Промежуточная перед окончательной 6.0.
http://bolega. *****/ver%205.5%20beta%20for%20beta-testers/sk-5.5beta-last. zip
Старая дока не очень поможет. Но прочитать все равно обязательно, чтобы понять принцип.
Коротко делать так.
Загрузить сканы.
Сразу же включить галку на верхней панели (это делается один раз при первом использовании кромсатора). Для того, чтобы любые изменения параметров фиксировались бы автоматически. В противном случае будет так, как описано в старой доке.
После загрузки сканов нужно задать угол поворота страниц (выпадающий список в верхней панели), так, чтобы после поворота книга располагалась нормально, т. е. текстом горизонтально.
Далее нужно расставить резаки. Можно делать это и вручную, как описано в 1-й доке. Но лучше выбрать команду Draft kromsate. В появившемся окошке достаточно взвести тольку одну галку, на Split, при условии, что сканы - развороты, а не одиночные страницы. Если же одиночные - то ничего не надо трогать. Просто нажать OK и ждать, пока кромсатор пройдется по всем файлам, выставит резаки и взведет галки. Расстановка резаков носит черновой характер, ее успех во многом зависит от "грязности" сканов. Типичные значения правильной расстановки - от 90 до 95%.
После нужно обязательно пройтись по всем файлам в списке и подправить резаки там, где они выставились неправильно. Резаки можно наклонять. Для этого держать Shift при их движении.
Назначение резаков - отсечь всякий мусор от полезного содержимого. Тут важно понять, что резак не задает край итоговой книги, а просто отсекает мусор. Реальные же края страниц будут потом определяться кромсатором самостоятельно. Более того, он автоматически приведет размеры всех страниц к единому значению, независимо от того, где стоят резаки. Если где-то будет лишнее белое пространство, он его сам отсечет, если его где-то не будет хватать - он там прибавит.
Это так сказать обязательные типовые предварительные операции для последующего собственно кромсания.
Здесь конечно возможны куча исключений. Например, часть страниц нужно повернуть не так, как все остальные, часть нужно первести из color в bw, где-то нужно задать убирание налезающей на текст тени, для серых сканов убрать фон или даже "вытянуть" из фона еле различимый текст и т. д. Вариантов масса, и они все поддерживаются. Причем реально на данном этапе еще ничего не делается, а просто готовится пакетное задание.
Особое внимание обратить на закладку Files, где задаются папка для выходных файлов, их dpi (не забывать ставить out dpi=input dpi, т. к. в старых версиях стояло 300dpi по умолчанию).
На закладке Book задать размеры полей итоговой книги. Очень важный параметр, различный для разных dpi. Для dpi=300 следует задавать не менее 70x90, для 600dpi - не менее 110x150.
Еще один важный параметр - метод despeckle. Самый "чистящий" - fine. Более щадящий - normal. Для бледных сканов, с разорванными буквами использовать safe.
Deskew метод задает алгоритм автоматического выравнивания сканов. Их там много, рождались по мере совершенствования кромсатора. Рекомендуемый метод - Auto(shear).
После окончания подготовки задание сохранить, чтобы если что, можно было что-нибудь подправлять.
Потом запустить собственно кромсание. После него задание снова сохранить. Потом можно если есть желание, делать пост-обработку. В ней доступны очень много возможностей по чистке сканов, часть их больше нигде не найдете, только в кромсаторе.
Описывать их здесь не буду, так как слишком много.
Если в целом размер книги на выходе получился нормальным, переключаете на закладке Book параметры page width/height на fixed, чтобы, если в дальнейшем понадобится переделать отдельные страницы задания, их выходной размер не изменился, а остался единым для всей книги.
Если какие-то страницы нужно переделать (напр., поменяли для них параметры кромсания), то достаточно пере-кромсать только их. Кромсатор поддерживает кромсание любой группы страниц.
Если вы отсканировали и обложку, то ее как правило не стоит делать такого же размера как все остальные страницы (у нее и размер обычно больше, и dpi другое). Поэтому для нее нужно до обработки сразу же задать на закладке Pages, кнопка special, параметр ignore gaps - взвести галку. В итоге ее размеры будут целиком определяться только резаками. Там же можно задать для нее не менять цвет (или лучше color256 если скан обложки цветной) и не менять dpi.
Если что не понятно - спрашивайте, или ждите готовящейся доки.
Успехов
Извиняюсь за столь пространное письмо.
(Сообщение отредактировал bolega 9 июня 2005 18:28)
1DjVu-программы (только для ОС Windows):
Программа | Размер | Зеркала | Кряк | Откуда | Комментарий |
1. Программы с визуальным графическим интерфейсом: | |||||
1.1. Создание, просмотр или конвертация DjVu-файлов: | |||||
DjVu Solo v3.1 NonComm | 2,12 МБ | 1 (копий - море) 2 P2m | Не нужен | PlanetDjVu | Отличная программа, бывший основной и почти единственный инструмент для создания DjVu-файлов. Сейчас уже устарела. |
DjVu Solo v3.1 Comm | 9,87 МБ | 1 (9,87 МБ) Огромное спасибо Arceny за зеркалирование! | 02040-*****- | Филиал библиотеки Колхоза | Это коммерческая версия DjVu Solo v3.1. SoloEX beta2 - это приставка-"пакетизатор" к DjVu Solo v3.1 Comm. от болгарского программиста Генчо. (Подробности). Сейчас уже устарела. |
SoloEX beta2 exe only | 54 КБ | 1 (54 КБ) 2 P2m | Не нужен | Филиал библиотеки Колхоза | Вариант для тех, у кого уже есть коммерческая версия DjVu Solo v3.1. Это только один файл solox. exe. Инструкции по использованию - см. "Подробности" строкою выше. Сейчас уже устарел. |
DjVu Solo v3.1 Comm Коммерческая версия Installed + SoloEx by Gencho | 8,27 МБ | 1 (8,27 МБ) Огромное спасибо Arceny за зеркалирование! | Не нужен | Филиал библиотеки Колхоза | Это проинсталлированная коммерческая версия DjVu Solo. SoloEX - это первая версия приставки-"пакетизатора" к DjVu Solo v3.1 Comm. от болгарского программиста Генчо. (Подробности). Сейчас уже устарела. |
DjVu Solo v3.1 NonComm Rus + DjVu Browser Plugin v4.5 Rus | 3,19 МБ | 1 P2m | Не нужен | Хороший пакет, да только плагин 4.5 уже успел устареть. Впрочем, его можно и не ставить при инсталляции. | |
Русификатор к DjVu Solo v3.1 NonComm (такой, как в пакете строкой выше) | 59 КБ | Не нужен | Русификации | Отличный русификатор. | |
DjVu Editor 3.6.1 (Desktop Edition) | 14,7 МБ | 1 (14,7) МБ 2 (13,3 МБ, но скорость маленькая) 3 (13,3 МБ) 4 P2m | Это псевдобесплатная версия, т. е. на "чистой" машине работает без ограничений, но если раньше на компьютере стояла какая-нибудь картриджезависимая программа, тогда и эта начинает требовать картридж для своей работы. | Библиотека химфака СПбГУ, Phys. *****, R. I.Raikin | Полное название - Document Express Desktop Edition - DjVu Editor 3.6.1. В пакете есть только сам DjVu Editor и больше ничего. В нём есть англ. OCR. |
DocumentExpress Pro v4.0 | 28,2 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | DjVu Editor v4.0 (Pro) Crack (4 КБ) Web-страница создателя кряка. | Филиал библиотеки Колхоза | Внутри пакета: |
DocumentExpress Pro Trial v4.1 (пакет от LizardTech из 3 программ: | 29,6 МБ | 1 (29,6 МБ) 2 (29,6 МБ) 3 (29,6 МБ) 4 (29,6 МБ) RuIPs only - Огромное спасибо Arceny за зеркалирование! 5 P2m | Лекарство (44 КБ). Это не кряк, это 2 запускалки: для Editor'а и для Virtual Printer'а. К сожалению, обе кривые. На некоторых компьютерах точно работают, на других - нет. (Взято с Форум NHT). А вот и Кряк (4 КБ) к Editor'у. Прислал Дмитрий. | LizardTech Espana, DjVu GB Soft, Dszn Vladinfo Planetasia (раньше был на LizardTech) | Не обязательно ставить, т. к. есть бесплатные версии всех компонентов этого пакета (см. ниже). Пожалуй, установить пакет можно лишь ради более новой версии витуального принтера - v4.1. Это пока самая последняя из имеющихся версий. Уже вроде бы и патчить её научились. Я с этим ещё не успел разобраться. |
DjVuEditor Pro v4.1 build 333 Rus (без OCR, справки и слайд-шоу). Поскольку программа без справки, то я выкладываю пакет справки (HTM, 532 КБ) от этой же программы из пакета строкой выше. | 2,5 МБ | 1 2 P2m | Не нужен (в отличие от этой же программы в пакете строкой выше) | СКР | Это, по сути, следующая версия DjVu Solo v3.1, но отличие в том, что теперь можно добавлять расширенные аннотации в DjVu-файл; создаёт DjVu-файлы версии 25, которые нельзя открыть в DjVu Solo v3.1 (который создаёт DjVu-файлы версии 22). Но можно понизить версию DjVu-файла с версии 25 до версии 22 утилитой DjVuVersion (см. ниже) и потом всё же открыть DjVu-файл в DjVu Solo v3.1. |
Document Express Editor v5.0.0 Build 16 (45 OCR языков) | 53, 9 МБ (из-за поддержки 45 OCR-языков) | 1 RuIPs only - Огромное спасибо Arceny за зеркалирование! | (Спасибо Stranger1 за сер. номера) | DjVu GB Soft | Версия 5.0 DjVuEditor'а. Новое: новый OCR-движок с поддержкой 45 языков (в т. ч. русского); убрана поддержка расширенных аннотаций. Язык интерфейса программы - АНГЛИЙСКИЙ. |
Document Express Editor v5.0.0 Build 16 (contains Asian OCR support (60 OCR языков) | 53, 9 МБ (из-за поддержки 60 OCR-языков) | 1 RuIPs only - Огромное спасибо Arceny за зеркалирование! 2 P2m | Пароль на архив: "editoreval". (Спасибо Stranger1 за сер. номера) | LizardTech Japan | В этой программе всё так же, как и в той, что строкой выше, только добавлено 4 языка распознавания: японский, корейский, традиционный китайский, упрощённый китайский. Язык интерфейса программы - АНГЛИЙСКИЙ, несмотря на то, что она скачена с японского сайта. |
Document Express Editor v5.0.0 Build 16 (без OCR и справки) | 1,72 МБ | 1 (1,72 МБ) 2 P2m | Не нужен | Позже напишу | Это всё та же программа (что строкой выше), только она уже проинсталлирована и взломана. Нет OCR и справки, зато какой размер! |
Document Express Editor v5.0.0 Build 16 plus (без OCR и справки) | 2,0 МБ | 1 P2m | Не нужен | Позже напишу | Это всё та же программа (что строкой выше), только: |
Русификатор к Document Express Editor v5.0.0 Build 16 | 164 КБ | 1 (163 КБ) | Не нужен | Автор: Arcand | Прекрасно сделанный русификатор. Скопировать в "C:\Program Files\LizardTech\Lizardtech Document Express Editor 5.0\bin", предварительно сохранив замещаемую dll'ку. |
Document Express Enterprise with DjVu v5.1 build 946 (with Asian OCR) | 196 МБ | 1 Огромное (!) спасибо М. Доронину за зеркалирование! 2 - RuIPs only Огромное (!) спасибо Arceny за зеркалирование! 3 P2m | Пароль на архив: "enteval". (Спасибо Stranger1 за сер. номера) | LizardTech Japan | Сейчас это основной рабочий инструмент для (группового) кодирования в DjVu. Возможности: |
Document Express Enterprise with DjVu 5.1.0 build 946 (Light Edition) Огромное спасибо М. Доронину за зеркалирование! | 18,7 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | (Спасибо Stranger1 за сер. номера) или Кряк (6 КБ) | Stranger1 | Облегчённая версия Document Express Enterprise 5.1.0. Убрано: IRIS OCR, Asian Support, Docs. IRIS можно взять от Editor-а. Можно также проинсталлировать пакет платформы. NET версии ,1 МБ) (от MS Visual ; без проблем покупается на местном дисковом рынке), и тогда заработают все визуальные интерфейсы. |
Document Express Enterprise v.5.1.0 Help (необходим для скачавших Light Edition) | 5,89 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | Stranger1 | Это help к пакету строкою выше. | |
PDFToDjVu Help | 356 КБ | 1 (360 КБ) 2 P2m | Stranger1 | Это help к pdftodjvu из пакета 2 строками выше. | |
LizardTech PDFToDjVu GUI | 183 КБ | 1 (183 КБ) 2 P2m | Не нужен | Stranger1 | Это визуальный (английский язык) интерфейс к консольной программе pdftodjvu. exe из обоих пакетов DEE 5.1, переделанный Stranger1: убран инсталлятор (на японском языке :), который лез в Интернет для обновления. Не работает под Windows 98 и кажется без проинсталлированного пакета платформы. NET версии 1.1 |
Document Express Enterprise Workgroup Edition 3.6.1 | 13,9 МБ | 1 P2m | Кряк нужен, но его пока не существует. Схема защиты - виртуальный картриджник (ECM). No crack is existent. If you can, make a crack and send it please to me. | LizardTech | Программа из пакета DEE 5.1 b946. (Рас)кодирует в(из) DjVu по локальной сети. Работает с "наблюдаемыми папками" - т. е. моментально конвертит (по сети) всё, что кладётся в эти папки. |
Document Express Enterprise with DjVu v5.1 build 973 | 168 МБ | 1 Прямой линк, увы, пока неизвестен. Если Вы его знаете - пожалуйста, сообщите. | (Спасибо Stranger1 за сер. номера) или Кряк (6 КБ) | LizardTech | Такой же софт, что и build 946 чуть выше в таблице, только без Asian OCR и без виртуальных принтеров. |
DjVuer v1.12 | 2,19 МБ | 1 2 P2m | Кряк внутри, взят на www. ***** | (раньше был на Feith) Tutornet | Программу я не пробовал установить, но, скорее всего, она не стоит внимания. |
DjVuer Pro v1.7 | 2,27 МБ | Раньше был здесь. 1 2 P2m | Кряк внутри, взят на www. ***** | (раньше был на Feith) Tutornet | Программа плохая, не стоит внимания. Цветные картинки криво кодирует. создаёт DjVu-файлы версии 18, которые где-то на 12 % больше и на вид чуть размытее, чем у Solo v3.1. |
DjVuer Pro v2.0b1 | 2,24 МБ | 1 P2m | Кряк внутри, взят на www. ***** | (раньше был на Feith) | Основательно не смотрел пока. Cоздаёт DjVu-файлы версии 18. |
DjVex v2.6 | 1,50 МБ | 1 2 P2m | Не знаю, ещё не пробовал | (раньше был на Feith) Tutornet | The DjVex ActiveX Control allows you to view DjVu images in Visual Basic and |
JRAPublish v.2000 Огромное (!) спасибо Arceny за зеркалирование! Программа не работает, т. к. к ней нет кряка! Подробнее - см. далее -> | 65,5 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). 1 RuIPs only (65,5 МБ ) 2 P2m | Программа инсталлируется без проблем, но для работы ей нужен физический USB-ключ iKey. Если у Вас есть кряк, или идеи по поводу его создания, пожалуйста, напишите мне. No crack is existent. Protection: USB-dongle dependency. If you can, make a crack and send it please to me. | Раньше была тут: SearchPDF | Программа от James Rile Associates. Работает с DjVu и Pdf - делает всё, что душа пожелает, даже имеет OCR-движок от нашего FineReader'а! Она лишь запускается, но все элементы управления - disabled. В общем, нужно кряк разрабатывать. Инсталлируется под NT 4.0 и выше, под Win98 - нет. См. Help-файлы к программе: здесь (34 КБ). См. также краткое описание программы. |
JRAPublish 2.000 Help File JRAConvert 2.000 Help File | 2,28 МБ 395 КБ | - | JRA Applications | Это хелпы к обоим программам из пакета строкою выше. См. также: Продукты JRA: | |
JRAPublish v.1.500 | 77,3 МБ | 1 P2m | Физический USB-ключ iKey. No crack is existent. If you can, make a crack and send it please to me. | Та же, но более старая программа от James Rile Associates. Работает с DjVu, Pdf, имеет OCR-движок от нашего FineReader'а. Жаль, что пока кряка нет. Инсталлируется под NT 4.0 и выше, под Win98 - нет. | |
JRAPublish 1.500 Help File JRAConvert 1.500 Help File | 2,07 МБ 570 КБ | 1 (2,07 МБ) 1 (570 КБ) | - | JRA Applications | Это хелпы к обоим программам из пакета строкою выше. |
1.2. Только создание DjVu-файлов: | |||||
LizardTech Virtual Printer v3.6.1.20 (для Win NT / 2000 / XP) | 3,2 МБ | 1 2 3 P2m Также известен под именем "LizardTech Virtual Printer 6.18 Regged" | Не нужен | СКР | Виртуальный принтер. Создаёт DjVu-файл из любого Windows-приложения. |
LizardTech Virtual Printer Pro v4.1 (для Win 98 / ME) | 5,80 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | (Спасибо Stranger1 за сер. номера) или Кряк (6 КБ) | LizardTech Japan | Виртуальный принтер. Создаёт DjVu-файл из любого Windows-приложения. Взят из пакета Document Express Enterprise Edition 5.1 with Asian OCR. |
LizardTech Virtual Printer Pro v4.1 (для Win NT / 2000 / XP) | 5,87 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | (Спасибо Stranger1 за сер. номера) или Кряк (6 КБ) | LizardTech Japan | Виртуальный принтер. Создаёт DjVu-файл из любого Windows-приложения. Взят из пакета Document Express Enterprise Edition 5.1 with Asian OCR. |
LizardTech Virtual Printer Pro v4.1.5 build 973 | 12,1 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | (Спасибо Stranger1 за сер. номера) | GB Soft | Чуть более новая версия виртуального принтера. В пакете 2 принтера: 1 - для Win 98 / ME, 2-ой - для Win NT / 2000 / XP |
1.3. Только просмотр или конвертация DjVu-файлов: | |||||
DjVu Browser plugin v4.1 | 4,14 МБ | Раньше был здесь. (4,34 МБ):1 (4,6 МБ): 2, 3, 4, (3,83 МБ): 5 | Не нужен | DjVu библиотеки, (раньше был на LizardTech) | |
DjVu Browser plugin v4.5 | 7,74 МБ | Раньше был здесь. 1, 2, 3 4 P2m | Не нужен | DjVu GB Soft, (раньше был на LizardTech) | |
DjVu Browser plugin v4.5.0_537 | 928.1 КБ | 1 P2m | Не нужен | СКР | |
DjVu Browser plugin v5.0.1 build 848 | 8,53 МБ | Раньше был здесь. 1 2 3 4 1 P2m | Не нужен | LizardTech | Наконец-то добавлена поддержка мышиного колёсика, правда, пока только лишь в пределах текущей страницы. |
Русификатор к DjVu Browser plugin v5.0.1 build 848 | 121 КБ | 1 (121 КБ) | Не нужен | Автор: Arcand | Прекрасно сделанный русификатор. Скопировать в "Program Files\LizardTech\Lizardtech DjVu Control". |
DjVu Browser plugin v5.0.2 build 881 | 8,53 МБ | 1 P2m | Не нужен | LizardTech Japan (2 ряд, левая кнопка) | Предпоследний релиз плагина от LizardTech Japan. Незначительные исправления событий COM. |
Русификатор к DjVu Browser plugin v5.0.2 build 881 | 120 КБ | Не нужен | Автор: Arcand | Прекрасно сделанный русификатор. Скопировать в "Program Files\LizardTech\Lizardtech DjVu Control". | |
DjVu Browser plugin v6.0.0 build 1116 | 14,6 МБ | 1 Огромное спасибо М. Доронину за зеркалирование! | Не нужен | LizardTech | Текущий релиз плагина у LizardTech. |
Русификатор к DjVu Browser plugin v6.0.0 build 1116 | 120 КБ | Не нужен | Автор: Arcand | Прекрасно сделанный русификатор. Скопировать в "Program Files\LizardTech\Lizardtech DjVu Control". | |
DjVu Browser plugin v6.0.0 build 1116 Light Edition | 733 КБ | Не нужен | Автор: Astra55 | Обрезанная версия текущего релиза LizardTech DjVu-плагина. | |
IrfanView v3.97 + Rus + DjVu Dll v3.90 | 874 КБ + 28,1 КБ + 336 КБ | Старые Dll-ки: | Не нужен для некомм. исп., но есть на www. ***** | Здесь, | Поддерживает многостраничные DjVu-файлы, но качество отображения - плохое. Зато великолепно пакетно преобразует графические файлы. |
ACDSee DjVu Plugin | 194 КБ | Известен также под именем "DjVu Image Encode / Decode Library 1.0" | www. ***** | ACDSystems | Этим плагином мне не удалось просмотреть DjVu-файлы. Сам ACDSee v3.1 нужен для группового переименовывания DjVu-файлов. Он может просматривать DjVu-файлы после установки броузерного DjVu-плагина от LizardTech, только со скверным качеством. |
XnView v1.80.1 | 6,91 МБ | Не нужен | XnView | Поддерживает многостраничные DjVu-файлы, но качество отображения - плохое. | |
DjVuReader v2.0.0.26 Инструкция по созданию дерева-содержания под DjVuReader | 1,70 МБ | 1 RuIPs only (1,70 МБ) 2 P2m | Не нужен | OpenDjVu | При запуске "ворует" файловую ассоциацию - переделывает на себя открытие djvu-файлов в винде. Лечится сбросом 1 параметра в ini-файле и переинсталляцией плагина. |
WinDjView-0.3.5 | 484 КБ | Не нужен | WinDjView1 WinDjView2 | Поддерживает многостраничные DjVu-файлы, качество отображения - хуже (размытее), чем у броузерного плагина от LizardTech и не показывает водяные знаки. Зато, в отличие от плагина, имеет непрерывный скроллинг мышинным колёсиком плюс дерево-содержание как в Pdf-файлах. | |
WinDjView-0.3.5 Rus | 470 КБ | Не нужен | Kibi | Русифицированная версия программы строкою выше. | |
DjVu Fancy Viewer Demo | 587 КБ | Не нужен | Celartem Korea | Он-лайн просмотрщик DjVu-файлов. Работает только в демо-режиме. Нужен специалист, который изготовил бы полнофункциональную версию из демонстрашки. | |
2. Консольные программы: | |||||
2.1. Создание или конвертация DjVu-файлов: | |||||
Cygwin DjVuLibre v3.5.11.3 Исходники к нему (989 КБ) | 2,71 МБ | Обычно дистрибутив собирается из 4 файлов: | Не нужен. | 1.DjVuLibre | Cygwin - это Интернет-сообщество особым образом скомпилированных линуксовых программ (для работы под Windows). Cygwin состоит из программы-инсталлятора и tar. bz2-пакетов, которые устанавливаются при необходимости. Каждая cygwin-программа нуждается в cygwin1.dll (это переходник "Linux-Windows", входит в пакет cygwin-1.5.11-1.tar. bz2). |
DjVuLibre v3.5.13 (скомпилированный под Windows) | 3,47 МБ | Не нужен. | OpenDjVu | Почти то же (чуть меньше программ), что и строкой выше, только сразу под винду (cygwin1.dll уже не нужна) + документация. | |
Djvu Express Enterprise 3.6 | 26,3 МБ | 1 (26,3 МБ) 2 P2m | Кряк нужен, но его пока не существует. Схема защиты - SentinelLM. Я сделал инсталляционный лог (файлы + реестр) (6 КБ) | Набор консольных программ от LizardTech для работы с DjVu. Подробно не смотрел пока. Если Вам дорого скачать пакет, то можете хотя бы Help (1,73 МБ) к нему почитать. | |
Djvu Express Enterprise 3.6 (облегчённая версия) | 1,40 МБ | Кряк нужен, но его пока не существует. Схема защиты - виртуальный картриджник (ECM). | Это составленная мною облегчённая версия пакета строкою выше. В неё я включил те 3 файла, которые нужно взломать, ну и плюс профили и всякую нужную мелочёвку. Help к пакету возьмите строкою выше. | ||
DjvuSDK v3.6.1 | 5,79 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | Кряк нужен, но его пока не существует. Схема защиты - виртуальный картриджник (ECM). No crack is existent. If you can, make a crack and send it please to me. | LizardTech | Набор исходников консольных программ от LizardTech для работы с DjVu. Подробно не смотрел пока. |
AT&T command-line utilities v2.0 Состав пакета: | 936 КБ | Прилагается | Пакет старых утилит командной строки. Его нет смысла скачивать, т. к. выше в таблице есть ВСЕ его компоненты. Уровень сжатия кодёра из пакета ниже, чем даже у кодёра из пакета DjVuLibre. | ||
SoloX Tasker v1.0 | 1,22 МБ | Не нужен | Моя разработка | Это простенький автоматизатор моего производства для SoloX beta2 from Gencho - для ПАКЕТНОГО кодирования графических файлов в формат DjVu посредством DjVu Solo v3.1 Comm. Инсталляция не требуется. Исходник прилагается. НЕДОСТАТОК: не используется словарь-djbz для оптимизации. | |
2.2. Только создание DjVu-файлов: | |||||
cjb2.exe | 209 КБ | Не нужен | PlanetDjVu | Программа из пакета DjVuLibre, Разница - она работает под Win без cygwin1.dll. | |
DjvuEncode. exe | 297 КБ | Нужен, есть в пакете строкою ниже | СКР | Преобразование TIFF, PNM (pbm, pgm, или ppm), BMP, или JPEG в DjVu. Сжимает плохо, в 2 раза хуже, чем Solo v3.1. | |
DjVu GUI (на базе DjVuEncode. exe) | 709 КБ | Прилагается | СКР | Пакетное преобразование множества граф. файлов в файлы DjVu. Мне не понравилось. Размер получающихся файлов почти в 2 раза больше по сравнению с DjVu Solo v3.1 | |
PDF-to-DjVu Command Line Encoder v3.6.100 | 6,64 МБ | Кто может, отзеркальте этот файл у себя (а ссылочку пришлите мне, пожалуйста). | Кряк нужен, но его пока не существует. Схема защиты - SentinelLM. No crack is existent. If you can, make a crack and send it please to me. | LizardTech | Консольная программа от LizardTech для прямой конвертации Pdf->DjVu. Базируется на GostScript. |
2.3. Только конвертация DjVu-файлов: | |||||
DjvuDecode. exe | 653 КБ | Не нужен | Книги по химии | ||
3. Прочие программы: | |||||
DjVuBundle. exe | 484 КБ | Не нужен | DjVu Library | Преобразование множества DjVu-файлов в один многостраничный DjVu-файл. | |
Bundle GUI (на базе DjVuBundle. exe) | 652 КБ | Не нужен | СКР | Пакетное преобразование множества DjVu-файлов в один многостраничный DjVu-файл. | |
DjVu Bundling Kit | 240 КБ | Не нужен | Моя разработка | То же самое, что и строкою выше, но моего изготовления. Средство автоматического самосклеивания DjVu-файлов. Позволяет выложить самодельные DjVu-книги на бесплатный хостинг с ограничениями на размер файла. | |
DjVuJoin. exe | 484 КБ | Не нужен | DjVu Library | Создание индексов для многостраничных документов при размещении в Internet. | |
DjVuReIndex. exe | 452 КБ | Не нужен | DjVu Library | Конвертор многостраничных документов формата версии 2.0 в файлы версии 3.0. | |
DjVu IFilter v1.0 (для Win NT / 2000 / XP) | 1,82 МБ | Раньше был здесь. | Не нужен | LizardTech | Плагин для OC Windows. Позволяет искать текст внутри DjVu-файла (если он имеет текстовый слой) стандартным поиском Windows. |
DjVu IFilter v1.1 (для Win NT / 2000 / XP) - ещё одна халява от LizardTech | 1,87 МБ | Не нужен | LizardTech | Самая свежая версия поискового плагина (см. выше). | |
DjVuVersion | 20 КБ | Не нужен | PlanetDjVu | Понижение версии djvu-файлов. | |
FRFGrab v1.04 (Программа не имеет своего сайта, а высылается по запросу к автору на *****@***com) | 645 КБ | Не нужен | Филиал библиотеки Колхоза | Внедрение OCR-информации из FRF-файлов ABBYY FineReader'а vv.5-7 в текстовый слой DjVu-файла. | |
FRFGrab v1.07 (Программа не имеет своего сайта, а высылается по запросу к автору на *****@***com) | 725 КБ | Не нужен | Филиал библиотеки Колхоза | Внедрение OCR-информации из FRF-файлов ABBYY FineReader'а vv.5-7 в текстовый слой DjVu-файла. | |
FRFGrab v1.09 (update) (Программа не имеет своего сайта, а высылается по запросу к автору на *****@***com) | 108 КБ | Не нужен | Филиал библиотеки Колхоза | Внедрение OCR-информации из FRF-файлов ABBYY FineReader'а vv.5-7 в текстовый слой DjVu-файла. | |
FRFGrab v1.09 (Программа не имеет своего сайта, а высылается по запросу к автору на *****@***com) | 1,04 МБ | DJVU_OCR1 | Не нужен | Здесь, | Внедрение OCR-информации из FRF-файлов ABBYY FineReader'а vv.5-7 в текстовый слой DjVu-файла. |
DjvuOCR v2.0 pre | 1,16 МБ | 1 (1,16 МБ) 2 (1,16 МБ) 2 P2m | Не нужен | Здесь | Последняя версия FRFGrab, уже с визуальным интерфейсом, но ещё без документации. Прекрасно работает, рекомендую. Интуитивно ясна. Есть пакетный режим. Внедряет текстовый слой в DjVu-файл всего за несколько мышинных кликов. Есть пакетное преобразование "DjVu->граф. файл" с разными опциями, где граф. файл - это tif, bmp, jpeg, pnm, pgm, pbm, ps, pict. |
DjVu Bookmark Tool v1.0 Инструкция по созданию дерева-содержания этой программой | 321 КБ | Не нужен | WinDjView | Позволяет встраивать в DjVu файлы оглавление в формате, совместимом с DjVu Browser Plugin. | |
Google Desktop Search DjVu Indexer Plugin v1.0 | 427 КБ | Не нужен | WinDjView | Позволяет производить поиск по DjVu-файлам (с распознанным текстом) на жёстком диске через интерфейс Google Desktop Search. Также подерживается предварительный просмотр первой страницы найденного файла. | |
DjVu to XHTML XSL Stylesheets v0.20 | 129 КБ | Не нужен | Rutgers. edu | XSL stylesheets that convert instances of bundled or indirect DjVu documents to XTHML [1.0 transitional]. | |
DjVu ActiveX Control 3.0 for MS Office | 1,52 МБ | Не нужен | PlanetDjVu | DjVu ActiveX Control for Microsoft Office is a Win32 utility that allows the computer user to insert DjVu image files into three Microsoft Windows applications: Microsoft Word, Microsoft Excel, and Microsoft PowerPoint. | |
Набор иконок (файлов *.ico) на тему "DjVu" | 34,8 КБ | Не нужен | Здесь | Я сделал этот набор. В него входят 36 иконок на тему "DjVu". Набор включает 2 основные иконки от броузерных плагинов v4.1 и v4.5, иконки, вытащенные из соответствующих dll - и exe-файлов, а также самодельные иконки. | |
djvused (скомпилирован под Windows) (Выкладываю отдельно для удобства. Взято из пакета DjVuOCR v2.0 pre). | 403 КБ | Не нужен | DjVuLibre | A powerful command line tool for manipulating multi-page documents, editing annotation chunks, | |
DjVu Hyperlinks Editor by Shea v0.63 (апрель 2005) (djvused и readme к программе прилагаются) | 624 КБ | 1 (623 КБ) 2 P2m | Не нужен | Автор: Shea - | Объясняет автор (Shea): "...Небольшая программа на движке djvused (318 КБ) зеркало (403 КБ), позволяющая выравнивать гиперссылки в DjVu-файле, а то в Solo они или кривые, или надо долго париться для их выравнивания. Надеюсь, кому-нибудь поможет. О замеченных недостатках просьба сообщить. |
LizardTech Express Cartridge Manager v1.0.0.7 ECM (это последняя версия) взят из пакета DEE v5.1, а вообще он есть почти в любом крупном пакете на этой странице. | 1,31 МБ | 1 (1,31 МБ) | Нужен, даже ОЧЕНЬ нужен, но его пока не существует. No crack is existent. If you can, make a crack and send it please to me. (This is the most important LizardTech protection software, it MUST be cracked!) | LizardTech | Виртуальный картриджник (ECM) от LizardTech. Подсчитывает создаваемые DjVu-файлы, расходуемые при этом из покупаемого отдельно (или пробного бесплатного на 250 стр.) "виртуального картриджа" (!). Выкладываю ECM для удобства отдельно - специально для тех, кто захочет сделать кряки для ещё невзломанного DjVu-софта. Для других целей он уже НЕ нужен. |
LizardTech Trial Cartridge for 250 pages | 5 КБ | No crack is existent. If you can, make a crack and send it please to me. (This is the most important LizardTech protection software, it MUST be cracked!) |
LizardTech. es | Это пробный картридж на 250 страниц для ECM (строкою выше). Выкладываю его отдельно - специально для тех, кто захочет взломать ECM. Для других целей картридж уже НЕ нужен. Картридж - машиннозависим, т. е. он работает ТОЛЬКО на моём компьютере и на Вашем не будет работать. Поэтому его и надо сломать ;-). | |
DjVu-штампик | 411 КБ | - | Это утилитка на базе djvused для проставления штампика-водяного знака в DjVu-файл для пометки своего эл. "авторства". | ||
4. Локализации (не русские): | |||||
Набор DjVu-программ с украинским интерфейсом | 1,55 МБ | 1 P2m | Вроде не нужен | Сергій Дубик. Персональна сторінка | В этом пакете такие программы: |
5. Конвертация любых файлов (в т. ч. и текстовых) в DjVu-файлы на | |||||
http://any2djvu. djvuzone. org/ | |||||
http://openlib. djvuzone. org/ | |||||
http://bib2web. djvuzone. org/ |
http://scan-elib. *****/djvu/index. htm · Cохраненная копия
|
Создание книг в электронном виде из бумажных книг(Раздел ещё будет дорабатываться) Я не только не возражаю против зеркалирования этой страницы, но даже и призываю это сделать всех желающих. Только, пожалуйста, пришлите мне ссылку на Ваше зеркало. (Эта страница появилась на свет в результате коллективных усилий и потому должна принадлежать всем). Больше всего я хотел бы, чтобы весь софт с этой страницы оказался на отдельном пиратском компакт-диске и поступил бы в продажу во всех городах б. СССР. Нужна помощь: Ищем человека, легально купившего программу JRA Publish v2.000 (см. ниже таблицу) или же спонсора, который может купить её Пробную версию за $165 (~5 000 рублей), и просим его помочь нам со взломом программы. Необходимо считать с физического USB-ключа программный шифрокод и прилать его мне. Никакого риска раскрытия личных данных при этом ТОЧНО нет. Напишите мне, если можете и хотите нам помочь.
Скачивание файлов с сайта Arceny возможно только с российских IP-адресов. Все остальные (СНГ и дальнее зарубежье) могут скачать эти файлы через российские прокси-сервера, что весьма несложно. Огромное спасибо Михаилу Доронину за зеркалирование некоторых программ! Раздача DjVu-софта: Я создал защищенный почтовый ящик (частичное зеркало этой страницы), откуда Вы можете скачать весь основной DjVu-софт. Этот вариант специально для тех, у кого не-российский IP-адрес или для тех, у кого ограничен обычный траффик, но почтовый траффик неограниченный. См. подробности и список софта. На этой странице находится общая информация о создании электронных версий бумажных книг. Здесь рассматриваются с этой точки зрения графические форматы DjVu, PDF, а также приводятся разные варианты создания электронных книг в текстовом виде. Вся информация на странице систематизирована и оформлена по разделам: 1. DJVU - программы и статьи 2. PDF - программы и статьи 3. Прочие программы по теме 4. Создание электронных версий книг в формате DjVu 5. Итоги по DjVu-программам Ссылки на программы - везде прямые, они приведены в систематической таблице для быстрого доступа. Все эти ссылки (на программы и статьи) я собираю в Интернете и выкладываю сюда для того, чтобы сконцентировать в каком-то одном месте распылённый по разным сайтам материал. Я стараюсь во всех случаях (по мере своих физических сил) давать ссылку на автора или источник. В принципе, я могу разместить здесь любой файл по теме (особенно это касается формата DjVu) размером меньше 5 мегабайт. По всем вопросам, включая этот, пишите мне на мой почтовый ящик. Я сам уже перевёл порядка 15 книг из бумажного вида в электронный в самые разные форматы - doc, htm, djvu, и доработал в плане улучшения несколько чужих электронных книг. Все эти книги доступны либо на этом сайте, либо на старом дочернем.
Материалы по инженерной экологии - http://www. engineering-ecology. *****/ Содержит книги по тематике: теплогазоснабжение, отопление, вентиляция, холодоснабжение, кондиционирование, водоснабжение, канализация, пылеулавливание, котельные установки. 11. DJVU - программы и статьи1Статьи о формате DjVu:Сведения о DjVu формате (Зеркало1) (Зеркало2) (© Диканев Тарас, 2003) DjVu Library Математическая библиотека (© Лозовюк Александр, 2001) Формат DjVu (© Алексей Федорчук, 22.08.2004) DJVU - формат для электронных библиотек (Автор неизвестен) Статьи с сервера кубанских радиолюбителей (СКР):
Иродов:
PlanetDjVu:
Проект «OpenDjVu» DjVu: Краткое техническое введение (© Иван Зенков, 2004) Как качественно отсканировать и затем обрабатывать сканы (треп) AlgoList Конвертация DjVu DjVu - формат для электронных библиотек Просмотр темы - DJVu, и другие программы для создания E-books в pdf, chm What is DjVu Новые форматы изображений: требование времени (© Михаил Борисов, 24.02.2001) Горбачев Домашняя Страничка - Djvu Дмитрий Викторович Хмелёв:
История DjVu Yann's DjVu Page DjVu Plug-In Help: Reference - Keyboard Shortcuts FAQ: Как быстро и без проблем перевести книгу в электронный формат djvu. (Роман Ефимов) Курсовая работа на тему «Алгоритмы сжатия данных» (Илья Межиров) (21 КБ) Формат - DOC (RUS) (Вошла в состав DjVuLibre v3.5.14.3) 1Основные проекты:Основной коммерческий DjVu-проект:
Основной бесплатный DjVu-проект: DjVu Zone его дочерние сайты: DjVuLibre (Зеркало1) (Зеркало2) Примечание: Эти бесплатные DjVu-компрессоры (по их словам) работают медленнее, делают файлы большего размера (и иногда хуже качеством), чем коммерческие компрессоры. 1DjVu-программы (только для ОС Windows):
Примечание: Самым лучшим инструментом кодирования в DjVu на сегодняшний день является недавно появившийся пакет Document Express Enterprise Edition 5.1 with Asian OCR (196 МБ). Есть его облегчённая версия: Document Express Enterprise 5.1.0 build 946 (Light Edition) (19 МБ). Есть ещё вариант онлайнового преобразования в DjVu (на Any2djvu. DjVuzone. org) (создаёт DjVu-файлы v21) Впрочем, я вообще-то считаю этот вариант экзотическим и согласен с не помню чьим мнением, что он пригоден лишь для ускорения скачивания Pdf-файлов, выложенных в Интернете (через преобразование их в DjVu). Формат DjVu действительно очень важен, ведь он даёт возможность создать в Интернете БЕСПЛАТНЫЕ электронные библиотеки с ЛЮБЫМИ книгами. Даже с теми, которые не поддаются распознаванию из-за обилия формул, рисунков, графиков и т. п. В Интернете с 2003 года уже есть такие библиотеки, и прочие. Сейчас они переживают период бурного роста. В основном они содержат DjVu-книги, но также ещё и Pdf и Ps-файлы. Там дело идёт уже к десяти тысячам книг. Ещё недавно всё это показалось бы фантастикой. Такие библиотеки открывают огромные информационные возможности и к тому же доступные по деньгам! Они являются бесценной находкой для студентов, аспирантов, учёных и просто интересующихся людей. Это будет покруче пресловутых рефератов. Заметьте, ведь всё это - уже политический вопрос, потому что, во-первых, теперь почти каждый человек (при желании) получает доступ к ОГРОМНОМУ количеству образовательной научной учебно-справочной документации, количество которой в данный момент стремительно растёт, а во-вторых, также почти каждый человек при желании может внести свою посильную лепту в рост бесплатных DjVu-библиотек, так сказать, поучаствовать в политике. DjVu теперь - это политическая технология. Я для того и сделал эту страницу, чтобы способствовать развитию таких бесплатных электронных DjVu-библиотек. Я хочу показать людям, что можно и нужно создавать DjVu-книги и выкладывать их в Интернет. Я буду и дальше прорабатывать всю эту технологию - от сканирования книги до выкладывания её в Интернет - и постараюсь изложить здесь все подробности этого процесса. Я хочу ещё раз обратиться к читающему эти строки: если у Вас есть компьютер со сканером плюс выход в Интернет, сделайте хотя бы одну DjVu-книгу (только нужно проверить, не сделана ли она уже) и выложите её бесплатно в Интернет. Это делается легко, просто и быстро. Всю информацию об этом Вы найдёте на этой странице. Даже если у Вас нет Интернета - всё равно сделайте DjVu-книгу и отложите её до лучших времён, когда у Вас появится возможность выложить её в Интернет. Ведь самое сложное в этом деле - отсканировать книгу, но и это, в общем-то, не так трудно сделать. Любую, даже самую толстую бумажную книгу, можно отсканировать за 3-5 вечеров. Если Вы - студент, то возьмите бумажную книгу в институтской библиотеке и переведите её в DjVu. Вам же самому потом понадобится эта DjVu-книга - ведь институт-то Вы закончите и бумажную книгу вынужденно сдадите в библиотеку. А какой будет смысл в дипломе, если нет нигде никакой литературы по специальности, кроме как в библиотеке учебного заведения? На мой взгляд, главный секрет в деле создания сканированной DjVu-книги - это ПОЭТАПНАЯ работа. Отсканировали книгу - отдыхаем пару дней, отредактировали - опять отдыхаем, и т. д. При поэтапной работе нет большого перенапряжения, книга создаётся постепенно, нагрузка на себя получается малозаметной. Тут можно привести аналогию с покупкой дорогой вещи - можно её сразу купить, а можно и в кредит. Что меньше напрягает? Я уже сделал более десяти таких книг, и по опыту их создания могу сказать, что основная трудность в этом деле - чисто психологическая. Поначалу, глядя на бумажную книгу, подлежащую сканированию, думаешь, что всё это огромная работа, что сделать её нереально, и т. п. Но теперь я могу сказать, что здесь на самом деле работает принцип "Глаза боятся - руки делают". К тому же, выложив сделанную собою DjVu-книгу в Интернет, испытываешь ни с чем не сравнимое чувство удовлетворения. 12. PDF - программы и статьиЭтот раздел ещё полуготов, потому что основное внимание - к DjVu.
Примечание: Конвертировать Pdf-файл в формат Doc или в другой текстовый формат возможно только при наличии текстового слоя в Pdf-файле (на этом принципе и работают все программы-конверторы Pdf). Если же в Pdf-файле нет текстового слоя, тогда создать текстовый файл из него можно лишь путём распознавания его в ABBYY FineReader'е или в другой OCR-программе. Отдельный вопрос - редактирование PDF-файлов. Вся проблема здесь упирается в специальные русские шрифты, из-за отсутствия которых нельзя отредактировать PDF. Самое лучшее средство для редактирования PDF-файлов - плагин к Adobe Acrobat'у - Enfocus PitStop Professional v6.1. Программы для создания pdf-файлов и работы с ними Создание Pdf от Adobe:
Использование PDF-формата для создания и распространение своих документов в Сети (© , 22.08.2004) http://www. / Всё о Pdf 13. Прочие программы для создания электронных сканированных книг
Создание книг в электронном виде из бумажных книгВ этой небольшой статье я сделал обзор известных мне способов создания электронных версий бумажных книг. 1Описание формата DjVuDJVU - это круто! Это просто революция в деле создания электронных книг. Формат DJVU - это как бы "новый PDF", только раз в десять более ёмкий при почти том же качестве. Причём, лично я бы сказал, что качество для прочтения вроде бы даже лучше, ведь PDF-файл не больно-то почитаешь, он всё же довольно размытый, глаза устают, а вот DJVU-файл читается довольно бодро. Формат DJVU, как никакой другой графический формат, позволяет очень сильно сжимать сканы почти без потери качества. Такой своеобразный MP3 в графике. Теперь для создания электронной версии книги достаточно просто отсканировать её и закодировать сканы в формат DJVU. Долой мучения с распознаванием сканов! Отныне почти любую бумажную книгу можно превратить в электронную всего за пару дней! И, что принципиально важно, размеры получающихся DJVU-файлов достаточно малы, чтобы такими файлами можно было обмениваться даже через Интернет. При этом не теряется возможность впоследствии распознать такую электронную книгу - формат DJVU экспортируется в BMP. (Я уже три раза писал FineReader'щикам с просьбой включить в будующую версию их программы прямую поддержку формата *.djvu, включая поддержку в духе DjVuOCR 2.0 pre). На сегодняшний день применение формата DJVU - это наиболее приемлемый способ "электронизации" ТЕХНИЧЕСКОЙ бумажной литературы и документации - т. е. такой, которая содержит большое количество нераспознаваемой информации - формул, графиков, рисунков, схем и т. п. Для создания DJVU-файлов применяется программа Document Express Enterprise Edition 5.1 with Asian OCR (196 МБ) (или DEE 5.1 LE на 19 МБ). Программа Djvu Solo v3.1 безнадёжно устарела, хотя может быть использована для предварительного знакомства с форматом DJVU. Броузер с проинсталлированным броузерным DJVU-плагином может показывать обычный htm-контент, перемежающийся на той же странице с DJVU-графикой. Единственная тонкость тут в том, что для DJVU-картинок на htm-странице применяется не обычный тег <IMG>, а либо тег <EMBED>, либо тег <OBJECT>. Подробности смотрите в Help'е к плагину. Правда, здесь не всё гладко. Такие страницы во-первых грузятся долго (из-за распаковки DJVU-картинок), что часто приводит к зависанию броузера, во-вторых, может вообще вся система повиснуть, что говорит о плохой реализации броузерного DJVU-плагина (Впрочем, возможно, стоит попробовать его самую последнюю версию: а вдруг она лучше). Такая возможность (обычный htm-контент, перемежающийся на той же странице с DJVU-графикой, за вычетом вышеуказанных недостатков) открывает поистинне безграничные перспективы для создания электронных книг, потому что все, кто когда-нибудь делал электронную версию бумажной книги, знают, что главная трудность в этом деле - это каким-то образом сделать электронную версию картинок и рисунков из бумажной книги. По этой причине основная масса созданных электронных книг - это художественная литература, где есть только ровный текст без рисунков, чертежей, таблиц и формул, технических же книг в электронном виде гораздо меньше. Самый лучший вариант по рисункам (но при этом и самый трудный) - это нарисовать самому похожие рисунки-схемы при помощи CorelDRAW 12, оставив картинки-изображения как есть. Но это очень тяжёлый, трудоёмкий и временеёмкий путь, приемлемый только для уважаемых, уникальных и системообразующих книг, и даже он не всегда подходит из-за обилия и сложности рисунков. Можно, конечно, прямо так и вставить отсканированные рисунки в электронную книгу в обычном формате JPG или GIF, но тогда размер книги будет под 10 мегабайт или даже больше, а электронными книгами такого размера очень дорого обмениваться через Интернет. Есть ещё один вариант, подходящий для рисунков-схем: своего рода "распознавание чертежей" (сам я его не пробовал). Есть такая программа - RasterDesign. Она работает с AutoCAD'ом. Это программа, которая векторизует растровые чертежи в формат AutoCAD'а. Не знаю, что это есть такое и насколько это реально. Если кому-то интересно, то RasterDesign сейчас продаётся и его можно без проблем найти на рынке компакт-дисков. Броузерная DJVU-технология даёт компромиссный выход - создавать электронные книги в формате HTM, и вставлять в эти электронные книги отсканированные из бумажной книги рисунки в формате DJVU. Такие электронные книги будут иметь приемлемый размер и качество, и делать их будет наиболее легко, просто и быстро. Такими электронными книгами можно будет обмениваться через Интернет. Я написал ещё одну статью - "Создание электронных версий книг в формате DjVu", в которой я подробно описал свою технологию создания электронных DjVu-книг, выложенных на моём на дочернем сайте. Описание работы с форматом Pdf я добавлю позже. Автор: monday2000 Декабрь 2004. Мой E-Mail (monday2000 [at] *****) |
Book Restorer - это прога для обработки сканированных изображений, в первую очередь текстов, для улучшения их качества. Наиболее ценные возможности:
Выравнивание страниц и строк
Выравнивание освещенности страниц
Разрезание разворотов и выделение страниц, обрезка полей
Автоматический и пакетный режимы обработки
Скрипты
и др.
Официальный сайт: _http://www. /en/products_software. asp? niveau=1&origine=L& amp;subject=produit&id=1&ref=Book+Restorer
http://www.
Запрос на скачивание программы - mailto:*****@***net? Subject=restorerofbooks
Методика от Романа Ефимова - Предобработка изображений перед кодированием в djvu -
2. ПРЕДОБОРАБОТКА
Для предобработки сканов перед сжатием в djvu рекомендуется использовать специализированную программу "Реставратор книг", ссылку можно найти через groups. по слову restorerofbooks
запустив book restorer, создайте новую книгу, импортируйте сканированные страницы.
примерный сценарий обработки книги (на примере одной страницы):
- выровняйте освещенность страницы по площади (меню lighting correction в tools)
- устраните наклон (меню deskew)
- сделайте обрезку (меню crop), тут можно обширно поиграться параметрами.
- сделайте фильтрацию (обработку) текста (меню filter), если хотите.
- устраните кривизну строк через меню Geometrical Correction, тут можно обширно поиграться параметрами.
- сделайте бинаризацию (конвертацию из серого в черно/белый), поигравшись с настройками в инструменте binarization, и пользуясь предпросмотром.
- устраните точечный мусор (меню despekle)
- в принципе, все.
Примечание. Некоторые инструменты не работают на черно-белых изображениях, поэтому бинаризацию делайте на последнем этапе, перед despekle. Если вдруг у вас исходные сканы оказались в черно-белом варианте, то перевести их в grayscale через меню Сolor Conversion.
Как только на примере нескольких страниц вы найдете оптимальный результат, запишите скрипт с выбранными вами операциями, и дайте ему имя. Сохраните книгу.
Через пункт меню Automation вызовите утилиту BKR Automate, укажите имя книги, созданный вами скрипт, диапазон страниц, и время начала выполнения (сразу или по расписанию).
Отработав, BKR Automate скажет "Completed" (или "Error", но не пугайтесь).
Заново открыв книгу в Ресторере, проконтролируйте качество обработки. Неудавшиеся страницы "откатите" в исходное состояние (есть спец. кнопка в окошке инструментов) и обработайте вручную. Сохраните книгу. Выведите (экспортируйте) обработанные страницы через меню Publish в многостраничный файл TIFF G4, режим binary, разрешение не меняйте!
Этап предобработки закончен.
давайте поговорим о методике кромсания, нет лучше реставрирования книг (кромсание - это когда пользуются "кромсатором" )
я сканирую Vuescan'oм в 400 дпи, в тонах серого, 8 бит, полностью разворот, при этом зона сканирования выбирается так, чтобы оставить только текст и поля страниц.
файл вывожу не как тифф, а как raw (при этом как ни странно, это тот же тифф такого же размера), при этом сканер после возврата каретки готов к следующему проходу. Переворачиваю страницу, жму кнопку на морде сканера. Далее цикл повторяется.
Изредка смотрю в окно вуескана, контролируя, чтобы поля оставались чистыми.
После завершения сканирования создаю в реставраторе книгу, импортирую сканы.
Для себя я выработал такой алгоритм реставрирования, пишу потом на ее основе скрипт:
1. Transformation на 90 гр. вправо (так как сканировал без поворота).
2. Deskew по всему тексту (on whole text)
3. Lighting correction (c sensivity = 5 по дефолту, как правило, но большие площади черного иногда идут белыми пятнами, смотрите по месту)
5. Crop-> Automatic -> Advanced -> One page для того, чтобы ровно обрезать поля слева и справа (верх и низ я вообще не обрабатываю, выставив поля в 777 мм).
Margins search -> Inner
Security margins (mm)
Top : 777 Left : 5
Bottom : 777 Right : 5
Sensitivity ( % )
Horizontal : 80
Vertical : 80
6. Crop-> Automatic -> Advanced -> Two pages для того, чтобы ровно разрезать разворот по страницам (верх и низ я опять же не обрабатываю).
Margins search -> Inner
Page borders detection -> on
Security margins (mm)
Top : 777 Left : 5
Bottom : 777 Right : 5
Sensitivity ( % )
Horizontal : 80
Vertical : 80
В большинстве случаев страницы определяются корректно и вырезаются из разворота ровно.
7. Далее Deskew по всему тексту (on whole text)
8. Далее перевод в черно-белое, играясь ползунками Details и Filtering и пользуясь Preview. Находится такое положение, когда еще не высыпается мусор, но текст уверенно виден (индексы формул, мелкие детали текста, нормальная толщина букв)
9. Далее удаление мелкого мусора, Despekle (5x5 обычно, больше не надо)
10 Далее снова перевод в серое, Color Conversion -> Gray level, для того, чтобы снова было можно как можно ровнее обрезать поля слева и справа, после того, как мусор удален.
11 Crop-> Simple для того, чтобы ровно обрезать поля слева и справа после удаления мусора (верх и низ я опять не обрабатываю).
Security margins (mm)
Top : 777 Left : 5
Bottom : 777 Right : 5
Sensitivity ( % )
Horizontal : 95
Vertical : 95
Прошу заметить - простая обрезка (Simple, не advanced)
12. Далее снова перевод в черно-белое, с теми же параметрами, что и в п.8
13. Последний этап - Geometrical Correction, c дефолтными параметрами (как ни странно, это практически оптимальный вариант)
После того, как вышеуказанный скрипт по пп. 1-13 опробован на типичных страницах, эти страницы "откатываются" в исходное состояние, книга сохраняется и вызывается BKR Automate, в котором указывается имя книги и скрипт, и запускается процесс пакетной обработки.
Через некоторое время программа завершит процесс, сказав Completed или Error.
Нажатием кнопки вызова реставратора в меню BKR Automate, запускаем реставратор.
Неудавшиеся страницы откатываются в исходное состояние, и реставрируются вручную отдельными инструментами или другим скриптом, который более "заточен" под нетипичные страницы. "Резинкой" подчищаются грязные места.
Потом надо привести страницы книги к единому пиксельному размеру и выставить фиксированные поля. Для этого в Styles -> Standart Page -> Properties -> Size -> Custom выставляется желаемая высота и ширина страницы.
Все, книга сохраняется, через меню Book -> Publish страницы экспортируются в многостраничный G4-compressed TIFF, Color range - > Binary
Этот файл потом легко импортируется в DjVU Editor пятой версии и кодируется в djvu
Внимание! Если вы используете именно Djvu Solo 3.1, то не экспортируйте книгу в многостраничный тифф! Уберите галку с этой опции, иначе Solo не увидит половину страниц.
Примечание. Полутоновые иллюстрации лучше всего перевести в черно-белый растр в отдельной программе, например, в Photoshop или XnView, и наложить на свое оригинальное место на своих страницах в реставраторе, уже после обработки книги. Через правокнопочное меню мышки add block, на нужной странице, вставьте блок (растрированную картинку). Выделив блок, щелкните правой клавишей мышки, в properties блока выставьте его стиль в none, и укажите его точное положение, ширину и высоту относительно левого верхнего угла страницы, чтобы он собой "лег" именно на то место, где и должен находится).
Roman Efimov5020/758 27 Mar 05 17:20:00
РЕКОМЕHДАЦИИ ПО ПЕРЕВОДУ КHИГ ИЗ БУМАГИ В DJVU-документ.
Данная методика использует специализированные программы и расчитана на начинающих оцифровщиков книг.
Следует выделить три этапа:
1. Сканирование
2. Предобработка
3. Кодирование (сжатие) в djvu
1. СКАHИРОВАHИЕ
- В качестве программы сканирования для начинающих оцифровщиков рекомендуется ABBYY Finereader, триальную версию программы можно скачать с www. . Триальная версия программы не умеет сохранять распознанное, но это вам и не нужно, так как вам нужны только функции сканирования.
- разберитесь с настройками сканирования в Finereader. Сканируйте с разрезанием страниц (при необходимости), в режиме серого (обязательно (!), иначе вам придется бороться с наплывающими на
текст черными полосами и съевшимися вблизи переплета буквами), c разрешение 300 дпи. Предварительно, путем пробных сканов, установите (подгоните точно) отступы и размеры сканируемой области такими, чтобы поля были чистыми (не было видно краев страниц, этим вы сэкономите время при постобработке).
Примечание. Если не жалко времени, сканируйте все в 600 дпи, потомки вам будут благодарны, так как при 600 дпи не возникает никаких искажений при обработке и сжатии текста (все нюансы этого утвержденния будут поняты позже, по приобретению опыта).
- отканировав все страницы, проверьте, чтобы номера файлов страниц совпадалис их реальными номерами (этим вы проконтролируете пропущенные или лишние страницы). Сохраните их в формате bmp, несжатый tiff (по клавише F12) в отдельный каталог.
2. ПРЕДОБОРАБОТКА
- Для предобработки сканов перед сжатием в djvu рекомендуется использовать специализированную программу "Реставратор книг", ссылку можно найти через groups. по слову restorerofbooks
- запустив book restorer, создайте новую книгу, импортируйте сканированные страницы.
- примерный сценарий обработки книги (на примере одной страницы):
- выровняйте освещенность страницы по площади (меню lighting correction в tools), при на второй закладке измените значение 5 на значение 40. Этот этап очень важен.
- устраните наклон (меню deskew)
- сделайте обрезку (меню crop), тут можно обширно поиграться параметрами.
- сделайте фильтрацию (обработку) текста (меню filter), если хотите.
- устраните кривизну строк через меню Geometrical Correction, тут можно обширно поиграться параметрами.
- сделайте бинаризацию (конвертацию из серого в черно/белый), поигравшись с настройками в инструменте binarization, и пользуясь предпросмотром.
- устраните точечный мусор (меню despekle)
- в принципе, все. Hо вы можете использовать другие инструменты, которые сочтете необходимыми.
Примечание. Hекоторые инструменты не работают на черно-белых изображениях, поэтому бинаризацию делайте на последнем этапе, перед despekle. Если вдруг у вас исходные сканы оказались в черно-белом варианте, то перевести их в grayscale через меню Сolor Conversion.
Как только на примере нескольких страниц вы найдете оптимальный результат, запишите скрипт с выбранными вами операциями, и дайте ему имя. "Откатите" обработанные вами страницы в исходное
(необработанное) состояние (для этого есть спец. кнопка в окошке инструментов). Сохраните книгу.
Через пункт меню Automation вызовите утилиту BKR Automate, укажите имя книги, созданный вами скрипт, диапазон страниц, и время начала выполнения (сразу или по расписанию). Отработав, BKR Automate скажет "Completed" (или "Error", но не пугайтесь).
Заново открыв книгу в Ресторере, проконтролируйте качество обработки. Hеудавшиеся страницы "откатите" в исходное состояние (есть спец. кнопка в окошке инструментов) и обработайте вручную. В свойствах Styles -> Standart Page установите поля для всех страниц книги.
Сохраните книгу. Выведите (экспортируйте) обработанные страницы через меню Publish в многостраничный файл TIFF G4, режим binary, разрешение не меняйте!
Этап предобработки закончен.
3. КОДИРОВАHИЕ (СЖАТИЕ) В DJVU.
- Теперь вам осталось закодировать страницы книги в djvu-файл.
Пользуйтесь djvu-редактором от Lizardtech, таким как фриварная DjVu Solo 3.1, или DJVU Document Express какой-либо версии. (DjvuSolo3.1можноскачать по URL, найденным через www. ***** по ключевому слову "DjvuSolo")
- Откройте в DjVu-редакторе файл TIFF G4, экспортированный из book restorer.
- Cохраните его как DJVU, указав режим bitonal, разрешение (то значение, с каким вы сканировали книгу!), bundled (все страницы в одном файле).
Hаши поздравления, книга готова.
Теперь поделитесь книгой с другими, закачав куда-нибудь на ***** и кинув ссылку, например, в *****. ocr
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 |


