Следующим этапом я вручную редактирую в Adobe PhotoShop v5.0 будующие страницы книги - тут Ваша фантазия не ограничена. Я убираю мусор в основном и т. п.

Есть ещё несколько программ предназначенных именно для редактирования сканов бумажных книг (СканКромсатор, SilverFast, RasterID и пр.). Я их здесь не рассматриваю, просто ещё не успел с ними разобраться. Говорят, СканКромсатор - хорошая программа.

13. Кодирование:

Это последний этап создания книги. Я кодирую tif'ы в DjVu при помощи программы DjVu Solo v3.1  - вручную каждый файл с установками по умолчанию (только разрешение ставлю - 400 dpi, а режим оставляю - scanned). Пробовал я и другие способы сжатия - например, пакет DjVuLibre v3.5.13 (скомпилированный под Windows) и DJVU_GUI (я подозреваю, что это то же самое, что и DjVuLibre). Эти 2 способа выдавали DjVu-файлы раза в два больше, чем DjVu Solo v3.1. Пробовал я и режим "bitonal" в DjVu Solo v3.1 - опять DjVu-файлы получались заметно больше, чем в режиме "scanned". Процесс кодирования в DjVu прост - открываем каждый Tif-файл в DjVu Solo v3.1 и в пункте меню "File" выбираем строку "Encode as DjVu". В открывшемся окне устанавливаем режим кодирования (оставляем "Scanned") и разрешение будущего DjVu-файла (обычно "300", я всегда ставлю "400", по умолчанию - такое же, как и в кодируемом Tif-файле).

Совсем недавно появилась новая отличная программа для кодирования - Document Express Enterprise Edition 5.1 with Asian OCR (196 МБ). Есть её облегчённая версия: Document Express Enterprise 5.1.0 build 946 (Light Edition) (19 МБ). Очень рекомендую к использованию.

НЕ нашли? Не то? Что вы ищете?

14. Распознавание (необязательный):

После того, как DjVu-книга готова, можно добавить к ней текстовый слой, как в Pdf-файле - это одна из возможностей формата DjVu. Я бы отметил, что формат DjVu даже немного лучше в этом отношении, чем формат Pdf: нет таких дичайших проблем с русскими шрифтами.

На сегодняшний день существует по крайней мере 2 программные возможности по добавлению текстового слоя в DjVu-файл, причём в обоих случаях можно добавить текстовый слой на почти любом распространённом языке - английском, русском, украинском, немецком, французском, и т. д.

Первая возможность - это использование связки FRFGrab 1.09 или выше + ABBYY FineReader v7.0. Причём для этой цели достаточно иметь даже бесплатную пробную версию FineReader'а, скаченную из Интернета! То есть даже кряк применять не потребуется! Программа FRFGrab 1.09 написана болгарским программистом Генчо. Её последняя версия называется DjvuOCR 2.0 pre. Ссылки на обе версии (1.09 и 2.0 pre есть здесь, на этом сайте). Эта программа перерабатывает FineReader'овские frf-файлы с распознанной информацией и внедряет информацию из них в соответствующие одностраничные DjVu-файлы.

Текст из такого внедрённого текстового слоя можно скопировать в буфер обмена и вставить в текстовый файл, а также он становится "виден" стандартному Windows-поиску (по опции "Искать текст") с проинсталлированной бесплатной LizardTech'овской утилитой DjVu IFilter v1.1 (она есть здесь, на этом сайте) - т. е. можно искать в Windows нужный DjVu-файл уже не по имени, а по нужному ключевому слову внутри него.

Рассмотрим технологию внедрения текстового слоя в DjVu-файл при помощи программы Генчо. Я рекомендую использовать программу DjvuOCR 2.0 pre, а не FRFGrab 1.09, потому что она имеет визуальный интерфейс, тогда как FRFGrab 1.09 - консольная.

Сначала нужно распознать tif-файлы книги в FineReader'е, для того, чтобы получить frf-файлы с распознанной информацией. Я могу посоветовать распознавать tif-файлы в фоновом режиме (так быстрее) - выбираем в меню FineReader'а пункт "Процесс -> Запустить фоновое распознавание". Язык распознавания для большинства случаев можно оставить по-умолчанию - русско-английский. Хотя иногда бывает полезным задать несколько языков распознавания одновременно - для этого нужно в выпадающем списке языков выбрать второе значение - "Выбор из полного списка языков...". Добавлять имеет смысл (при необходимости) греческий язык (для формул), языки Basic, С/С++, Pascal, Java, Fortran, COBOL  (да, FineReader и такое может!), языки "простые химические формулы", "Английский (Медицинский словарь)", "Английский (Юридический словарь)", "Немецкий (Медицинский словарь)", "Немецкий (Юридический словарь)", "Цифры", бывает, встречаются в книгах немецкий или украинский языки.

Программа DjvuOCR 2.0 pre позволяет осуществить распознавание даже при отсутствии tif-файлов - она может переконвертировать имеющийся многостраничный DjVu-файл в набор tif-файлов для распознавания. Перед распознаванием нужно в FineReader'овском проекте Сервис -> Опции -> Сканирование/Открытие сбросить галочку в пункте "Определять ориентацию страницы (при распознавании)". Это нужно сделать для того, чтобы FineReader не поворачивал на 90 градусов те страницы книги, где текст напечатан с разворотом в 90 градусов (т. е. страницы с альбомной, а не портретной ориентацией).

После распознавания создаём где-нибудь (на диске С:\ удобно) 3 папки - первую для frf-файлов (назовём её "frf"), вторую - для DjVu-файлов (назовём её "djvu") и третью - (назовём её "txt") для txt-файлов с распознанной информацией. Копируем в папку "frf" FineReader'овские frf-файлы с распознанной информацией, а в папку "djvu" - одностраничные DjVu-файлы, полученные от DjVu Solo v3.1, в которые будем внедрять текстовый слой. Папку "txt" оставляем пустой - эту папку наполнит сама программа.

Далее запускаем программу DjvuOCR 2.0 pre. Выбираем режим "Batch mode OCR manager" (он стоит по умолчанию) и нажимаем кнопку "Next". Заполняем поле "FineReader Project Directory" - нажимаем на кнопку "Browse" и выбираем нашу папку "frf". Точно также заполняем и поле "Output OCR text Directory", только там прописываем путь к нашей папке "txt". Далее заполняем список "DjVu File list" - нажимаем на кнопку "Add" и добавляем наши одностраничные DjVu-файлы. Эта процедура может занять минуту-полторы, нужно подождать. Затем проверяем наличие галочки в пункте "Burn DJVU books" и наличие единицы в поле "Start page # in FineReader Project", выставляя эти значения при их отсутствии. Ставим "1" в поле "Last page # in". Нажимаем на кнопку "Process" и ждём, пока обработаются все наши одностраничные DjVu-файлы.

Теперь всё готово. Текстовый слой внедрён в наши одностраничные DjVu-файлы. Далее с ними можно делать всё то же самое, что и с простыми одностраничными DjVu-файлами - преобразовывать в BMP или сливать в многостраничные DjVu-файлы.

Достоинства такого способа внедрения текстового слоя - относительная простота, поддержка 176 языков (из-за FineReader'а), бесплатность всех используемых программ. Недостатки - невозможность прямого распознавания DjVu-файла без промежуточного преобразования в Tif и невозможность убрать текстовый слой из DjVu-файла.

Этих недостатков лишён второй способ внедрения текстового слоя в DjVu-файл - через использование программы Document Express Editor 5.0 от LizardTech (она есть здесь, на этом сайте). Эта программа появилась недавно, и поэтому этот способ внедрения текстового слоя - самый новый пока. Он удобен тем, что Вы просто открываете в этой программе DjVu-файл и тут же распознаёте его без лишних хлопот. Кстати, этой программой можете даже и убрать внедрённый текстовый слой из DjVu-файла. Недостатки этого способа - эта программа является коммерческой пробной версией, и кряка к ней пока нет. Будем надеяться, появится позже. Выломал же кто-то четвёртую версию Editor'а, почему бы ему не выломать теперь и эту (пятую)? Я бы и сам выломал, да вот, не умею (пока). Кстати, спасибо польским коллегам за возможность скачать эту программу. Второй недостаток программы - большой размер скачиваемого дистрибутива - 54 МБ, и третий недостаток - меньшее количество языков распознавания (45 против 176 у FineReader'а). Для распознавания используется OCR-движок от Image Recognition Integrated Systems SA, © 2004 (IRIS S. A.).

После завершения кодирования tif-файлов получаются готовые одностраничные DjVu-файлы по принципу "один файл-одна страница книги". Эти файлы потом и выкладываются на бесплатный хостинг www. *****. Причём нужно выкладывать на хостинг именно группы одностраничных DjVu-файлов размером менее 5 мегабайт (таковы условия Яндекс. Народа). Я написал простенькую и одновременно маленькую консольную программу "DjVu Bundling Kit" (240 КБ), которая даёт возможность конечному пользователю применить автосклейку скаченных одностраничных DjVu-файлов в один желаемый многостраничный DjVu-файл всего лишь за ОДИН мышинный клик! Только нужно эту программу приложить к каждой выкладываемой онлайн книге, что при больших размерах этих книг является совершенно несущественным недостатком. Эта хитрость нужна для того, чтобы обойти ограничения бесплатного хостинга www. ***** "Файлы не могут превышать по размеру 5 МБ. При этом многотомный архив считается одним файлом". Это ограничение Яндекс. Народа - политическое, а не техническое, оно направлено на недопущение превращения этого бесплатного хостинга в файловый архив. Есть, конечно, и другие бесплатные хостинги, где, возможно, не потребуется так извращаться. Просто бесплатный хостинг www. ***** - самый известный и популярный. Мне пока не удалось найти что-то более подходящее. Мне некоторые люди, правда, жаловались, что с www. ***** очень плохая скорость скачивания и проблемы с коннектом. Но я, со своей стороны, могу сказать, что бесплатный хостинг www. ***** - самый дружественный к пользователю, самый удобный и интуитивно ясный, рассчитанный на полного "чайника", никогда не прекращающий регистрацию новых пользовательских сайтов. Если бы www. ***** не существовало бы, то, наверное, пол-Рунета не было бы вовсе.

Если Вы вообще не имеете никакого представления о том, как создавать сайт (страницы сайта), то тогда Вам нужно овладеть основами языка разметки HTML - то есть того самого языка, при помощи которого сделаны все Интернет-страницы. Я могу посоветовать толковый курс по HTML для самых начинающих. На начальном уровне (достаточном для создания простого сайта) HTML прост, как пареная репа. Я, к примеру, создаю страницы для своего сайта так: открываю броузер MS Internet Explorer (без подключения к Интернету) и получаю страницу с адресом about:blank. Затем сохраняю её с желаемым именем и потом редактирую в HTML-редакторе MS FrontPage 98. Это самый популярный HTML-редактор, он входит в состав полного дистрибутива MS Office. Есть и версии поновее - MS FrontPage 2000 и, кажется, 2002.

14. Подписывание (необязательный):

Сделав DjVu-книгу, её можно "подписать" - т. е. добавить информацию о себе - создателе книги и т. п. Это можно сделать путём добавления аннотации - в виде гиперссылки или просто стикера. Всё это можно оформить разными цветами, тенью, выпуклостью и пр. Получается довольно красиво. Лучше сделать этот "штамп" блёклым - так он меньше глаз царапает. В четвёртой версии Editor'а появилась было возможность добавления расширенных аннотаций, которые можно было даже запаролить. В пятой версии от них отказались и вернулись к обычным аннотациям, таким, как в DjVu Solo v3.1.

1Заключение

Подводя итоги, я могу сказать, что создавать DjVu-книги - относительно легко и просто, и это может делать любой владелец сканера. К тому же так можно создавать электронные версии не только книг, а и рисунков, схем, таблиц, карт и т. п. Многие прогрессивные люди так и поступают. Сходите, например, на Библиотеку научной литературы - там таких DjVu-книг полно, почти десять тысяч, и ясно, что формат DjVu сегодня - это практически единственный способ получить нужную техническую информацию. Не будете же Вы покупать все эти книги, да даже если и представить, что накупили бы, то где хранить эту гору книг? Так что, не жадничайте, граждане, делитесь с народом (бесплатно!) своими книгами в виде DjVu-сканов, все мы от этого в конечном итоге лишь выиграем.

Иванов Виктор.

Мой E-Mail

27 декабря 2004 года.

P. S. После создания DjVu-книги Вам нужно tif-сканы (а это будет где-то 300-400 мегабайт вместо прежних 1,5-2 гигабайт - да, всё из-за этих лишних полей) ещё раз прогнать через ABBYY FineReader v7.0 - т. е. создать новый проект и, открыв в него будующие страницы книги, сохранить проект и скопировать сохранённые tif'ы в свою папку. У Вас получится набор tif'ов в 30-40 мегабайт! Просто ABBYY FineReader v7.0 файлы, сохранённые в Adobe PhotoShop v5.0, сжимает в разновидность tif - tif  CCITT Group 4(или Fax 4, это то же самое), что и даёт такое уменьшение размера.

Сохраните эти tif'ы, они Вам ещё пригодятся.

P. S. Эта статья ещё будет дорабатываться в самое ближайшее время. Я рассмотрю подробнее процесс выкладывания готовой DjVu-книги в Интернет с обзором бесплатных хостингов и способов закачки. Ну и прочее...

VF


Administrator

При конвертировании я использую последовательностью Acrobat -> TIFF -> DjVu. Советую при сохранении в TIFF отключить компрессию (чтобы меньше загружать процессор), поставить монохромный режим (если конечно книга не цветная) и разрешение на 300 dpi. Некоторые книги в PDF защищены от изменения, поэтому просто так сохранить их в TIFF не удасться. Для этого нужно использовать программу Advanced PDF Password Recovery небезызвестной Elcomsoft . Незарегистрированная версия сохраняет лишь 10% страниц, так что поищите для нее ключ. Скрыть 36 байт информации (именно такова его длинна) в Интернет сложно . Но если вы его не найдете - напишите мне, я поделюсь.

Затем в DjVu Solo (2,1 Мб) открываете сначало первый TIFF, потом счелкаете на нем и выбераете "Insert Page(s) After...", добавляя все оставшиеся страницы, кроме первой. Если страниц более 500, то эту процедуру нужно выполнить несколько раз. Учтите, что страницы добавляются достаточно медленно и может возникнуть впечатление, что программа зависла, но это не так. Когда все страницы добавятся, выбераете сохранения. Чтобы получить книгу из одного файла - режим Bundled. Задаете имя файла, выбирате разрешение (я всегда оставлял 300) и решим - Scanned (если есть цветные рисунки или полутона) или Bitonal (если используется только 2 цвета, как в большинстве сканов книг).

Существует и другой способ, хорошо подходящий для файлов, уже размещенных в Интернет. Для конвертирования можно использовать сервер Any2DjVu, но он не может обработать некоторые PDF, которые хорошо читаются Акробатом, а иногда просто не конвертирует без всяких сообщений.

Lizardtech выпускает конвекторы для командной строки, с помощью которых можно сконвертировать PDF в DjVu без промежуточных действий, но стоят они около 5000 $. Но если увидете их в "свободном доступе", пожалуйста, сообщите мне

Всего сообщений: 829 | Присоединился: май 2002 | Отправлено: 12 мая 2003 18:11 | IP

VF


Administrator

Если книга состоит из нескольких PDF-файлов (предельный случай: одна страница - один файл), их предварительно нужно собрать вместе. Если имена файлов цифровые и в начало некоторых их них нужно добавить нули (7.pdf -> 007.pdf), то воспользуйтесь утилитой fzero. Объединять PDF-файлы можно полной версией Adobe Acrobat (открыть первый из них, а затем "перетащить" на него остальные файлы), но гораздо быстрее это делает pdcat.

При необходимости в Acrobat можно удалить лишние страницы (Document -> Delete Pages...) и/или повернуть страницы (Document -> Rotate Pages...).

Преобразование с помощью any2djvu может занять много времени (рекорд для некоторых моих файлов составил 4 часа, но в основном они конвертируются значительно быстрее), поэтому можно поступить так: дождаться загрузки файла на сервер, записать номер, который был ему автоматически присвоен, и не дожидаясь результатов конвертирования начать закачивать другой файл. Когда все файлы закачены, можно идти в каталог http://any2djvu. djvuzone. org/djvu/NNNNNN (где NNNNNN - первые 6 цифр в номере, присвоенном файлу) и забирать полученные документы djvu. Учтите, что преобразование занимает некоторое время и файлы в этом каталоге появятся не сразу. Если каких-то файлов нет, то стоит проверить их наличие через несколько часов.

Есть другой вариант - воспользоваться скриптом (автор - castleofmusic), автоматизирующим процесс закачивания, преобразования и скачивание полученных файлов. Если во время конвертирования  у Вас, как и у меня, из-за таймаута часто останавливается обновление страницы, то скрипт будет работать не эффективно, т. к. не сможет получить итоговый результат. Поэтому, более предпочтительным будет предыдущий способ.

Всего сообщений: 829 | Присоединился: май 2002 | Отправлено: 5 окт. 2003 15:34 | IP

castleofmusic



Каталогизатор

по поводу моего скрипта. Там стоит таймаут 10 часов. Я уже напоролся на это. Сервер any2djvu бывает загружен файлами и иногда конвертирует книги медленно. Дополнительная информация о процессе перевода в дежавю в моём файле (castleofmusic. *****/short_log. txt)

Всего сообщений: 271 | Присоединился: май 2003 | Отправлено: 10 окт. 2003 10:18 | IP

labslo



Новичок

Меня интересует обратный процесс из DJVU->PDF или DJVY->PS?

Всего сообщений: 2 | Присоединился: октябрь 2003 | Отправлено: 13 окт. 2003 18:05 | IP

VF


Administrator

labslo
А смысл? Благодаря http://djvu. / формат DjVu хорошо поддерживается на разных платформах. Перевод только увеличит объем файлов.

В принципе, можно перевести с помощью печати Distiller'ом, но у меня не получилось - полезли сообщения об ошибках.

Всего сообщений: 829 | Присоединился: май 2002 | Отправлено: 14 окт. 2003 17:44 | IP

VF


Administrator

О добавлении русского текста в DjVu файл (взято из рассылки):

Способ получения под *nix (под win32, возможно использование под
cygwin, теоретически можно скомпилировать и напрямую под win32, но с
ходу не получилось)

Шаг1
с http://djvu. / берем DjVuLibre

Шаг2
инсталлируем

Шаг3
Создаем djvu файл любым способом который Вам нравится (я использую
cjb2, есть вариант под win32 http://www. /djvulibre/cjb2.zip)
конвертация из формата pbm

Шаг4
Создаем текст который будем подкладывать под djvu
Пример:
0283tif_0_3.txt
----
(page
(line "062897" )

(line 1 1"539.13")

(line "" )
(line "Статистическая физика. Ч. 1.  Л., 1938")
)
---
здесь первый ключ (page - геометрия страницы, line - геометрия
текстовой строки) определяют структурные объекты
страницы, четыре цифры это координаты блока текста в формате

x1 y1 x2 y2

x1 y1 - верхний левый угол
x2 y2 - нижний правый угол
(в документации ошибочно указан формат x1 x2 y1 y2)
Координаты x указываются от левой границы изображения. Координаты y
указываются от нижней границы изображения.

Текст заключают в двойные кавычки. Текстовый файл сохраняют в формате
utf8.

В идеале можно создавать напрямую из FineReader, при этом есть две
проблемы: смена формата пакета от версии к версии и отсутствие лицензии
на разработку сторонних программ (доступны только при покупке
серверной инсталляции)

Шаг5
Запускаем команду
djvused - v 0283tif_0_3.djvu - s

Далее в командой строке djvused выдаем последовательно команды:
select 1
set-txt 0283tif_0_3.txt
save
^C

Комментарий:
Выбор 1 страницы
сохранение созданного текста под djvu
сохранение djvu

Шаг5
Используем созданный djvu

Всего сообщений: 829 | Присоединился: май 2002 | Отправлено: 18 окт. 2003 14:58 | IP

VF


Administrator

Провел сравнение бесплатных DjVu-кодеров. Замечания, предложения и дополнения принимаются в этой теме форума

Всего сообщений: 829 | Присоединился: май 2002 | Отправлено: 9 нояб. 2003 12:39 | IP

neofit



Новичок

Интересно, почему-то думал, что СОЛО в два раза хуже, чем  сайт, а оно не уступает. Зачем нужен сайт тогда???

Про перевод обратно не согласен --  нужен для подстраховки обязательно, чтобы не оказаться  с кучей файлов в никем не поддерживаемом формате. Еще в идеале было бы здорово, если бы перевод машинно сгенерированных текстов в ДЖВЮ и обратно был  1-1, чтобы не боятся унифицировать формать библиотеки, иначе приходится держать и ДЖВЮ и PDF и  PS. GZ.

Всего сообщений: 46 | Присоединился: ноябрь 2003 | Отправлено: 7 дек. 2003 17:46 | IP

VF


Administrator

neofit

Интересно, почему-то думал, что СОЛО в два раза хуже, чем  сайт, а оно не уступает. Зачем нужен сайт тогда???


Any2djvu удобен при преобразовании PDF - не нужно делать промежуточные действия, описанные в моем первом сообщении. Кроме этого, некоторое время назад сервер использовался как хостинг для электронных книг

Если нужно сконвертировать в djvu множество графических файлов, то проще использовать DjVu Solo.

Про перевод обратно не согласен --  нужен для подстраховки обязательно, чтобы не оказаться  с кучей файлов в никем не поддерживаемом формате.


Исходники просмоторщика есть... Сложно представить ситуацию, что документы нельзя будет читать и конвертировать в графику.

Еще в идеале было бы здорово, если бы перевод машинно сгенерированных текстов в ДЖВЮ и обратно был  1-1, чтобы не боятся унифицировать формать библиотеки, иначе приходится держать и ДЖВЮ и PDF и  PS. GZ.


Для разных алгоритмов сжатия с потерями такое не возможно. Если есть текстовой оригинал, то оставляйте его и PDF, если скан - за DjVu можно не волноваться

Всего сообщений: 829 | Присоединился: май 2002 | Отправлено: 7 дек. 2003 18:35 | IP

castleofmusic



Каталогизатор

ещё any2djvu делает OCR для латинских букв. (для русских не делает). Есть коммерческий редактор от lizardtech, который тоже это делает. В принципе any2djvu был бы не очень нужен, если бы существовали в свободном доступе нормальные средства создания дежавю файлов. Кодировщик из библиотеки djvulibre даёт плохое сжатие, это просто игрушка, хотя остальные утилиты оттуда вроде нормальные.

Всего сообщений: 271 | Присоединился: май 2003 | Отправлено: 7 дек. 2003 18:44 | IP

Отправка ответа:

Имя пользователя

  Вы зарегистрировались?

Пароль

  Забыли пароль?

Сообщение

Использование HTML запрещено

Использование IkonCode разрешено

Смайлики разрешены

Опции отправки

Добавить подпись?
Получать ответы по e-mail?
Разрешить смайлики в этом сообщении?
Просмотреть сообщение перед отправкой? Да   Нет

 

Проект «OpenDjVu»

DjVuReader

1Описание

Программа DjVuReader предназначена для просмотра файлов в формате djvu в Windows95/98/XP.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5