Архитекторам и проектировщикам
| Правила | Регистрация | Пользователи | Поиск | Сообщения за день | Все разделы прочитаны |  Справка по форуму | Файлообменник |

Вернуться   Форум DWG.RU > Программное обеспечение > Прочее. Программное обеспечение > Технология создания DJVU-книг застыла в прошлом?

Технология создания DJVU-книг застыла в прошлом?

Ответ
Поиск в этой теме
Непрочитано 15.02.2021, 17:12 #1
Технология создания DJVU-книг застыла в прошлом?
ГОСТ&ОПОКА
 
Регистрация: 10.04.2009
Сообщений: 94

Пытаюсь освоить создание djvu книг из сканов. Пока что бегло поизучал первый пост темы "Ваши сканы, наша обработка...", сайт http://djvu-soft.narod.ru/. Повсюду на скорую руку составленные руководства десителетней и более давности, ссылки на программы в rar-архивах на файлообменниках, кряки, кейгены, русификаторы и все такое в стиле двухтысячных.

У поразительной по своим возможностям программы ScanKromsator ни сайта, ни документации, ни истории версий. Вместо этого сотни страниц-портянок на ru-board и pdf-компиляция из них на 400 страниц!

Луч света в этом темном царстве - ScanTailor Advanced, но по возможностям, видимо, сильно уступает кромсатору.

Несколько разновидностей DEE - Document Express Editor, Enterpeise, Pro, еще всякие разные, и разные версии, и разные сборки. Производитель программы то ли LizzardTech, то ли Caminova, то ли Сuminas. Все их сайты полумертвые, ни о стоимости ПО, ни о поддержке, ни о чем там не узнать.

DjvuSolo, DjvuSmall - не буду подробно останавливаться, примерно то же состояние.

Форум http://www.djvu-scan.ru/forum/index.php мертв и заспамлен.

Так как же сегодня выглядит технология создания книг в формате Djvu? Застыла в прошлом? Судя по качеству лучших djvu-файлов, даже если и так, то в тот момент, когда была хорошо развита. А если весь этот кладезь собранных по закоулкам интернета не поддерживаемых крякнутых программ перестанет работать в одной из следующих версий windows, то все, пиши пропало? Или просто нет возможности или желания, не важно по каким причинам, использовать ломанное и устаревшее ПО?

Наличие "живых" свободных ScanTailor и DjvuLibre вселяют надежду. Можно ли с помощью только этих программ создать хорошую электронную книгу в формате DJVU? Какие еще есть развивающиеся, поддерживаемые, современные инструменты для создания книг djvu?

Последний раз редактировалось ГОСТ&ОПОКА, 15.02.2021 в 22:14. Причина: сделал ссылка на тему, из которой выделили обсуждение
Просмотров: 12997
 
Непрочитано 15.02.2021, 17:49
#2
eilukha


 
Регистрация: 10.09.2007
Сообщений: 8,727


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
ScanTailor Advanced, но по возможностям, видимо, сильно уступает кромсатору.
- если сканы нормальные (а не полученные от криво сделанной эл. книги), то ST достаточно для отличного качества. Кромсатор не позаботился об элементарной вещи для удобства юзеров - перевести фейс на русский (хотя на руборде автор пишет на русском). Не стоит тратить на кромсатор время ради навороченного функционала, т. к. эти навороты вряд ли потребуются, сам автор не готов сделать детище удобным другим. Кстати, в кромсаторе нет автораспознавания зон картинок - только вручную, это нехило замедлит работу.

Последний раз редактировалось eilukha, 15.02.2021 в 20:41.
eilukha на форуме  
 
Автор темы   Непрочитано 15.02.2021, 18:03
#3
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


Хорошо. С помощью ST я приведу в порядок сканы. С помощью DjvuLibre можно создать из них djvu-файл (Пусть без оглавления и текстового слоя, пока обойдусь)? С консолью справлюсь, если нужно. Там сложная технология разделения и потом обратного соединения текстовых частей страницы и графических для кодирования разными алгоритмами, если я правильно понял. Чтобы такое провернуть, обязательно пользоваться теми прогами из двухтысячных, которые я описал ранее?

Последний раз редактировалось ГОСТ&ОПОКА, 15.02.2021 в 18:03. Причина: DjvuLibre пропустил слово
ГОСТ&ОПОКА вне форума  
 
Непрочитано 15.02.2021, 18:07
#4
Wlaster


 
Регистрация: 19.07.2012
Сообщений: 40
Отправить сообщение для Wlaster с помощью Skype™


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
Пытаюсь освоить создание djvu книг из сканов
Лучше отдать предпочтение PDF-формату. DJVU - формат негибкий, неудобный для работы с файлом из-за отсутствия вменяемого редактора.
Для работы с PDF есть отличнейший редактор PDF-XChange.
А djvu -формат застыл и не развивается, раньше он был более актуален из-за большой разницы размера с файлом PDF, более шустро работал за счет этого, но сейчас при хорошей обработке и пдф-файлы небольшие и шустрые ...
Wlaster вне форума  
 
Автор темы   Непрочитано 15.02.2021, 18:34
#5
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


Я по-прежнему ощущаю, что djvu листается гораздо быстрее сканированных pdf. Но у меня все компы, которыми пользуюсь не супер новые. А кроме скорости pdf тоже больше нравится. А может медленно pdf листается, потому что сделан плохо. Попробовал PDF-XChange 6.0 на скорую руку сжать pdf сделанный из tiff 300 dpi 1 bit сжатие LZW, под 200 страниц размер 30 Мб. Состояние картинок отличное. При сжатии выбрал алгоритм JBIG2, насколько я понял это алгоритм аналог DJVU, должен разбирать побуквенно и очень сильно уменьшать размер. Но размер файла после сжатия не уменьшился ни на байт. У вас получалось таким алгоритмом получить приемлимый результат?

Еще читал, что djvu сжатие можно настроить lossless, чтобы "проблему инь" изсключить. Говорят, что на качественных сканах оно не вылазит. Говорят что у JBIG2 этот глюк еще менее вероятен, но мне хотелось бы полностью исключить такую вероятность. У JBIG2 есть lossless режим? В PDF-XChange не нашел опции.
ГОСТ&ОПОКА вне форума  
 
Непрочитано 15.02.2021, 20:18
#6
eilukha


 
Регистрация: 10.09.2007
Сообщений: 8,727


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
pdf тоже больше нравится
- чем?
Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
"проблему инь"
- нет такой проблемы, если сканы и обработка нормальные, она возникает от малого количества пикселей на одну букву.
Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
очень сильно уменьшать размер
- так и есть, в отдельных случаях вес как у текстового документа (оно как и должно быть, т. к. практически создаётся новый шрифт и им пишется документ).
При одинаковом качестве растровых документов джвю сильно лучше пдф по весу и функционалу работы с документом.
Цитата:
Сообщение от Wlaster Посмотреть сообщение
DJVU - формат негибкий, неудобный для работы с файлом из-за отсутствия вменяемого редактора
- давайте конкретику (что можно в пдф и нельзя в джвю?), иначе выглядит пустыми словами. В пдф нет никакого развития (как по мне как деградация идёт), фейс только переделывают (в худшую сторону - ничего не найдёшь), да облачную ерунду и эл. подписи впаривают, которые 95 % юзеров не нужны.

----- добавлено через ~2 мин. -----
Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
С помощью DjvuLibre
- я «не читал, но осуждаю», а чем DjVu Small не устроил?

----- добавлено через ~5 мин. -----
Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
Там сложная технология разделения и потом обратного соединения текстовых частей страницы и графических для кодирования разными алгоритмами
- где таких страшных слов набрались? Это пущай разрабы программ юзают.

----- добавлено через ~17 мин. -----
Имхо: стоит только подзаморочиться с «вклейкой» тоновых картинок, т. к. это сильно снижает вес и ускоряет просмотр документа. Там просто добавляется одна программка при обработке. А совсем для полного счастья, можно побавить тестовый слой и ссылочное оглавление.

----- добавлено через ~5 мин. -----
Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
не поддерживаемых крякнутых программ
- это какие?

Последний раз редактировалось eilukha, 15.02.2021 в 20:38.
eilukha на форуме  
 
Автор темы   Непрочитано 15.02.2021, 20:56
#7
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


Offtop:
Цитата:
Сообщение от eilukha Посмотреть сообщение
- чем?
Привычными, знакомыми техниками работы с пдф, то есть субъективное. Да я не об этом хотел узнать, того и гляди холивар pdf vs djvu начнется. Я то и сам по опыту использования склоняюсь к тому, что для сканов - djvu. О нем и спрашивал. Про остальное завтра отвечу...
ГОСТ&ОПОКА вне форума  
 
Непрочитано 15.02.2021, 21:35
#8
eilukha


 
Регистрация: 10.09.2007
Сообщений: 8,727


В пдф нельзя:
  1. Скопировать в буфер обмена фрагмент картинки.
  2. Выполнить полнотекстовый поиск по всём документе с выводом сразу всех результатов.
  3. В пдф слова разорваны знаками переноса и это нельзя исправить, от этого страдает поиск.
  4. В полноэкранном режиме нельзя отобразить две страницы.
eilukha на форуме  
 
Автор темы   Непрочитано 15.02.2021, 22:08
#9
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


Цитата:
Сообщение от eilukha Посмотреть сообщение
- нет такой проблемы, если сканы и обработка нормальные, она возникает от малого количества пикселей на одну букву
Да, читал об этом здесь. Там же описаны пути устранения, так что не переживаю об этом. Но проблема есть, встречал файл с такой штукой, не мог поверить своим глазам - мол как же так, это же скан! Потом уже узнал, что это за кодирование такое в djvu.

Цитата:
Сообщение от eilukha Посмотреть сообщение
- где таких страшных слов набрались?
Просто передал своими словами, как понял. Читал здесь:2а этап. Метод разделённых сканов, еще где-то. Встречал файлы djvu с сильно искаженными фотографиями, почти исчезнувшими мелкими подписями на чертежах, расчетных схемах и графиках. Как я предполагаю - из за того, что создатели файла не потрудились отдельно обработать рисунки, и алгоритм сжатия, предназначенный для букв, прошелся по графике.

Цитата:
Сообщение от eilukha Посмотреть сообщение
чем DjVu Small не устроил?
Да еще пока не пробовал, не знаю устроит или нет. Только разведываю путь. Но спрашиваю, есть ли альтернативы, потому что в FAQ cказано, что "Эта программа использует "фирменные" консольные утилиты от LizardTech", то есть это коммерческое ПО, по-видимому заброшенное, со всеми вытекающими (см стартовый пост).

Цитата:
Сообщение от eilukha Посмотреть сообщение
- это какие?
Вот этот кладезь я имел ввиду. Там все выглядит очень устаревшим, и даже специальная графа в таблице про кряки. Сегодня почти для любой востребованной технологии есть свободный инструментарий с сообществом, баг-репортами, фич-реквестами, документацией, обратной связью с разработчиками, и т.п. Вот и спрашиваю - есть ли альтернативы. Если нет - то, конечно, буду ехать (а не шашечки искать).

Конечно, я ничего из этого еще не испробовал. Сам сайт, с которого я начал погружаться в тему - djvu-soft.narod.ru давно не обновлялся. Я хочу спросить, прежде чем погружаться в тему, действительно ли этот набор инструментов используется и сегодня? Не устарела эта информация?
ГОСТ&ОПОКА вне форума  
 
Непрочитано 15.02.2021, 22:34
#10
Солидворкер
Moderator

Конструктор (машиностроение)
 
Регистрация: 23.10.2006
Россия
Сообщений: 22,128
<phrase 1=


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
Сегодня почти для любой востребованной технологии есть свободный инструментарий с сообществом, баг-репортами, фич-реквестами, документацией, обратной связью с разработчиками, и т.п.
Ага, сеть завалена бесплатными редакторами PDF...
Солидворкер вне форума  
 
Непрочитано 15.02.2021, 22:40
1 | #11
eilukha


 
Регистрация: 10.09.2007
Сообщений: 8,727


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
как понял. Читал здесь
- это то, что я назвал «вклейкой картинок», там ничего сложного.
Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
с сильно искаженными фотографиями
- это если без вклейки делать с одновременным желанием малого веса. Вклейка даёт малый вес и качество одновременно.
Программы:
  1. ST - обработка (нормальных) сканов, в т. ч. разделение картинок и ч/б частей.
  2. DjVu Small - конвертер тиф-джвю.
  3. djvu imager - вклейка картинок.
  4. FineReader - получение тестового слоя. Важное примечание: только получать текстовый слой, и вставлять в его в файл, полученный из DjVu Small. Т. к. файл, полученный FineReader гробит качество и увеличивает вес (там кривой конвертер).
  5. DjvuOCR - вставка текстового слоя. (Вместо этого можно использовать fr11DTLcrutch, она имеет некритичные недостатки, но с ней операция выполняется буквально кликом одной кнопки).
  6. Pdf & Djvu Bookmarker - создание ссылочного оглавления, расположенного во вкладке.
  7. DjVu Hyperlinks Editor - создание ссылочного оглавления, расположенного на странице оглавления.
eilukha на форуме  
 
Автор темы   Непрочитано 15.02.2021, 22:43
#12
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


> Ага, сеть завалена бесплатными редакторами PDF...

Ага, метко подмечено. Но, специфический случай, но все же, для компьютерных джедаев есть pdftk server, PyPDF2, и PyMuPDF, и еще бесчисленное незнакомых мне инструментов, с помощью которых можно наколхозить невообразимые вещи.

----- добавлено через ~42 мин. -----
Главное, и, наверное единственное, чего мне не хватает в работе djvu по сравнению с pdf - это сохранение аннотаций внутри файла. Здесь развенчан этот миф № 6 о том, что djvu не поддерживает встроенных аннотаций, и даже приведен пример файла. Но, к сожалению, просмотрщик WinDjView сохраняет аннотации в реестре системы, а не в файле. А Document Express Editor, котрый может сохранять в файле аннотации, не подходит для просмотра: нет вида двух страниц рядом, перелистывание с клавиатуры затруднено.

Цитата:
Сообщение от eilukha Посмотреть сообщение
  1. Скопировать в буфер обмена фрагмент картинки.
  2. Выполнить полнотекстовый поиск по всём документе с выводом сразу всех результатов.
  3. В пдф слова разорваны знаками переноса и это нельзя исправить, от этого страдает поиск.
  4. В полноэкранном режиме нельзя отобразить две страницы.
Все, кроме пункта 3 у меня получается сделать в просмоторщике pdf foxit reader.
ГОСТ&ОПОКА вне форума  
 
Автор темы   Непрочитано 15.02.2021, 23:39
1 | #13
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


Поиск с выводом запрятан глубоко. Нужно нажать ctrl+shift+f или кнопку рядом пред полем ввода обычного поиска. Откроется боковая панель. Там можно искать разными способами, даже во множестве pdf-файлах сразу. На скринах покажу, где кнопка, настройку поиска и результатов. При выделении найденного вхождения, переходит к нему и подсвечивает бледно красным. Советую изменить на тёмно-красный, для этого надо нажать шестиренку справа от поля поиска и там свойства.

Для двух страниц в полноэкранном режиме нужно снять галку "По одной странице" в настройках проги в разделе Полноэкранный режим.

Скопировать фрагмент картинки - Alt+7 или Снимок на Главной вкладке, первая панель Утилиты. Если не устраивает полученный dpi (актуально для векторной графики) его можно установить настройках какой нужно.
Миниатюры
Нажмите на изображение для увеличения
Название: Снимок1.JPG
Просмотров: 52
Размер:	40.1 Кб
ID:	234553  Нажмите на изображение для увеличения
Название: Снимок2.JPG
Просмотров: 53
Размер:	33.4 Кб
ID:	234554  
ГОСТ&ОПОКА вне форума  
 
Непрочитано 16.02.2021, 00:08
#14
kp+

идущий по граблям
 
Регистрация: 26.05.2005
Днепройт
Сообщений: 4,494


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
Какие еще есть развивающиеся, поддерживаемые, современные инструменты для создания книг djvu?
IMHO, надо смотреть на новые средства получения изображений. Раньше фоткать книги считалось дурным тоном, промышленность выпускала специальные книжные сканеры без одного поля и т. д.
Теперь разрешающая способность современных камер позволяет быстро получать изображения не хуже, чем с планшетного сканера, если есть нормальный свет и средства взаимного размещения книги и камеры.
http://doko.pro/scanner/catalog/2?yc...99410283036414
Можно даже фоткать с рук на телефон с приличной камерой (вроде redmi 8 pro) и получить удовлетворительный результат. Можно купить для телефона подставку вроде тех, что по ссылке и получить результат "на уровне".
https://for-extreme.com.ua/mount/sta...-dlya-telefona

PS Из программ надо вспомнить Book Restorer (по-моему, тоже уже не поддерживаемый). Если исходные изображения - фотографированные при каком попало освещении, вспышке и т.д. - без его фильтров выравнивания яркости не обойтись. В других прогах их либо вообще нет, либо гораздо хуже ( или я не видел других нормальных)
__________________
Одно меня лишь радует - я это вижу сам! (С)

Последний раз редактировалось kp+, 16.02.2021 в 00:31.
kp+ вне форума  
 
Непрочитано 16.02.2021, 00:10
#15
eilukha


 
Регистрация: 10.09.2007
Сообщений: 8,727


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
pdf foxit reader
- ридеры неудобно, т. к. правка часто нужна (а две программы тоже неудобно юзать, хотя дело вкуса).

----- добавлено через ~4 мин. -----
Цитата:
Сообщение от kp+ Посмотреть сообщение
http://doko.pro/scanner/catalog/2?yc...99410283036414
  1. Разрешение матрицы низкое.
  2. Неизвестно насколько справляется софт с оптическими искажениями.
eilukha на форуме  
 
Автор темы   Непрочитано 16.02.2021, 00:47
#16
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


Цитата:
Сообщение от kp+ Посмотреть сообщение
Можно даже фоткать с рук на телефон с приличной камерой
Так и есть. Если камера хорошая и экран большой (например планшет), есть приложения-"сканеры", например SwiftScan (вывший ScanBot), которые на лету исправят искажение перспективы, обрежут страницу, поправят яркость/котнраст/гамму и вот это все, распознают текст и добавят ocr-слой при желании, и сохранят в многостраничный pdf в облако. Получается приличный результат, особенно когда фотаешь что то старое в архивах втихаря или с разрешения, где не требуется стирать фон и чернобелить, а наоборот нужно сохранить рукописные пометки и штампы, цвет и структуру старой бумаги, линии бланка документа, текст может быть весь рукописный, или на печатной машинке или через копирку сделаный еле видно. Отличный вариант.
ГОСТ&ОПОКА вне форума  
 
Непрочитано 16.02.2021, 00:54
#17
kp+

идущий по граблям
 
Регистрация: 26.05.2005
Днепройт
Сообщений: 4,494


Цитата:
Сообщение от eilukha Посмотреть сообщение
Разрешение матрицы низкое.
Неизвестно насколько справляется софт с оптическими искажениями.
Как правило, при хорошем свете и правильном взаимном расположении камеры и оригинала искажений не очень много, и приличного результата можно достигнуть даже при незаоблачном разрешении.
Но для профессионалов и истинных ценителей - только хардкор :
https://elarscan.ru/modelnyj-ryad/
__________________
Одно меня лишь радует - я это вижу сам! (С)

Последний раз редактировалось kp+, 16.02.2021 в 01:02.
kp+ вне форума  
 
Непрочитано 16.02.2021, 01:07
#18
eilukha


 
Регистрация: 10.09.2007
Сообщений: 8,727


Цитата:
Сообщение от kp+ Посмотреть сообщение
https://elarscan.ru/modelnyj-ryad/
- там такой космос, что они цены постеснялись написать.
eilukha на форуме  
 
Непрочитано 16.02.2021, 06:59
#19
ShaggyDoc

Thượng Tá Quân Đội Nhân Dân Việt Nam
 
Регистрация: 14.03.2005
44d32'44"С, 33d26'51"В
Сообщений: 12,281


Цитата:
Сообщение от eilukha Посмотреть сообщение
В пдф нельзя:
  1. Скопировать в буфер обмена фрагмент картинки.
  2. Выполнить полнотекстовый поиск по всём документе с выводом сразу всех результатов.
  3. В пдф слова разорваны знаками переноса и это нельзя исправить, от этого страдает поиск.
  4. В полноэкранном режиме нельзя отобразить две страницы.
Так это же надо уметь смотреть и знать, чем смотреть. Вот я использую PDF-XChange. Есть и бесплатные версии, есть и платные Editor, есть и Editor Plus. Но и ограниченных немного возможностей бесплатного Viewer хватает:

Скопировать картинку в буфер? Да пожалуйста. Инструмент Снимок. Хоть кусочек, хоть всю страницу - одним щелчком.

Вывод сразу всех результатов? "Ух ты, какая..." А Word например, умеет это делать?

Слова разорваны? Так надо уметь PDF готовить, чтобы не разрывались.

Две страницы? Да хоть две, хоть четыре, хоть справа налево, хоть наоборот. Ах, непременно надо в полноэкранном? Ну, тады ой.

А вот "родной" "Акробат" - самый тормозной просмотрщик, именно поэтому появилось столько альтернативных, в том числе полностью бесплатных.

Как ни крути, PDF стал фактическим стандартом и самым удобным средством для публикации. Еще и с возможностями редактирования документа - комментарии, маркеры, рисунки поверх и прочее.

А вот djvu не стал. Хотя мог бы, но сами разработчики его и загубили, потому и тема такая возникла.

Жалко, но "умерла, так умерла".

И теперь остается всего лишь не очень распространенной "религией", имеющей своих агрессивных поклонников, которые выискивают настоящие и выдуманные недостатки других форматов. Котоые будут кричать "не спешите хоронить".

А ведь в "научных кругах" есть еще и другие "секты" со своими вообще экзотичными форматами...
ShaggyDoc вне форума  
 
Автор темы   Непрочитано 16.02.2021, 12:22
#20
ГОСТ&ОПОКА


 
Регистрация: 10.04.2009
Сообщений: 94


Недавно я увидел выложенный eilukha СП 20 с измами и подумал - мне тоже так хочется!

Вот результат моего эксперимента, прошедшего благодаря обсуждению в этой теме: СП 16.13330-2017 с Изм 1, 2, переделанный в djvu и pdf (оба без текстового слоя) из картинок, опубликованных на faufcc.

Все на настройках по умолчанию, в результат еще не успел всмотреться особо.

Пакет программ DjVuLibre прекрасно сработал, все сделано по краткой документации почти с первого раза. Использовал именно его из интереса ответить на вопрос, который поднял данной темой - застыл ли формат совсем или нет? Получилось, что не совсем. DjVuLibre - проект с открытым исходным кодом, разработка, не знаю, насколько активно, но ведется. Последний релиз в прошлом месяце. Все что нужно, на мой взгляд познакомившегося с форматом только вчера человека, там наверняка есть - от слоев всяких до закладок.

Главный недостаток по сравнению с DjvuSmall - DjVuLibre не может использовать общий словарь "букв" на множество страниц, кодирует каждую страницу отдельно, а потом просто сшивает. И конечно же есть классика: много-много-летний фич-реквест на этот общий словарь, в котором прогер отвечает - да, хорошо бы, но мне некогда =) Но это понятно. Все равно результат по размеру мне показался приемлимым.

Там на форуме обсуждаются и сравниваются и другие djvu-библиотеки (miniDjvu например, он может общий словарь делать), их производительность на 64-битных системах с многоядерными процессорами и результирующие файлы сравниваются с результатами коммерческих кодеков весьма оптимистично. Выбирают, что интегрировать в ScanTailor. Судя по тому, что, у них в хранилище исходников есть каталог "[LizardTech DjVu (obsolete)]", DjVuLibre отпочковался этого кодека, перед тем, как тот стал закрытым и коммерческим.

DjvuSmall это интерфейс ко взломанному бинарнику коммерческой версии утилиты командной строки от того же LizardTech, и поэтому у него нет шансов быть интегрированным ScanTailor и всего такого.

На форуме мелькают имена и фамилии, похожие на русские. В поставку DjVuLibre входит полностью переведенная на русский язык спецификация формата DJVU!

Так что у поборников одновременно формата djvu и свободного ПО есть современный здоровый инструментарий - ScanTailor и DjVuLibre, не хватает скриптов и оберток для последнего, например, по аналогии того же DjVuSmall. Или пользоваться так, разобравшись что к чему.

Ни СканТейлор, ни СканКромсатор я не использовал. Просто перевел jpeg в tiff 1bit без сжатия.

Потом страницы tiff переводятся в djvu:

Цитата:
cjb2 -clean page1.tif page1.djvu
И так для каждой страницы.

В полученных jpg есть текст на желтом фоне. При переводе в черно-белый цвет с настройками по умолчанию, на месте желтого фона получилась "мошкара". Ключ -clean нужен для удаления этой "мошкары." После ее удаления страница по умолчанию кодируестся в lossless режиме.

Теперь склейка всех страниц в один djvu:

Цитата:
djvm -create OUTFILE.djvu page1.djvu page2.djvu page3.djvu ....
Тепрь конвертация в pdf для тех, кто предпочитает этот формат:

Цитата:
ddjvu -format=pdf OUTFILE.DJVU OUTFILE.PDF
В результате внутри pdf оказываются TIFF/G4 изображения, это тоже lossless-сжатие.

Текст получился светловат и шероховат, поля страницы не очень подходят для двусторонней печати и просмотра по разворотам. Если постараться, а не просто ковертнуть в ч/б тиф, то можно добиться лучшего.

Вообще мне бы хотелось иметь и версии с желтым фоном под текстом. Так выделены пункты, входящие в "обязательный перечень". Но я не знаю как это правильно сделать. Если кто то знает как этого добиться с помощью Тейлора, Кромсатора, DjvuSmall или чего то еще, подскажите пожалуйста (примеры страниц с желтым фоном 1, 2).

Последний раз редактировалось ГОСТ&ОПОКА, 16.02.2021 в 12:27.
ГОСТ&ОПОКА вне форума  
 
Непрочитано 16.02.2021, 12:59
1 | #21
eilukha


 
Регистрация: 10.09.2007
Сообщений: 8,727


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
у поборников одновременно формата djvu и свободного ПО есть современный здоровый инструментарий - ScanTailor и DjVuLibre
- шибко высокопарно, на рекламные цитаты смахивает.

----- добавлено через ~40 мин. -----
Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
Вообще мне бы хотелось иметь и версии с желтым фоном под текстом. Так выделены пункты, входящие в "обязательный перечень". Но я не знаю как это правильно сделать. Если кто то знает как этого добиться с помощью Тейлора, Кромсатора, DjvuSmall или чего то еще, подскажите пожалуйста (примеры страниц с желтым фоном 1, 2).
- см. тут, последнее сообщение (сам я там ничего не понял).
eilukha на форуме  
 
Непрочитано 16.02.2021, 14:55
#22
ShaggyDoc

Thượng Tá Quân Đội Nhân Dân Việt Nam
 
Регистрация: 14.03.2005
44d32'44"С, 33d26'51"В
Сообщений: 12,281


Цитата:
Сообщение от eilukha Посмотреть сообщение
шибко высокопарно, на рекламные цитаты смахивает.
А это всегда у поклонников "свободного" ПО. Под "свободным" понимается, что какие-то добрые дяденьки его, от нечего делать, разрабатывают и раздают всем бесплатно.

Но добрые дяденьки тоже хотят кушать и зарабатывать. Крупные "свободные" проекты кем-то спонсируются. Как OpenOffice, который делали назло Майкрософт. Потом "пошел по рукам" - Sun, Oracle, Apache. Потом разработчики разбежались и Oo сдох. Начали LibreOffice якобы "за счет пожертвований". Ну и много наши поклонники пожертвовали? И этот проект неизбежно загнется.

Ну а про мелочи наподобие вьюверов и говорить нечего. Надоело разработчикам, устали, умерли, сменили ориентацию - и конец.
ShaggyDoc вне форума  
 
Непрочитано 16.02.2021, 15:57
#23
Бим

пенсионер
 
Регистрация: 09.04.2018
Украина
Сообщений: 600


Цитата:
Сообщение от ShaggyDoc Посмотреть сообщение
И этот проект неизбежно загнется
Offtop: Где работал, покупной офис применяли только там, где он требовался в связке с другим ПО, как у сметчиков, к примеру. А остальным хватало свободного (можно ведь и платный взять, раз уж так кому принципиально) офиса. "Неизбежного загибания" как-то не произошло за десяток лет, хоть еще со Стар Офис начиналось и ООО и Либре закончилось... Загнётся и ладно, будет другое. Формат жив, да и шедевры не все ваяют... Банальное - "80% пользователей достаточно 20% возможностей" вполне себе работает. Зачем тратить больше.
Бим вне форума  
 
Непрочитано 16.02.2021, 23:09
#24
РастОК

Конструктор-Проектировщик
 
Регистрация: 24.12.2008
Одесса-Мама
Сообщений: 2,260


Цитата:
Сообщение от ShaggyDoc Посмотреть сообщение
Как ни крути, PDF стал фактическим стандартом и самым удобным средством для публикации.
Для публикации да, а для пользования отнюдь. Проблема ПДФ в его не масштабируемости на гаджетах. На электронной книге весьма тяжело без проблем охватить всю страничку, тогда как дежавю устанавливает столько слов на страницу, чтобы тебе было удобно читать текст не напрягаясь, как обычную книгу с любым привычным тебе шрифтом, что немаловажно, лично для меня ... хотя я перепутал))) с .fb2
__________________
Если невнятное ТЗ, то результат получится ХЗ.

Последний раз редактировалось РастОК, 16.02.2021 в 23:14. Причина: укыфеыук
РастОК вне форума  
 
Непрочитано 17.02.2021, 01:26
#25
kp+

идущий по граблям
 
Регистрация: 26.05.2005
Днепройт
Сообщений: 4,494


Offtop:
Цитата:
Сообщение от РастОК Посмотреть сообщение
На электронной книге весьма тяжело без проблем охватить всю страничку
Ждем, когда подешевеют на вторичном рынке эл. книги крупного формата - 13,3" типа sony dpt1.
__________________
Одно меня лишь радует - я это вижу сам! (С)
kp+ вне форума  
 
Непрочитано 17.02.2021, 06:02
1 | #26
Нубий-IV

Инженер-философ
 
Регистрация: 24.04.2019
Хабаровск
Сообщений: 906


Цитата:
Сообщение от ГОСТ&ОПОКА Посмотреть сообщение
кто то знает как этого добиться с помощью Тейлора
Как свести фоновую картинку с черным текстом - написано в инструкциях по созданию DJVU (метод разделенных сканов). Для страницы нужно сохранить две картинки - только текст и только фон. Весь вопрос в том, как отделить желтые выделения минстроя от текста.
  • Тейлор прекрасно отделяет текст, так что первую картинку лучше всего получать с его помощью.
  • Отделить фон может G'MIC - это консольный редактор картинок . Автоматически отделить большие цветные области, удалив мелкие буквы, умеет фильтр "сегментация". Вот эту команду надо сохранить как командный файл в папку с исходными JPG-ами, и после запуска она сохранит в этой же папке PNG-и, где текст стерт:
    Код:
    [Выделить все]
    for %%f in (*.jpg) do C:\Programs\GMIC\gmic.exe -i  "%%f" -fx_segment_watershed 0.1,0.5,0,0,0,50,50 -o "%%f.png"
    Работает не идеально, оставляя иногда большие черные объекты, типа таблиц или рисунков. Результаты надо просмотреть, и что-то слегка поправить вручную.
    Но в нескольких файлах стереть лишние оставшиеся части намного легче, чем редактировать вручную вообще все.

    Можно скачать G'MIC как плагин для GIMP (тогда у G'MIC будет графический интерфейс) и подбирать параметры не на ощупь. Можно в настройках плагина указать выводить настройки в имя слоя.
    Тогда после применения фильтра можно посмотреть, какие параметры использовать в командных файлах.
    Можно поставить плагин BIMP для GIMPа, и делать пакетную обработку файлов в папке из графического интерфейса GIMP, без возни с командными файлами.
    Возможно, аналогичные фильтры есть во всяких фотошопах.
Миниатюры
Нажмите на изображение для увеличения
Название: Фильтр.png
Просмотров: 219
Размер:	226.7 Кб
ID:	234609  Нажмите на изображение для увеличения
Название: GMIC.png
Просмотров: 217
Размер:	97.8 Кб
ID:	234610  Нажмите на изображение для увеличения
Название: Слои.png
Просмотров: 212
Размер:	17.1 Кб
ID:	234611  Нажмите на изображение для увеличения
Название: BIMP.png
Просмотров: 227
Размер:	118.4 Кб
ID:	234612  
__________________
Учись долго, умри дураком
Нубий-IV вне форума  
 
Непрочитано 17.02.2021, 06:36
#27
ShaggyDoc

Thượng Tá Quân Đội Nhân Dân Việt Nam
 
Регистрация: 14.03.2005
44d32'44"С, 33d26'51"В
Сообщений: 12,281


Цитата:
Сообщение от РастОК Посмотреть сообщение
Проблема ПДФ в его не масштабируемости на гаджетах.
Да, это так. Ну так для ридеров другие форматы предназначены. В том числе и с "картинками".

Вот мне очень много приходится готовить документации - и программы, и несколько книг с иллюстрациями. Все их готовлю в очень удобной программе Help And Maual. Готовый проект могу опубликовать в PDF, CHM, DOC, ePUB, MOBi, eWriter (последние три специально для гаджетов). Еще ePUB перевожу в FB2, более удобный. У каждого формата свои потребители.

Ну а что бы делал, если ради "свободы" решил делать в DJVU?

Ну, а AutoCAD вообще подлежит проклятию - как его чертежи на гаджетах хотя бы смотреть.

Я же не против DJVU "как класса". Но надо понимать достоинства, недостатки, и риски. И "это ж-ж неспроста" - Технология создания DJVU-книг застыла в прошлом?
ShaggyDoc вне форума  
 
Непрочитано 17.02.2021, 07:48
#28
tankist

ЭПБ, обследование стр. конструкций
 
Регистрация: 09.10.2009
Сибирь
Сообщений: 2,427


Цитата:
Сообщение от ShaggyDoc Посмотреть сообщение
Я же не против DJVU "как класса". Но надо понимать достоинства, недостатки, и риски. И "это ж-ж неспроста" - Технология создания DJVU-книг застыла в прошлом?
Люди, которые в одной программе просматривают сканы серий, типовых проектов, даже не догадываются, что смотрят сканы из файлов djvu. Т.к. это нигде не отображается, можно узнать, если базу данных открыть.
tankist вне форума  
 
Непрочитано 17.02.2021, 08:13
#29
Нубий-IV

Инженер-философ
 
Регистрация: 24.04.2019
Хабаровск
Сообщений: 906


Что-то я затупил. Удалить остатки черного и подчистить светлый мусор можно там же, в батнике. Достаточно добавить команды замены черного цвета на белый и слегка подкрутить кривые:
Код:
[Выделить все]
for %%f in (*.jpg) do C:\Programs\GMIC\gmic.exe -i  "%%f" -fx_segment_watershed 0.1,0.5,0,0,0,50,50 -replace_color 100,0,30,30,30,255,255,255 -apply_curve 1,0,0,180,180,240,255 -o "%%f.png"
Миниатюры
Нажмите на изображение для увеличения
Название: Фильтр.png
Просмотров: 204
Размер:	303.1 Кб
ID:	234614  
__________________
Учись долго, умри дураком
Нубий-IV вне форума  
 
Непрочитано 17.02.2021, 09:25
#30
ShaggyDoc

Thượng Tá Quân Đội Nhân Dân Việt Nam
 
Регистрация: 14.03.2005
44d32'44"С, 33d26'51"В
Сообщений: 12,281


Цитата:
Сообщение от tankist Посмотреть сообщение
Люди, которые в одной программе просматривают сканы серий, типовых проектов, даже не догадываются, что смотрят сканы из файлов djvu. Т.к. это нигде не отображается, можно узнать, если базу данных открыть.
Ну и пусть смотрят. И я смотрю и спасибо говорю тем, кто сканировал, собрал в какой-то формат.

Насчет "нигде не отображается" - зря. Может "в одной программе" и не отображается, а в другой, правильной, прямо в заголовке показано. Это правильно, потому что человек должон знать, что он смотрит и представлять, что с этим можно сделать.
ShaggyDoc вне форума  
 
Непрочитано 17.02.2021, 11:48
#31
Солидворкер
Moderator

Конструктор (машиностроение)
 
Регистрация: 23.10.2006
Россия
Сообщений: 22,128
<phrase 1=


Цитата:
Сообщение от ShaggyDoc Посмотреть сообщение
И "это ж-ж неспроста" - Технология создания DJVU-книг застыла в прошлом?
Мне кажется, что дело тут вот в чем. Чем был хорош DJVU? Адовой степенью сжатия сканов текста без потери читабельности. Книга в PDF могла быть в десятки раз тяжелее, чем книга в DJVU.
Но пришла эра оптоволоконного интернета и терабайтных дисков. И это перестало играть роль.
Солидворкер вне форума  
 
Непрочитано 17.02.2021, 15:02
#32
ShaggyDoc

Thượng Tá Quân Đội Nhân Dân Việt Nam
 
Регистрация: 14.03.2005
44d32'44"С, 33d26'51"В
Сообщений: 12,281


Цитата:
Сообщение от Солидворкер Посмотреть сообщение
Мне кажется, что дело тут вот в чем. Чем был хорош DJVU? Адовой степенью сжатия сканов текста без потери читабельности. Книга в PDF могла быть в десятки раз тяжелее, чем книга в DJVU.
Но пришла эра оптоволоконного интернета и терабайтных дисков. И это перестало играть роль.
Ну и это влияло.
Хотя вот у меня две одинаковых книги одного и того же автора, в каждой по 127 страниц. Основное содержимое - картинки нот и минимум текста. Изданы в разные годы, отличаются только первыми страницами.

Так PDF весит 5 091 768, а djvu 12 392 798. При этом иллюстрации с фото человеков в PDF намного лучше. Поиск по тексту не работает и там и там.

Конечно, многое зависит и от книгоделателя.

Но тут скорее просто пристрастия, как с архиваторами. Ну а главное - развивается то, что принимается солидными производителями софта. Они же не будут рекомендовать "скачать с narod.ru".
ShaggyDoc вне форума  
 
Непрочитано 12.03.2021, 12:07
#33
kp+

идущий по граблям
 
Регистрация: 26.05.2005
Днепройт
Сообщений: 4,494


В продолжение темы. Нарыл по случаю по бросовой цене потрепанный, но рабочий книжный сканер plustek opticbook 3600. Тот, который без одного поля и позволяет сканировать без теней на корешке, не повреждая книгу.
Теперь можно сравнить затраты времени на:
- получение исходных изображений "дедовским" (сканер) и "новым" (фото камерой высокого разрешения) методом;
- обработку этих изображений.
Пока что, как ни странно, с помощью этого сканера несколько быстрее. Т.к. он сам по себе весьма шустрый и сразу выдает ч/б изображения 600 dpi без геометрических искажений, пересветов, теней и прочих присущих фотографии моментов.
Из минусов - очень шумный. Ну и оригинал каждый раз переворачивать приходится, что не очень хорошо сказывается на состоянии ветхих книг.
__________________
Одно меня лишь радует - я это вижу сам! (С)

Последний раз редактировалось kp+, 12.03.2021 в 12:48.
kp+ вне форума  
 
Непрочитано 12.03.2021, 13:24
#34
tankist

ЭПБ, обследование стр. конструкций
 
Регистрация: 09.10.2009
Сибирь
Сообщений: 2,427


Цитата:
Сообщение от kp+ Посмотреть сообщение
и сразу выдает ч/б изображения 600 dpi
В сером надо сканировать, в ч/б качество будет уже как есть, не улучшить, могут пропасть некоторые фрагменты.
tankist вне форума  
 
Непрочитано 12.03.2021, 13:43
#35
kp+

идущий по граблям
 
Регистрация: 26.05.2005
Днепройт
Сообщений: 4,494


Слышал о таких рекомендациях, но как по мне, для изначально ч.б. оригиналов это надо при неудобных условиях сканирования, нечеткой печати, загаженном оригинале и т.п. Когда оригинал четкий, более-менее чистый, полностью лежит на стекле, и сканер с нормальной глубиной резкости - ничего никуда не пропадает. Чаще встречалось, что детали пропадают при переводе серого в ч/б и прочих "улучшениях". Что вынуждало отказываться от такой операции и оставлять часть листов (или даже все) в сером.
__________________
Одно меня лишь радует - я это вижу сам! (С)

Последний раз редактировалось kp+, 12.03.2021 в 13:58.
kp+ вне форума  
 
Непрочитано 12.03.2021, 13:58
#36
tankist

ЭПБ, обследование стр. конструкций
 
Регистрация: 09.10.2009
Сибирь
Сообщений: 2,427


Цитата:
Сообщение от kp+ Посмотреть сообщение
Когда оригинал более-менее чистый, полностью лежит на стекле, и сканер с нормальной глубиной резкости - ничего никуда не пропадает.
Пытался раз чертежи 3 формата, изначально распечатанные в ч.б. хорошем качестве сканировать на ксероксе в ч.б. формат, часть тонких линий теряется, даже при максимальном разрешении. При сканировании в сером и дальнейшем переводе в ч.б. все нормально получалось.
И ч.б. изображения от мусора уже сложнее очищать, в основном вручную.
tankist вне форума  
 
Непрочитано 12.03.2021, 14:22
#37
kp+

идущий по граблям
 
Регистрация: 26.05.2005
Днепройт
Сообщений: 4,494


Ну не знаю, может от сканера зависит, раньше не встречался с таким. Да и тема о сканировании (старых) книг, там таких проблем обычно не бывает.
__________________
Одно меня лишь радует - я это вижу сам! (С)
kp+ вне форума  
 
Непрочитано 12.03.2021, 14:45
#38
CalcProg


 
Регистрация: 02.10.2016
Сообщений: 207


Цитата:
Сообщение от ShaggyDoc Посмотреть сообщение
А это всегда у поклонников "свободного" ПО. Под "свободным" понимается, что какие-то добрые дяденьки его, от нечего делать, разрабатывают и раздают всем бесплатно.

Но добрые дяденьки тоже хотят кушать и зарабатывать. Крупные "свободные" проекты кем-то спонсируются. Как OpenOffice, который делали назло Майкрософт. Потом "пошел по рукам" - Sun, Oracle, Apache. Потом разработчики разбежались и Oo сдох. Начали LibreOffice якобы "за счет пожертвований". Ну и много наши поклонники пожертвовали? И этот проект неизбежно загнется.

Ну а про мелочи наподобие вьюверов и говорить нечего. Надоело разработчикам, устали, умерли, сменили ориентацию - и конец.

https://blogs.apache.org/OOo/
CalcProg вне форума  
Ответ
Вернуться   Форум DWG.RU > Программное обеспечение > Прочее. Программное обеспечение > Технология создания DJVU-книг застыла в прошлом?

Размещение рекламы
Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Ваши сканы, наша обработка и перевод в DJVU. Armin Поиск литературы, чертежей, моделей и прочих материалов 3378 12.04.2021 21:07
Планшет для чтения DJVU и PDF (отзывы, советы, впечатления). Armin Разное 313 08.01.2020 10:47
технология создания расчетных схем в Лире (опрос) LS2012 Лира / Лира-САПР 60 31.05.2013 12:24
Технология BIM, практическое внедрение. VES1 Технология и организация строительства 1 13.04.2012 09:12
Правильно ли мой проект называть словом Технология olish Технология и организация строительства 14 08.06.2011 15:52