Ваши сканы, наша обработка и перевод в DJVU. - Страница 65
Реклама i
| Правила | Регистрация | Пользователи | Сообщения за день |  Справка по форуму | Файлообменник |

Вернуться   Форум DWG.RU > Поиск литературы, чертежей, моделей и прочих материалов > Ваши сканы, наша обработка и перевод в DJVU.

Ваши сканы, наша обработка и перевод в DJVU.

Ответ
Поиск в этой теме
Старый 29.07.2009, 10:34 16 |
Ваши сканы, наша обработка и перевод в DJVU.
Armin
 
Проектирование зданий и частей зданий
 
Екатеринбург
Регистрация: 12.06.2007
Сообщений: 3,042

Тема-побратим.
ScanKromsator Программа для обработки сканов книг. Вопросы, советы, хитрости, обсуждение.

Сетевой каталог отсканированной литературы от Wer666 (пока без ссылки, ищем сетевой ресурс).

Чтобы посмотреть выложенную в данной теме литературу (все вложения в данной теме) заходим в раздел "Поиск литературы, чертежей, моделей и прочих материалов". Возле названия темы "Ваши сканы, наша обработка и перевод в DJVU" жмём на изображение скрепки (см. рис).




КРЫЛОВ СМ - Экспериментальное исследование работы железобетонных перекрытий каркасных зданий (статья).
Руководство по проектированию свайных фундаментов 1980
Клейн ГК = Расчет подпорных стен_1964 OCR HypLink (версия от Armin)
ДПМ-Пульс-01_60 (серия по противопожарным дверям)
Пособия по проектированию ЖБК без предварительного напряжения
СНиП 3.02.01-87 Земляные сооружения, основания и фундаменты (2007)
СНиП 2.02.01-83* Основания зданий и сооружений (не окончательная версия)
Макаров ЕВ Светлаков НД = Справочные таблицы весов строительных материалов (версия от Armin)
Строительные работы в зимних условиях Справочное пособие 1953
Пешковский ОИ "Технология изготовления металлических конструкций"
Мурашев ВИ "Трещиноустойчивость, жесткость и прочность железобетона" 1950 (версия от Armin)
Слицкоухов Ю.В. Индустриальные деревянные конструкции 1991 (версия от Armin)
Филиппов Н.А. Константинов И.А. Примеры расчёта и проектирования деревянных конструкций. 1965 (версия от ЛАО)
Арленинов Д.К. и др. Конструкции из дерева и пластмасс. 2002 (версия от ЛАО)
Арленинов Д.К. и др. Конструкции из дерева и пластмасс. 2002 (версия от Armin)
пока до #160

Старое название темы.
Умеeшь сканировать, но не умеешь обрабатывать сканы и переводить в DJVU? Постараемся помочь.

Про ценность отсканированной литературы, выкладываемой в общий доступ, понятно всем.

У многих есть возможность отсканировать и выложить необработанные сканы в инете (на файлообменниках и т.п.).
Но вот умения/возможности/времени обработать сканы (удалить мусор, на страницы порезать, перевести всё это в формат DJVU и т.д.) нет.

У меня есть предложение для таких людей.
Выкладывайте свои сканы, а я (и другие заинтересованные формучане) поможем вам обработать данные растровые файлы и поможем привести в божеский вид.

Естественно всё один я не потяну и интересны мне в основном книги связанные с проектированием (расчет/конструирование) железобетонных и прочих конструкций, зданий и сооружений (особенно старые, годов с 30-ых).

Предлагаю выкладывать в данной теме название книги, которую Вы имеете возможность отсканировать + один отсканированный лист, чтоб была возможность подсказать, как лучше сделать (в каком лучше разрешении и формате сканировать, чтоб получился хороший результат).

Статьи по поводу сканирования с http://djvu-soft.narod.ru

Сканирование бумажной книги. В результате получаются т.н. "сырые сканы"- серые или цветные необработанные изображения страниц книги. Смысл - получение "сырья" для будущей электронной книги. Рекомендуемая программа - Irfan View.

1. Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг. Она корёжит получаемые скан-изображения страниц книги. Можно использовать программу ABBYY FineReader 9 для этого - но перед сканированием сбросьте там в опциях галку "Исправлять перекос страниц".

2. Не сканируйте книги в чёрно-белом режиме (Black-White или Line Art или 1-bit), а ТОЛЬКО в режиме серого (Greyscale, или 8-bit) или цветного (Color, или 32-bit) - если книга содержит цветные рисунки. Сканирование в чёрно-белом режиме приводит в итоге к необратимому ухудшению качества получаемой DjVu-эл.книги. Данный режим сканирования задаётся в интерфейсе сканера - т.е. в том окне, которое появляется после нажатия в программе кнопки "Сканировать".

3. Не сканируйте в формат JPG. Формат JPG "размывает" скан-изображения страниц книги.

4. Не используйте опцию "Заменять неуверенно-распознанные символы их изображениями" - когда создаёте Pdf-эл.книгу в ABBYY FineReader - такие эл. книги выглядят ужасно.

5. Сканируйте книги в формат TIF и с разрешением не менее 300 DPI. Для наиболее высокого качества сканируйте с разрешением 600 DPI.

Эта мини-инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать. Важно понимать, что существует немало апробированных методов создания достаточно качественных e-книг, все они характеризуются тем, что на выходе книга, как правило, научно-техническая, имеет разрешения 600 dpi ч/б (все книги в 300 dpi ч/б, несмотря на все старания создателей, явно проигрывают в качестве).

Рассматриваемая здесь метода, основана на сканировании в 300 dpi, в градациях серого (600 dpi ч/б будет после обработки). По этому поводу следует заметить, что уменьшение геометрического размера сырого скана в 4 раза, по сравнению со сканированием в 600 dpi, практически компенсируется увеличением глубины цвета в 8 раз (зато скорость сканирования возрастает в 2 раза ), а также уменьшением количества паразитного мусора (чистить практически не надо будет).

Беря в руки увесистую книгу, многие думают, что отсканировать ее может только маньяк. Совершенно верно, именно так. Без применения научно-организованного подхода, любая работа превращается в мучение, но, сделав работу незаметной, хоть большого удовольствия и не получишь, но дело сделаешь.

Для сканирования сгодится любая программа, способная взаимодействовать с TWAIN-драйвером сканера и сохранять отсканированные изображения на диск, нумеруя их удобным способом. Сойдет любой просмотровщик графических файлов: ACDSee, IrfanView, XnView… Если ваш сканер поддерживается программой сканирования VueScan, можете использовать и ее.

Например, в IrfanView (скачайте свежую версию этой бесплатной программы) это выглядит примерно так:
- В меню Файл жмем пункт Выбрать TWAIN-источник…
- Далее, там же, выбираем пункт меню Получить изображение/пакетное сканирование…

здесь выбираем, как будут нумероваться файлы сканов, где они будут складироваться и тип графического формата. Не забудем проверить Опции графического формата:

можно выбрать или Без сжатия или LZW (внимание, не все программы корректно с ним работают), в последнем случае размер файла на выходе будет примерно в два раза меньше. Можно, наверное, и ZIP, но это проверьте самостоятельно.
- жмем на кнопку OK и переходим в окно TWAIN Вашего сканера.

Сама техника сканирования незатейлива:
Берется книга, кладется разворотом (т.е. двумя страницами) на стекло, прижимается если надо сверху рукой (это быстрее, чем использовать груз).
Делается предварительное сканирование.
Картинка, если это возможно, в окне сканирования, разворачивается на 90 градусов (в нормальное положение).
Выбирается область сканирования с некоторым запасом, как правило по горизонтали (по вертикали трудно промахнутся).
Мышкой жмется кнопка основного сканирования.
После того, как данный разворот отсканирован, во время обратного движения каретки сканера, переворачиваем страницу книги, кладем на то же место и жмем опять на левую кнопку мыши (курсор ведь остался на кнопке сканирования), и так пока книга не кончится.

Т.е. идея проста, сканируем развороты вслепую. Этим достигаем максимальной скорости сканирования, которая ограничена только техническими характеристиками сканера, и полной свободы головы. Таким образом, во время сканирования, Вы можете заниматься многими другими вещами, да хоть кино посмотреть.

Небольших перекосов, отсканированных страниц, бояться не стоит, это будет исправлено при последующей обработке, но все же надо соблюдать аккуратность. Желательно всё ж таки серединку прижимать посильнее, исправление геометрических искажений строк здесь не будет рассмотрено.

Не забываем, что сканируем с разрешением 300 дпи и в градациях серого (greyscale), если будете сканировать в черно-белом режиме при 300 дпи, то просто потеряете время (хорошая книжка уже не получится).

На выходе этого этапа получаем так называемый сырой материал – файлы в формате tiff с разрешением 300 dpi в градациях серого, обычно размер каждого файла, без использования сжатия, составляет примерно 8 мегабайт (4 при LZW).

Скорость сканирования может достигать до 200 и даже более разворотов (400 страниц) в час, на сканере со скоростью 16 секунд на сканирование А4, т.е. сканирование среднестатистической книги, займет не более 2 часов времени! Ну, а если у Вас Plustek OpticBook 3600, то за час можно отсканировать более 500 страниц (250 разворотов).

Обычно первый и последний разворот книги содержат по одной странице. Ну, так и сканируем их по одной, т.е. все-таки придется сделать 3 предварительных сканирования на книгу .


Лично я раньше сканировал книги в формате tiff (CCITT Fax 4) 600 dpi ч/б. Приемлимо только для новых книг (белая бумага и чёткий текст и картинки).
У нас на работе инженерная машина (принтер/копир/сканер) только этот формат поддерживала. На данный момент аппаратуру обновили и сканирую только в tiff 600 dpi с оттенками серого или в цвете.
Повторюсь, что не надо сканировать в jpeg.
Самое лучшее - несжатый tiff в оттенках серого 600 dpi (чтоб по менее файлы весили можно использовать сжатие ZIP или LZW - потерь не будет).
В большинстве случаев хватит и разрешения 300 dpi при сканировании в формате tiff в оттенках серого.

Пересохранять файлы tiff с разным сжатием можно с помощью бесплатной программы Irfan View.

Многое зависит от качества бумажного оригинала.
По этому я и предлагаю для начала отсканировать из книги один лист/разворот и выложить в теме. Посмотрим на качество и сформулируем рекомендации для конкретного данного случая.

Жутко простая и жутко удобная программка на русском языке для обработки сканов Scan Tailor.
С хорошо сделанными сканами справляется на ура. Саму программу см. вложение scantailor-0.9.10-install.zip


Ссылка на программу СканКромсатор версии 5.91
Описание работы с программой СканКромсатор (ScanAndShare1.07, пдф-ка)
Полезныя ссылка на статью по поводу создания книг DJVU
Как сделать DJVU-книгу

Добавлено (февраль 2012).
По поводу внедрения текстового слоя (ссылку на статью убрал, ибо стала не рабочей).
Советую программу ABBYY FineReader 11.0. Открываем в ней книгу в формате DJVU, распознаём, сохраняем в DJVU (уже с текстовым слоем).
Раньше для внедрения текстового слоя приходилось использовать несколько программ, сейчас всё намного проще.

Ссылка на пост с программкой и инструкцией по её использованию для автоматического внедрения текстового слоя с помощью ABBYY FineReader 11.0 сразу в несколько книг (пакетная обработка). Благодарствие DEM
Сделать оглавление в книге можно легко с помощью Pdf & DjVu Bookmarker Просто попробуйте
Просьба. Если у кого есть в бумажном виде:
1) М.Я. Штаерман, А.М. Ивянский "Безбалочные перекрытия" 1953.
2) Голышев А. Б. и др. "Железобетонные конструкции" (часть I и часть 2) 2001
3) Железобетонные стены сейсмостойких зданий: Исследования и основы проектирования / под редакцией Г.Н. Ашкинадзе и М.Е. Соколова
Москва, Стройиздат, 1988

отсканируйте пожалуйста в хорошем разрешении (не менее 300 dpi) в tiff в оттенках серого.
На сайте уже есть эти книги, но не в очень хорошем качестве.

PPS: Самое основное и главное требование к сканам книг, которые вы делаете или будете делать и в дальнейшем выкладывать в общий доступ.
...
Делайте, как для себя.


http://djvu-spec.narod.ru
О том как правильно делать OCR в DJVU (FineReader 11)
Последний релиз Scantailor

Миниатюры
Нажмите на изображение для увеличения
Название: загрузка_1.jpg
Просмотров: 121847
Размер:	91.6 Кб
ID:	86765  Нажмите на изображение для увеличения
Название: загрузка_2.jpg
Просмотров: 120547
Размер:	95.5 Кб
ID:	86766  

Вложения
Тип файла: zip scantailor-0.9.11-32bit-install.zip (5.07 Мб, 1816 просмотров)

__________________
«Точно знают, только когда мало знают. Вместе со знанием растет сомнение». Иоганн Вольфганг Гете

Последний раз редактировалось Armin, 25.12.2019 в 06:25.
Просмотров: 2025037
 
Старый 12.03.2013, 20:50
#1281
Paladin


 
Регистрация: 07.03.2008
Сообщений: 107


Цитата:
Сообщение от Кочетков Андрей Посмотреть сообщение
Выкладывайте исходники - сделаю task для Кромсатора - покажу как DJVU делать.
много заливать.
если вам не трудно сделайте видео урок по обработке этой программой любых несколько низкокачественных картинок
Paladin вне форума  
 
Старый 12.03.2013, 21:43
#1282
eilukha


 
Регистрация: 10.09.2007
Сообщений: 10,592


Цитата:
много заливать.
- достаточно несколько характерных: с текстом и с картинками, это ж для эксперимента...
eilukha вне форума  
 
Старый 12.03.2013, 21:50
#1283
Кочетков Андрей

Java/Kotlin/Go
 
Регистрация: 03.02.2006
Сообщений: 5,787


Цитата:
Сообщение от Paladin Посмотреть сообщение
много заливать.
Выложите двадцать первых страниц (с обложкой и страницы с картинками)
Насчет видео не обещаю, но task настрою.
По нему можно будет понять какие параметры участвуют в обработке.
Кочетков Андрей вне форума  
 
Старый 13.03.2013, 12:38
#1284
Paladin


 
Регистрация: 07.03.2008
Сообщений: 107


Цитата:
Выложите двадцать первых страниц (с обложкой и страницы с картинками)
Насчет видео не обещаю, но task настрою.
По нему можно будет понять какие параметры участвуют в обработке.


http://yadi.sk/d/BsGt3HhK3FYDs
Paladin вне форума  
 
Старый 13.03.2013, 13:06
#1285
eilukha


 
Регистрация: 10.09.2007
Сообщений: 10,592


А почему иногда в СканТайлор появляется окно "Исправить DPI", что это значит?
eilukha вне форума  
 
Старый 13.03.2013, 13:09
#1286
PeterPeter

Горный Инженер
 
Регистрация: 23.02.2012
Москва
Сообщений: 94


Хочу пожаловать на принтер, на котором сканирую - HP LJ m5025. И на шапку данного форума с рекомендацией сканировать в tiff)) От сканировал несколько книжек, в тифф, а потом решил отсканировать в пдф, и обнаружил, что в пдф сканируется в оттенках серого, а в тифе в ч/б, который потом невозможно избавить от шумов! А пдф превращается, после обработки в почти идеальное изображение!

Образцы сканирования прикладываю...

Обидно то, что отсканировал в тиф одну очень ценную книгу (из читального зала библиотеки на выходные дали) и в итоге получил не максимум того что мог получить..
Вложения
Тип файла: zip образец.zip (6.69 Мб, 103 просмотров)
PeterPeter вне форума  
 
Старый 13.03.2013, 13:29
#1287
tankist

ЭПБ, обследование стр. конструкций
 
Регистрация: 09.10.2009
Сибирь
Сообщений: 2,659


PeterPeter это результат у тебя. Например FineReader выбираешь как сканировать, а потом в нужный формат сохраняешь.

Цитата:
А почему иногда в СканТайлор появляется окно "Исправить DPI", что это значит?
Разные dpi. По одному файлу исправляешь на одно, и файлы в проект загрузятся.
tankist вне форума  
 
Старый 13.03.2013, 14:14
#1288
Кочетков Андрей

Java/Kotlin/Go
 
Регистрация: 03.02.2006
Сообщений: 5,787


Цитата:
Сообщение от eilukha Посмотреть сообщение
А почему иногда в СканТайлор появляется окно "Исправить DPI", что это значит?
В TIF пишется (должно писаться) разрешение документа.
Если этой информации нет, то появляется запрос.
Цитата:
Сообщение от PeterPeter Посмотреть сообщение
а в тифе в ч/б, который потом невозможно избавить от шумов!
А как же п.2 шапки ? - Сканировать только в grey с сжатием LZW или ZIP )))
Кстати сжатие "Пушкина" - JPEG, что внесет дополнительные сложности в обработку.
Кочетков Андрей вне форума  
 
Старый 13.03.2013, 14:18
#1289
PeterPeter

Горный Инженер
 
Регистрация: 23.02.2012
Москва
Сообщений: 94


Цитата:
Сообщение от tankist Посмотреть сообщение
tankist
Я сканирую с принтера, на компьютер, через сеть. (на принтере укказываю, папку на компьютере, куда сканы сохранять и все).
Я лишь хотел услышать, это у меня так tiff выглядит, или он в принципе так должен выглядеть))

У меня нет, ч\б и оттенки серого, есть только ч\б и цветной. Хотя как в итоге оказывается пдф, он все таки делает в оттенках серого... (хотя так же называет его просто ч\б) На компьютере finereader нету.
PeterPeter вне форума  
 
Автор темы   Старый 13.03.2013, 15:13
#1290
Armin

Проектирование зданий и частей зданий
 
Регистрация: 12.06.2007
Екатеринбург
Сообщений: 3,042


Цитата:
Сообщение от PeterPeter Посмотреть сообщение
Хочу пожаловать на принтер, на котором сканирую - HP LJ m5025. И на шапку данного форума с рекомендацией сканировать в tiff)) От сканировал несколько книжек, в тифф, а потом решил отсканировать в пдф, и обнаружил, что в пдф сканируется в оттенках серого, а в тифе в ч/б, который потом невозможно избавить от шумов! А пдф превращается, после обработки в почти идеальное изображение!

Образцы сканирования прикладываю...

Обидно то, что отсканировал в тиф одну очень ценную книгу (из читального зала библиотеки на выходные дали) и в итоге получил не максимум того что мог получить..
В шапке.
Цитата:
Лично я раньше сканировал книги в формате tiff (CCITT Fax 4) 600 dpi ч/б. Приемлимо только для новых книг (белая бумага и чёткий текст и картинки).
У нас на работе инженерная машина (принтер/копир/сканер) только этот формат поддерживала. На данный момент аппаратуру обновили и сканирую только в tiff 600 dpi с оттенками серого или в цвете.
Повторюсь, что не надо сканировать в jpeg.
Самое лучшее - несжатый tiff в оттенках серого 600 dpi (чтоб по менее файлы весили можно использовать сжатие ZIP или LZW - потерь не будет).
В большинстве случаев хватит и разрешения 300 dpi при сканировании в формате tiff в оттенках серого.
Повторюсь. У меня на работе на старом агрегате также не было поддержки tiff в оттенках серого (был только jpeg в оттенках серого и то с ограничением в 400 dpi). Также можно было в PDF сканировать с оттенками серого (но опять же там jpeg был с хорошим сжатием (считай потерями)).
Поэтому новые книги сканировал в tiff 600 dpi ч/б, старые приходилось в jpeg 400 dpi сканировать с минимально возможным сжатием.
Что называется "на безрыбье и ...".

Прежде чем сканировать, рекомендую ознакомиться с характеристиками аппарата и его возможностями.
Лучше на официальном сайте производителя смотреть.
Цитата:
а в тифе в ч/б, который потом невозможно избавить от шумов!
Это откуда такое мнение сложилось? Просто на обработку таких сканов нужно побольше времени.
Предлагаю выложить несколько "замусоренных" сканов, я посмотрю, что можно сделать.

Цитата:
У меня нет, ч\б и оттенки серого, есть только ч\б и цветной.
Попробуйте поковыряться в настройках (айтишников своих потрясите).
Если есть возможность сканировать в цвете в tiff без сжатия или со сжатием без потерь LZW, тогда лучше в цвете сканировать.
Перевести в оттенки серого потом не проблема.

Цитата:
Цитата:
А почему иногда в СканТайлор появляется окно "Исправить DPI", что это значит?
Разные dpi. По одному файлу исправляешь на одно, и файлы в проект загрузятся.
В данном случае нужно поподбирать разрешение у неопределившихся файлов. Иначе размер страниц будет скакать (иногда в разы отличаться) и к одному размеру/формату страницы электронной книги будет не привести.
__________________
«Точно знают, только когда мало знают. Вместе со знанием растет сомнение». Иоганн Вольфганг Гете

Последний раз редактировалось Armin, 13.03.2013 в 15:51.
Armin вне форума  
 
Старый 13.03.2013, 15:58
#1291
PeterPeter

Горный Инженер
 
Регистрация: 23.02.2012
Москва
Сообщений: 94


В сообщении #920 я выкладывал книгу. Это худшее что у меня получалось (первая моя книга))), обрабатывал scantailor"ом. Сейчас отсканировал ещё одну, и вижу знакомое качество картинки, оказывается, да, как и в первом случаи сканировал в тифф. Сравнил с парой книг сделанных между ними, там сканировал в пдф, и только тогда осознал разницу))) А так, ещё "образец" я выложил парой сообщений выше, там оригинал, выходящего со сканера скана. Что с ним, можно сделать, что бы привести его к хорошему состоянию?
PeterPeter вне форума  
 
Старый 13.03.2013, 18:46
1 | #1292
tankist

ЭПБ, обследование стр. конструкций
 
Регистрация: 09.10.2009
Сибирь
Сообщений: 2,659


Цитата:
Сообщение от PeterPeter Посмотреть сообщение
обрабатывал scantailor"ом
Думаете много он там обрабатывает? Во вложении ваш pdf до обработки просто сохраненный в ч/б tif.
Вложения
Тип файла: rar из pdf в tif.rar (179.3 Кб, 88 просмотров)
tankist вне форума  
 
Автор темы   Старый 13.03.2013, 20:02
1 | #1293
Armin

Проектирование зданий и частей зданий
 
Регистрация: 12.06.2007
Екатеринбург
Сообщений: 3,042


Специально не сильно страдая ручной обработкой прогнал быстро в Spotlight Pro.
Весь мусор автоматом не удалился (точки и запятые тогда посносит в предложениях). Ну если зонами повыделять (рамкой поиграться несколько раз по странице) то и весь мусор можно снести. Просто времени на обработку уйдёт в разы больше, чем если сканы в оттенках серого обрабатывать.
СканТейлор тут уже не помощник.
Вложения
Тип файла: zip до и после обработки Spotlight Pro.zip (379.3 Кб, 58 просмотров)
__________________
«Точно знают, только когда мало знают. Вместе со знанием растет сомнение». Иоганн Вольфганг Гете
Armin вне форума  
 
Старый 13.03.2013, 22:37
#1294
PeterPeter

Горный Инженер
 
Регистрация: 23.02.2012
Москва
Сообщений: 94


Значит есть программы и мощнее чем ScanTailor? )))
Спасибо, за подсказку программы, посмотрим, что она из себя представляет.

А как в этом отношении ScanKromsator? В нем подкупает то, что можно картинки (фотографии) выделять, что бы он их не обрабатывал (хотя в той литературе, которой я хоть не много интересуюсь, картинок, почти нет). Но ради одной-двух, разбираться в новой программе на иностранном языке не очень хочется... Но если вы скажете, что она лучше устраняет шумы, готов ей заняться

И ещё, заметил что FineReader (в частности 11 версия) тоже обрабатывает сканы, и весьма не плохо.
Интересует вопрос, если пользоваться сразу несколькими программами, скажем, вначале файнридером, потом скантейлором, или ещё чем-то, будет ли в сумме эффект лучше чем, если использовать лишь одну программу?

Последний раз редактировалось PeterPeter, 13.03.2013 в 22:47.
PeterPeter вне форума  
 
Старый 14.03.2013, 00:12
1 | #1295
Кочетков Андрей

Java/Kotlin/Go
 
Регистрация: 03.02.2006
Сообщений: 5,787


Цитата:
Сообщение от PeterPeter Посмотреть сообщение
если пользоваться сразу несколькими программами, скажем, вначале файнридером, потом скантейлором, или ещё чем-то, будет ли в сумме эффект лучше чем, если использовать лишь одну программу?
Для хороших сканов достаточно СТ.
Для плохих сканов достаточно СК.
В отдельных случаях хороша связка Фотошоп + СК (как раз для Пушкина эта связка - на неделе покажу результат).

Для начала описание алгоритма обработки от Автора (ссылка на первоисточник):

Рекомендуется следующая последовательность обработки:
а) Включить двухэтапный режим (Process->Do not finalize).

б) Выполнить обработку всех файлов или любой группы файлов.

в) Рассчитать автоматически размер книги: Process->Calculate book size. Расчет выполняется мгновенно, кроме того, SK предложит задать пользователю группу выходных файлов, на основании которой выполнить расчет (all, current, selected и т.д.). В расчете участвуют только нефинализированные файлы. Рассчитанные значения помещаются в поля Book->Page width/height, тип размеров меняется на Fixed. Отмечу, что, как и в предыдущих версиях SK, пользователь может отказаться от автоматического расчета, и задать все значения вручную.

г) В окне View Result (VR) просматривается и проверяется правильность определения контуров контента. При необходимости размеры и/или положение контура корректируются. Если к моменту просмотра известны требуемые размеры книги (т.е. PageType=Fixed или None), то можно включить режим Book preview (кнопка с изображением раскрытой книжки в окне View result). В этом режиме перед отображением файла к контенту прибавляются поля, лишнее отрезается, и размер страницы подгоняется под заданный размер книги, с учетом выравнивания для каждой из страниц. Более того, не выходя из окна VR, можно командой контекстного меню Book properties вызвать специальный диалог, в котором разрешается менять значения размеров книги, полей, а также способа выравнивания для текущего файла. Можно тут же просмотреть, как это будет выглядеть применительно к текущему отображаемому файлу, и если изменения устраивают, применить их.

Визуальный контроль правильности контура может стать довольно утомительным занятием, поэтому предусмотрено несколько фич, чтобы облегчить задачу контроля: скрытие контента, сортировка выходных файлов по убыванию размеров контента, использование ленты TN для выходных файлов, аналогичной той, которая применяется в главном окне для показа исходных сканов. Рассмотрим эти фичи подробнее.

Предусмотрено 3 вида отображения контура для нефинализированных файлов:
- прямоугольник с желтой подсветкой внутренней области контента,
- прямоугольник без подсветки
- скрытие контента. В этом режиме не отображается все, что попадает в контент. Очень удобный режим для контроля за контурами, которые в результате обработки по каким-либо причинам оказались меньше действительных, т.к. пользователь видит на странице только то, что не попало в контур.
Смена способов отображения конура выполняется циклически при нажатии пробела.
Контроль контура удобнее производить, если дополнительно включить режим подсветки полей книги (Options->Show margins в контекстном меню окна VR). Опция доступна еще с версии 5.91, однако в текущей версии введена возможность отображать поля не только с помощью подсветки, но и с помощью обычного красного прямоугольника (Clear options->Misc->Book margins style).

В окно VR добавлен новый режим просмотра: thumbnail (наряду с существовавшими one page, two pages, zones и compare). В этом режиме окно разделено на 2 панели. В левой панели отображаются выходные обработанные файлы, в правой - выводится лента с уменьшенными изображениями всех выходных файлов. Иконки в TN загружаются по мере надобности и кэшируются только на время работы в окне VR.
В отличие от TN, используемой в главном окне, файлы в TN окна VR можно сортировать
- по ширине контента
- по высоте контента.
При указанных способах сортировки, проблемные файлы (т.е. с определенным неправильно контуром), если таковые имеются, окажутся, как правило, в начале списка. Для сортировки необходимо выбрать соответствующую команду из контекстного меню TN. Там же присутствует и ряд других команд:
- Load all images – для пред-загрузки всех выходных файлов в ленту. Операция в зависимости от количества файлов и мощности компьютера, может занять длительное время. Выводится индикатор загрузки, операцию можно прервать. Отмечу, что в ленту загружаются все выходные файлы, независимо от их статуса (финализированные, нефинализированные, некатегоризированные).
- Redraw image – для повторной загрузки текущей выбранной иконки, в случае, если соответствующий выходной файл подвергался изменению (редактированию или изменению размера/положения контента).
- Hide content (опция) – включает режим скрытия контента на иконках. Режим аналогичен такому же, который был описан выше, но применяется не в панели редактора изображения, а в ленте TN.
Имя каждого файла в ленте выводится под соответствующей иконкой. Цвет, которым выводится имя, несет справочную информацию: зеленый цвет означает финализированный файл, бордовый – нефинализированный, черный – некатегоризированный.
Страницы в ленте TN отображаются с учетом режима Book preview.
Как и в главном окне, синхронизация между редактором и лентой TN односторонняя. При выборе файла в ленте файл загружается в редактор. Чтобы перейти в ленте к файлу, отображаемому в редакторе, необходимо в контекстном меню левой панели выбрать команду Show thumb image.

д) Финализация. Доступна финализация как для всех обработанных файлов, так и для группы (all, current, selected т т.п.). Выполняется по команду Process->Finalize. Финализацию можно также выполнять непосредственно в окне VR для текущего отображаемого файла.

Небольшой FAQ:

Вопрос 1. Для всех ли файлов в окне VR отображается контур контента?
Ответ: нет, только для нефинализированных. Кроме того, контур не показывается для файлов, у которых выключена опция Automargins или включена опция Special->Ignore gaps, а также для страниц, которые в процессе обработки распознаны как пустые.

Вопрос 2. Какую опцию нужно включить, чтобы в окне VR включить отображение контура контента?
Ответ: Это не требуется. Отображение контура включается автоматически для всех нефинализированных файлов.

Вопрос 3. Всегда ли возможно использовать двухэтапный режим?
Ответ: нет, двухэтапный режим недоступен в двух случаях:
- когда выходной формат файлов – PDF
- когда включена опция Merge after split. Напомню, что данная опция начиная с версии 5.9 больше не поддерживается, в частности, в этом режиме не гарантируется правильная работа с зонами.

Вопрос 4. Поддерживает ли двухэтапный режим прерывание задания с последующим его возобновлением?
Ответ: да. Как и ранее, можно прерывать задание с сохранением промежуточных расчетов в skt-файл.

Вопрос 5. Можно ли выполнить финализацию файла непосредственно в окне VR?
Ответ: да. Используйте команду контекстного меню Finalize page.

Вопрос 6. Можно ли при работе с заданием комбинировать двухэтапный режим с обычной обработкой?
Ответ: да. Например, сначала все задание обрабатывается и финализируется. При последующем отключении двухэтапного режима пересчет отдельных файлов можно выполнять сразу же, без контроля контуров. Но это не рекомендуется.

Вопрос 7. Можно ли в двухэтапном режиме выполнять обработку только текущего или группы файлов?
Ответ: да.

Вопрос 8. Что будет происходить при финализации, если среди выходных файлов имеются Uncategorized-файлы, finalized-файлы, а также если выходной файл отсутствует?
Ответ: Если в диапазоне файлов, для которого выполняется финализация, какой-либо выходной файл отсутствует, то соответствующий ему исходный файл обрабатывается по полной программе, т.е. как Uncategorized. Наоборот, уже финализированные файлы пропускаются. В случае, если выходной файл является uncategorized, поведение обработчика зависит от значения опции File->Options->Processing->Finalize uncategorized out-files. Если значение опции равно «Skip» (по умолчанию), то такие файлы пропускаются (не обрабатываются), при значении «Reprocess» исходный файл обрабатывается по полной программе.

Вопрос 9. Сохраняется ли информация о контуре контента в spt-файл?
Ответ: Да, сохраняется для non-finalized файлов. Это позволяет выполнять обработку за несколько сеансов работы SK. Для uncategorized-файлов такая информация отсутствует. Отсутствует она и для finalized-файлов, т.к. становится уже ненужной.

Вопрос 10. Допускается ли выполнять редактирование (пост-процессинг) нефинализированных файлов в окне VR?
Ответ: В настоящей версии - нет. Можно работать только с контуром. Но разрешено редактировать зоны, если таковые имеются (в режиме Zones).

3. В Grey enhance добавлен новый фильтр – Unsharp mask. Фильтр выполняет селективное повышение контурной резкости. При задании малых параметров фильтра его можно применять для любых сканов, однако наилучший эффект проявляется в случае с нечетким или размытым текстом, вызванным дефектами сканирования (неплотное прилегание скана к стеклу и т.п.). Фильтр UM довольно сильный, но в запущенных случаях (очень сильное размытие или расфокусировка) малоэффективен.
Фильтр UM можно задействовать в одной из двух точек общей последовательности обработки: либо непосредственно перед фильтрами Background clean/Correct illumination, либо сразу же после них.
Если размытости на скане носят локальный характер, то имеет смысл вместо глобального UM-фильтра воспользоваться новым типом зоны – Unsharp-зоной. Как и в случае глобального UM-фильтра, параметры UM-зоны отображаются в окошке Grey enhance при выделении зоны. Для быстрого вызова соответствующей закладки окошка достаточно дважды щелкнуть мышкой внутри UM-зоны.

III. Прочее

1. Закладка Color свойств picture-зоны переименована в Paint.

2. Для picture-зон добавлена возможность задания закругления углов. Опцию можно задать как для всех углов зоны, так и выборочно для любого угла. Закругление может быть круглым или эллиптическим. Радиус(ы) задаются либо непосредственно вводом значения, либо путем выделения в окошке preview зоны ограничивающего закругление прямоугольника и нажатия кнопки с изображенным на ней указательным пальцем. При этом величина стороны выделенного прямоугольника присваивается радиусу закругления. Опция Post-process контролирует, когда будет выполняться закругление: в процессе обработки или в режиме просмотра результатов по специальной команде пользователя (Special->Round corners). Последний вариант применяется, если сначала требуется изменить размеры зоны в пост-обработке, и только потом применить закругление. Физически закругление реализуется путем очистки закруглений белым цветом и задания для них полной прозрачности. Помните, что радиусы закруглений задаются в пространстве исходного скана! Если для зоны выполняется изменение dpi, то реальные значения радиусов SK скорректирует пропорционально выполненному ресэмплингу.

3. В окне VR в режиме Zones для редактора зон доступны следующие команды:
- Special -> Round corners.
- Special -> Invert. Инвертирует изображение.
- Special -> Draw frame. Рисует текущим цветом по периметру выделения рамку заданной толщины. Если выделение отсутствует, рамка рисуется вокруг всего изображения. Значение толщины рамки задается в специальном поле, расположенном в панели редактирования. Если для зоны задано закругление, то рамка рисуется с учетом него.

4. Из окна VR можно вызвать внешнее графическое приложение, чтобы выполнить в нем редактирование файла зоны. Список таких приложений задается в гл. окне File ->Options -> Apps. Предусмотрено задать до трех внешних утилит. Для каждого приложения задается краткое наименование (в дальнейшем оно будет выводиться в контекстном меню редактора зон) и полный путь к исполняемому файлу. На время работы во внешней программе работа SK полностью блокируется. Во внешних приложениях разрешается не только редактировать зону, но и изменять ее размеры и dpi. После закрытия приложения измененный файл автоматически обновляется в окне VR SK. Чтобы отменить сделанные изменения, достаточно дать команду Undo. Важно: если зона непрямоугольная или имеет прозрачные области, то они будут аннулированы в случае, если внешняя программа изменила размеры файла.

5. В File->Options->Save новая опция: Default folder for new task. Определяет папку по умолчанию для сохранения вновь созданного задания. Может принимать три значения:
- spt in scan’s folder – задание сохраняется в подпапке “spt” папки со сканами (подпапка создается автоматически);
- scan’s folder – задание сохраняется в папке со сканами;
- applications folder – задание сохраняется в папке c исполняемым файлом SK.

6. Импорт PDF. Добавлена поддержка pdf, использующих JPG2000-сжатие, а также сжатие FAX4 с опцией alignbyte. Поддержка pdf, содержащих изображения с различными dpi по вертикали и горизонтали.
В окошке настроек PDF Import новый параметр Do not use zones. При активной опции, если на странице pdf имеется несколько изображений, то они импортируются как отдельные файлы, а не как зоны.
Исправлен баг, при котором в ряде случаев на импортированных изображениях присутствовали протяженные красные области.

7. Исправлен баг при обработке зон, для которых включен Denoise-фильтр. Баг заключался в утечке памяти, что после кромсания одного-двух десятков зон приводило к сообщению о нехватке ресурсов и аварийному завершению обработки.

8. Исправлено много мелких багов

=======================================================

Теперь конкретно по Пушкину (буду писать кусками, как время будет):

У исходника есть ряд недостатков:
1. Сжатие JPEG.
Без дополнительной подготовки это приведет к возникновению мусора и неровным краям букв при обработке за счет следующего недостатка.


2. Цвет перемычек практически совпадает с цветом фона и артефактами JPEG.
Это приведет к тому, что при простой бинаризации, либо перемычки пропадут, либо буквы станут недопустимо жирными вплоть до потери читаемости при одновременном замусоривании изображения.

3. Низкое разрешение исходника.
Это не проблема, если сжатие файла - без потерь, bicubic resample в СК и все будет хорошо, но сжатие JPEG усугубляет проблему.

Конкретно для этих исходников предлагаю следующую обработку:
(Это общее и грубое описание, чтобы практически показать, что надо делать. Опций в СК Очень много и они не всегда очевидны, например действия могут модифицироваться клавишами Ctrl и Alt, дополнительные опции кнопок по ПКМ и др.)

Исходник:


1. Облегчаем работу СК по вытягиванию бледных перемычек.
Для этого делаем для Фотошопа скрипт, который каждую картинку ресемплит до 600 dpi с обязательным применением режима Bicubic (smoother). Обрабатываем автоматически все картинки с сохранением результата в TIFF с LZW сжатием (!!!). Или любой другой без потерь, не JPEG.


2. Обрабатываем изображение в СК.
2.1. Загружаем файлы в СК (можно drag&drop).
2.2. Запускаем черновую расстановку резаков (кнопка с ножницами = Draft kromsate = DK).
2.3. Корректируем положение резаков при необходимости (точной установки не требуется, главное, чтобы за их пределами остался крупный мусор: поля, пальцы, карандашные заметки). Навигация по списку файлов клавишами Q и W. Ссылка по резакам.
2.4. Настраиваем опции обработки.
Идем по вкладкам:

Page: ничего не трогаем, при необходимости ставим галку на Split (если обрабатываем разворот, DK в большинстве случаем сам корректно ставит эту галку).

Book: не трогаем.

Files:
TIFF G4FAX Compress
DPI Original (для наших ресемплированных файлов, если обрабатываете 300 dpi, то ставите 600 dpi)
Color B/W

Options:
Resample filter: Lanczos3
Despecle: Fine+Normal

Binarization:
Low dark (подбираете экспериментально)

Quality:
Enhance image - галочку
Grey enhance - нажать кнопку
Окно Grey image enhance:

Вкладка Background cleaner - мощнейший инструмент для очистки фона. С помощью него мы будем вытягивать бледные перемычки.
Cleaner passes = 1
Protect black pixels - галочку
Correct low contrast - галочку
Sensitivity = 30 (подбираете экспериментально, чем больше значение, тем выше порог срабатывания)
Ignore light pixels - снять галочку
Enable - галочка

Вкладка Contrast.
Auto-levels - галочка

Вкладка Sharpen.
Группа Sharpen.
Radius = 2
Passes = 2
Enable - галочка

Сохраняем задание.
Запускаем обработку кнопкой Process!

Результат:

Обратите внимание на слово "кончен" в первой строке: конкретно на перемычки в буквах "н" и сравните с исходником, в котором эти перемычки обозначены лишь намеком, совпадая по цвету с артефактами JPEG вокруг букв. Однако СК их вытянул.

По зонам позже расскажу.

Последний раз редактировалось Кочетков Андрей, 20.03.2013 в 23:01.
Кочетков Андрей вне форума  
 
Старый 16.03.2013, 17:06
#1296
ekspert

ЭПБ и ОБС промзданий
 
Регистрация: 09.02.2012
Барнаул
Сообщений: 650


Уважаемые гуру, обработайте
Справочное пособие ИД 32.2008 к перечню СК-1 "Нормативные, методические документы и другие издания по строительству"

Последний раз редактировалось ekspert, 17.03.2013 в 13:35. Причина: удалил ссылку
ekspert вне форума  
 
Старый 16.03.2013, 18:17
#1297
tankist

ЭПБ, обследование стр. конструкций
 
Регистрация: 09.10.2009
Сибирь
Сообщений: 2,659


Цитата:
Сообщение от ekspert Посмотреть сообщение
Уважаемые гуру, обработайте
Справочное пособие ИД 32.2008 к перечню СК-1 "Нормативные, методические документы и другие издания по строительству"
Зачем сканировал? Попросил бы, выложил.
Цитата:
Сообщение от ekspert
Странный вопрос "зачем"
Хватит меня троллить. В соседнюю комнату организации зашел бы и спросил у меня.
Offtop: Р.s. на скане голограмму с номером не закрыл на ИД 32.2008 нашей организации . Инкогнито не получилось.
Вложения
Тип файла: djvu Справочное пособие ИД 32.2008 .djvu (1.07 Мб, 201 просмотров)

Последний раз редактировалось tankist, 18.03.2013 в 16:10.
tankist вне форума  
 
Старый 17.03.2013, 13:39
#1298
ekspert

ЭПБ и ОБС промзданий
 
Регистрация: 09.02.2012
Барнаул
Сообщений: 650


Цитата:
Сообщение от tankist Посмотреть сообщение
Зачем сканировал? Попросил бы, выложил.
Странный вопрос "зачем". Спасибо Вам tankist за помощь!!!
ekspert вне форума  
 
Старый 19.03.2013, 01:22
#1299
Smarts23

инженер ПГС
 
Регистрация: 03.03.2009
Воронеж
Сообщений: 426
Отправить сообщение для Smarts23 с помощью Skype™


А.Н. Динник. Устойчивость арок. 1946 г.
Выкладываю по просьбе
Если есть желающие, можно сделать DJVU.

http://www.ex.ua/view_storage/675747074753

Последний раз редактировалось Smarts23, 19.03.2013 в 14:06. Причина: заменил ссылку на обменник
Smarts23 вне форума  
 
Старый 19.03.2013, 08:02
#1300
Кочетков Андрей

Java/Kotlin/Go
 
Регистрация: 03.02.2006
Сообщений: 5,787


Цитата:
Сообщение от Smarts23 Посмотреть сообщение
Выкладываю по просьбе
А ссылка?
Кочетков Андрей вне форума  
Ответ
Вернуться   Форум DWG.RU > Поиск литературы, чертежей, моделей и прочих материалов > Ваши сканы, наша обработка и перевод в DJVU.