|
||
| Правила | Регистрация | Пользователи | Сообщения за день | | Поиск | | Справка по форуму | Файлообменник | |
|
![]() |
Поиск в этой теме |
|
||||
В строительном проектировании с 05.10.2004 Регистрация: 01.05.2008
Новосибирск
Сообщений: 5,219
|
Цитата:
некоторые замечания: - файл получился тяжеловат, не только в смысле хранения на диске, но и в случае просмотра какието 100 страниц и более 8мб получилось - товарищи в скантейлоре выравнивают текст на страницах безусловно OCR это очень удобно |
|||
![]() |
|
||||
КМ Регистрация: 06.07.2010
Севастополь
Сообщений: 302
|
Довольно простенький текст, но ФР справился хорошо. Вот только перенос на следующую строку производит как попало. Не на всех узлах распознан текст, как таковой. Формул нет в примере(хотя, может, это и не критично).
Т.е. все равно, без вычитывания не обойтись => как с этим бороться? Вычитывать, и потом, по месту, вручную корректировать (исправлять ошибки и выделять не распознанные как текст фрагменты)? Ну и да, тяжеловато для 103 стр. Думаю, дежавю по скорости сопоставим в плане распознавания? Если не сложно, проведите на своем железе те же операции, только в дежавю. |
|||
![]() |
|
||||
Регистрация: 29.07.2004
Сообщений: 48
|
Цитата:
Цитата:
Цитата:
Обработка (без какой либо предобработки) в FR-11 и выгонка в формат djvu + OCR заняла 197 сек. Из них загрузка – 71 сек, выгон – 75 сек. Размер итогового файла - 8.296 МБ (с OCR) Уменьшаю разрешение до 300 dpi и сохраняю постранично в bmp ч/б Загружаю все получившиеся файлы в DjVu Solo 3.1 – 93 сек Кодирую в djvu – 545 сек !!!! и получаю итоговый файл 7.514 Мб (без OCR) Вывод: по сравнению с Solo Файнридер очень шустрый. Большой размер итогового файла зависит, скорее, не от используемой программы, а от свойств самого исходника – много графики. Или еще что, не знаю. Для «старичка» Solo пока вижу, что особых преимуществ специализированный кодировщик не имеет, скорее наоборот.
__________________
------------------ Админ Весьбетона Последний раз редактировалось Сергей Ружинский, 04.03.2012 в 13:06. |
|||
![]() |
|
||||
Java/Kotlin/Go Регистрация: 03.02.2006
Сообщений: 5,786
|
Надо только учесть, что данный файл изначально высокого качества и его не надо предварительно обрабатывать.
В противном случае +2 часа ))) Последний раз редактировалось Кочетков Андрей, 04.03.2012 в 15:21. |
|||
![]() |
|
||||
Оснащение проходки горных выработок, ПОС, нормоконтроль, КР, АР Блог Регистрация: 30.01.2008
Ленинград
Сообщений: 19,380
|
Не забудьте, что дежавю - временный формат на период около ещё 10 лет. Потом разработают программы для распознавания и все ваши дежавю сделают в ворде или ПДФе со всеми формулами и картинками автоматически правильно.
Сам считаю, что файнридер пока несовершенен. Вот лет через 10 может быть. А про дежавю + текстовый слой забудьте. Это вы сейчас порвёте себе все места исправляя текст, а через 5-10 лет ваши труды окажутся напрасными. Делайте обычный дежавю. Хорошо если хоть оглавление со ссылками будет, думаю больше и не надо...
__________________
"Безвыходных ситуаций не бывает" барон Мюнхаузен |
|||
![]() |
|
||||
Проектирование зданий и частей зданий Регистрация: 12.06.2007
Екатеринбург
Сообщений: 3,042
|
Цитата:
__________________
«Точно знают, только когда мало знают. Вместе со знанием растет сомнение». Иоганн Вольфганг Гете Последний раз редактировалось Armin, 04.03.2012 в 18:38. |
|||
![]() |
|
||||
В строительном проектировании с 05.10.2004 Регистрация: 01.05.2008
Новосибирск
Сообщений: 5,219
|
Цитата:
это другое руководство, более позднее |
|||
![]() |
|
||||
Проектирование зданий и частей зданий Регистрация: 12.06.2007
Екатеринбург
Сообщений: 3,042
|
Пощупал ABBYY FineReader 11.0
И в правду удобно. Открыл DJVU, распознал, сохранил в DJVU с текстовым слоем. Всё в одной программе. + сейчас FR можно пользовать для сборки (допустим *.tiff) в DJVU. Т.е. исключается несколько программ-посредников. Для создания качественной книги в DJVU, для примера, понадобится: Offtop: Естсественно при надлежащем качестве сканов. Scan Tailor (или ScanKromsator) + FineReader 11 + DjVu HyperLinks Editor. Исключается пара программ в цепочке: кодировщик в DJVU и "внедритель" текстового слоя. Нанесение дополнительного текста и различного рода штампиков с помощью графического редактора не рассматриваю (тут на любителя). С DjvuOCR, как посредником, было работать не очень удобно. Разбивка на отдельные tiff -> распознание FR -> обратная сборка в DJVU с текстовым слоем. К тому же у меня проблемы были с внедрением текстового слоя распознанного 10-ой версией FR (не стал глубоко копать, может решаемо). С текстом, распознанным 8-ой версией FR проблем не было. Касаемо технической литературы. Рчная корректировка текстового слоя (вычитка) - не имеет смысла в связи с огромными затратами по времени + греческие буквы, формулы, таблицы и пр. Особое внимание содержанию/оглавлению (и то в плане цифр - номеров страниц), дабы автоматом потом гиперссылки сделать. + много источников ненадлежащего качества. При грамотном распознании, тогда лучше формат PDF (с изначальном компьютерным качеством (распознанный текст, формулы, таблицы + картинки) на выходе), без вариантов. В DJVU смысл пропадает. Сергей Ружинский У тебя "глубокое" или "поверхностное" распознавание стоит в настройках FR? Что-то время как-то мало ушло на это дело.
__________________
«Точно знают, только когда мало знают. Вместе со знанием растет сомнение». Иоганн Вольфганг Гете Последний раз редактировалось Armin, 05.03.2012 в 09:55. |
|||
![]() |
|
||||
Регистрация: 29.07.2004
Сообщений: 48
|
Цитата:
Я специально указал конфигурацию компа. Дело в том, что FR-11 оптимизирован под многоядерные многопотоковые процессоры, поэтому загрузка у меня идет в 8 потоков (12-18% загрузки ЦП), распознавание – 8 потоков (95-100% загрузки ЦП) сохранение в djvu – почему-то идет только в 4 потока с 12% загрузкой. Поэтому у меня лимитирующим по времени процессом является именно этап сохранения. На Форуме ABBYY этот вопрос поднимал, понял, что они в курсе, понимают где тормозит на сохранении в djvu и, наверное, в следующих версиях будут улучшать. Кроме того, вместо штатной ReadyBoostr в W7 установлен eBoostr и 8 Гб ОЗУ к нему – тоже сильно ускоряет все, но цифирь точно не мерил. Винт тоже шустрый. Комп в указанной конфигурации был специально куплен под узкую задачу – перегона всей Библиотеки в «djvu + OCR» поэтому Вы сильно на мои цифры не ориентируйтесь. Вывод из всего этого – чем больше потоков (не ядер!!!) у проца – тем лучше для FR. i7 (4 ядра, 8 потоков) однозначно лучше чем i5 (4 ядра, 4 потока) переход с i3 (2 ядра, 4 потока) на i5 не несет никаких особых выгод в плане быстродействия. Так думаю, но не уверен. Еще, FR всех версий выжимает из проца все соки, поэтому он сильно греется, куллер идет на взлет. Короче будьте внимательны к охлаждению. Уже несколько лет изначально качественное сканирование при помощи «OpticBook 3600» исключило у меня потребность в крайне трудоемкой предобработке (Scan Tailor, ScanKromsator) а оставшийся минимум предобработки выполняю в самом FR. Качество распознавания FR наилучшее при 300 dpi серое. При большем/меньшем dpi качество распознавания ухудшается! У ранних версий (FR-8) была очень замечательна функция «нераспознанное сохранять как картинку». Я с помощью этой функции очень быстро делал идеального качества книги без всякой предобработки. Единственный недостаток был – все равно требовалась вычитка т.к. FR уж слишком умничал, а нужно было всего-то немножко «загрубить» его оценку «распознанное/неуверенно распознанное». Просьбы к ABBYY в этом вопросе успехом не увенчались, ответы были уклончивые. Я так понимаю они просто опасаются обрушить рынок программ предобработки. Scan Tailor, ScanKromsator а также их зарубежные платные аналоги становятся не нужными т.к. при помощи FR становится возможным в полностью автоматическом режиме векторизировать 95-98% даже технического текста.
__________________
------------------ Админ Весьбетона Последний раз редактировалось Сергей Ружинский, 05.03.2012 в 11:56. |
|||
![]() |
|
||||
Проектирование зданий и частей зданий Регистрация: 12.06.2007
Екатеринбург
Сообщений: 3,042
|
Обработал, выложенную в Dоwnload книгу.
Бондаренко В.М., Римшин В.И. Примеры расчета железобетонных и каменных конструкций Москва, 2006 Порезал на страницы, выровнял, привёл к одному формату, немного подправил качество. Короче пропустил через Scan Tailor. Формат DJVU ч/б 400 dpi. Добавил текстовый слой.
__________________
«Точно знают, только когда мало знают. Вместе со знанием растет сомнение». Иоганн Вольфганг Гете Последний раз редактировалось Armin, 09.03.2012 в 12:42. |
|||
![]() |
|
||||
ЭПБ, обследование стр. конструкций Регистрация: 09.10.2009
Сибирь
Сообщений: 2,656
|
Конечно. Напечатать на виртуальном принтере например Microsoft Office Document Image Writer Driver . В свойствах печати принтера выбрать нестандартную бумагу (Letter) и высоту на 1 см меньше сделать чем страница, и перед печатью убрать масштабирование и разместить в центе. Далее переводите в дежавю.
|
|||
![]() |
|
||||
Moderator
Конструктор (машиностроение) Регистрация: 23.10.2006
Россия
Сообщений: 23,257
![]() |
Цитата:
![]() |
|||
![]() |
|
||||
ЭПБ, обследование стр. конструкций Регистрация: 09.10.2009
Сибирь
Сообщений: 2,656
|
Это как бы подсказка, как первоначальный документ без полей получился при печати из программы, и такие документы с полями не выкладывали.
Последний раз редактировалось tankist, 08.03.2012 в 10:10. |
|||
![]() |
|
||||
В строительном проектировании с 05.10.2004 Регистрация: 01.05.2008
Новосибирск
Сообщений: 5,219
|
|
|||
![]() |
|
||||
Moderator
Конструктор (машиностроение) Регистрация: 23.10.2006
Россия
Сообщений: 23,257
![]() |
Armin, а можно обратную задачу решить, из Djvu сомнительного качества сделать Tiff хорошего качества?
![]() http://www.avral.ru/6a7161651bcc585d920053d167862ce3 |
|||
![]() |
|
||||
Проектирование зданий и частей зданий Регистрация: 12.06.2007
Екатеринбург
Сообщений: 3,042
|
Цитата:
Файл попорчен сжатием в DJVU. Изначально был в оттенках серого и сжатием, как сканированного (с уменьшением кол-ва цветов, размытием и пр.), его попортило. Если бы было сжатие foto, то менее бы попортило (размерчик, правда, у DJVU был бы намного больше). Тоже самое, что ч/б сканы 300 dpi обрабатывать, либо теже 300 dpi многоцветные в оттенках серого без сжатия (с плавынм переходом от чёрного к белому).
__________________
«Точно знают, только когда мало знают. Вместе со знанием растет сомнение». Иоганн Вольфганг Гете |
|||
![]() |