| Правила | Регистрация | Пользователи | Сообщения за день | | Поиск | | Справка по форуму | Файлообменник | |
|
Поиск в этой теме |
|
||||
геолог Регистрация: 30.01.2016
КМВ
Сообщений: 148
|
|
|||
|
||||
строительная наука и практика Регистрация: 12.09.2008
Минск, Беларусь
Сообщений: 868
|
Цитата:
Тяжеловаты для обоих форматов, много мусора осталось, но читабельно, даже графиками можно пользоваться при желании. pdf https://yadi.sk/i/O6nZTwTA3W77vG djvu https://yadi.sk/i/XRvdgekQ3W77ri Если наши гуру возьмутся, у них получше выйдет. |
|||
|
||||
геолог Регистрация: 30.01.2016
КМВ
Сообщений: 148
|
|
|||
|
||||
Регистрация: 10.09.2007
Сообщений: 10,592
|
Цитата:
Вот пример распознавания формул из Вашего файла: Цитата:
|
|||
|
||||
геолог Регистрация: 30.01.2016
КМВ
Сообщений: 148
|
Согласен, pdf чуть лучше чем в djvu. Но хотя бы поддается редактированию
Последний раз редактировалось andriadi, 18.05.2018 в 11:05. Причина: добавление |
|||
|
||||
Регистрация: 10.09.2007
Сообщений: 10,592
|
- чем? Ваш вариант с одним томом справочника Кузнецова в пдф весит сколько же сколько три тома в джвю при равном качестве.
- что? Последний раз редактировалось eilukha, 18.05.2018 в 11:30. |
|||
|
||||
Регистрация: 10.09.2007
Сообщений: 10,592
|
Понуканий не было, думал обменяться опытом.
|
|||
|
||||
Динозавр на пенсии Регистрация: 23.03.2005
Сообщений: 932
|
Оформление трех толстых томов в один - маразм! Т. к. затрудняет оперативный поиск нужной информации! Не нужно путать электронный документ с бумажным.
О распознании формул. Сегодня профессиональное распознание математических формул средствами OCR - нереально! Из личного опыта: и при переводе формул из специализированного редактора MathType 5.Х на язык MathML (Mathematical Markup Language) получается много ошибок в части распознания функций (зависит от личных настроек пользователя) и символов, плюс человеческий фактор при наборе выражений в MathType 5.Х... Много ручной работы! Просто, профессиональное оформление мат. формул позволяет выполнять программно расчеты непосредственно в текстовом редакторе MS Word (после 2007-го).
__________________
Динозавр здравого смысла... |
|||
|
||||
Регистрация: 10.09.2007
Сообщений: 10,592
|
- при наличии OCR (и соответственно полнотекстового поиска), а так же при наличии ссылочного оглавления с точностью до наоборот. Т. к. не надо думать что и в каком томе находится, а просто за раз поиском найти нужное (и по смежным темам) в во всех трёх томах. Либо наглядно пройтись по главам в структуре ссылочного оглавления.
- профессиональнее это делать в маткаде. Последний раз редактировалось eilukha, 18.05.2018 в 17:17. |
|||
|
||||
Динозавр на пенсии Регистрация: 23.03.2005
Сообщений: 932
|
Цитата:
Профессиональнее в текст вставлять картинки вместо "распознанных" формул! Предпочитаю делать "сложные расчеты" в MS Excel (без VBA) и вставлять таблицы в MS Word(т. н., ручной расчет)!
__________________
Динозавр здравого смысла... |
|||
|
||||
Регистрация: 10.09.2007
Сообщений: 10,592
|
- причина сему тут. Никакой кропотливой работы или вычитки для качественного ОСR не требуется.
|
|||
|
||||
Динозавр на пенсии Регистрация: 23.03.2005
Сообщений: 932
|
Цитата:
Предпочитаю на предварительном этапе делать только постраничное распознание (FR 11) аннотации и оглавления книг со всеми техническими и математическими символами и хранить в отд. вордовских документах. Очистка текста осуществляется при помощи собственных макросов... При работе со сканами книг этот файл, по мере необходимости, пополняется фрагментами текста и т. п. Систематизированная, под себя, электронная библиотека насчитывает более 2000 томов (лень считать).
__________________
Динозавр здравого смысла... |
|||
|
||||
геолог Регистрация: 30.01.2016
КМВ
Сообщений: 148
|
Вот пример как человек работал в FR 8:
Прменительно к этому файлу. Распознавал в FineReader 8. На этапе задания зон распознавания удалил все зоны картинок и во всех текстовых зонах, куда попадали формулы с потенциальными проблемами в распознавании, менял границы зон с тем, чтобы вывести эти формулы за пределы зоны (работа ручная и геморройная). Далее распознал то что осталось и исправил все ошибки распознавания (работа тоже ручная, но не такая геморройная, т.к. сканы были качественные и чистые). |
|||
|
||||
Регистрация: 10.09.2007
Сообщений: 10,592
|
Цель наложения OCR - поиск по тексту, а также копирование текста из текстовых областей. Наличие в OCR неверно распознанных нетекстовых областей (формулы и картинки) не мешает достижению обоих целей, а лишь увеличивает размер файла на несколько килобайт (для большой книги).
Хорошо было бы автоматически удалить все нетекстовые области распознавания, которые FR ошибочно принял за тестовые, но такой функции нет. Отчасти помогает автоматический поиск и удаление символов подобных этим: ~`@#$^&|<>+= (которые обычно появляются когда FR принимает нетекстовую область за текстовую и пытается её распознать). |
|||
|
||||
Регистрация: 28.04.2018
Беларусь
Сообщений: 169
|
Сделал закладки оглавления на книгу отсюда https://dwg.ru/dnl/3217
|
|||
|
||||
Регистрация: 28.04.2018
Беларусь
Сообщений: 169
|
Не нашел здесь в pdf, буду делать оглавление, но не сегодня-завтра, поэтому выложу пока что есть. Качество отличается от djvu на сайте.
Справочник конструктора. Стальные конструкции 2010 - Будур Заменил на файл с закладками Последний раз редактировалось poobschatso, 01.07.2018 в 12:32. |
|||