|
||
| Правила | Регистрация | Пользователи | Поиск | Сообщения за день | Все разделы прочитаны | Справка по форуму | Файлообменник | |
![]() |
Поиск в этой теме |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Круто. Всё с кнопочками и как надо
Можешь код на с++ из класса DocProps взять. Он собирает нужные данные по файлу Хотя на с# некоторые моменты будет проще написать. Например дату и время изменения файла Код:
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением Последний раз редактировалось iliorik, 21.06.2024 в 12:30. |
|||
![]() |
|
||||
КЖ; C# Регистрация: 03.11.2005
Санкт-Петербург
Сообщений: 2,611
|
Цитата:
И есть куда развиваться, т.к. имя файла, дата изменения и CRC32-IEEE - маловато =) Вкус приходит во время еды... У себя я сделал, что парсятся титульники, штампы всех листов внутри пдф-ки и на основе полученных данных формируются графы таблицы: шифр, наименования, характера работ, ФИО исполнителей (на картинке я фамилии руками заменил на ###) и все остальное... |
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Цитата:
----- добавлено через ~4 мин. ----- Цитата:
Пока что хочется какой то более универсальный инструмент разработать. Что бы правой кнопкой мышки на файл нажал, выбрал нужный пункт в контекстном меню, и рядом появился ИУЛ (при этом независимо, есть ли microsoft или нет)
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением |
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Цитата:
Но если нужно будет, при помощи с++ считать такое из файла значит тоже не сложно будет. Главное понять как эти метаданные сохранены в pdf
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением Последний раз редактировалось iliorik, 21.06.2024 в 14:35. |
|||
![]() |
|
||||
Инженер-философ Регистрация: 24.04.2019
Хабаровск
Сообщений: 2,069
|
По устройству PDF есть краткое руководство от авторов: https://www.adobe.com/technology/pdf...DFTutorial.pdf. Это если есть желание свой PDF-писатель с нуля сделать, чтобы ни от кого не зависеть.
Но скорее всего, есть готовые библиотеки для чтения/записи. Писать с нуля какой-нибудь код упаковки Deflate или zip - это совсем для мазохистов. Под шарп я использовал https://itextpdf.com/, (тут и тут) под плюсы не подскажу, надо гуглить. С датами у меня на прошлой работе техотдел всех тренировал, еще до того, как это стало государственным геморроем. Даты смотрели кто попало и где попало. Одним подавай в свойствах файла, другим внутри PDF. Были даже случаи, когда даты по-разному округлялись в разных программах из-за спорных микросекунд, и техотдел заставлял переделывать PDF, потому что "даты неправильные, тут одна минута написана, а у файла целых две". Очевидно, в программе придется сделать настройки на несколько экранов, что делать с датами - заменять, унифицировать, рандомизировать и т.д. по списку всех возможных идиотских предложений. |
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Цитата:
Цитата:
Цитата:
Опять же, несколько раз просмотрел ГОСТ 2.051-2013. Про даты ни слова ни полей не нашёл. Описали бы какие даты имеются ввиду. Откуда эти даты вообще в ИУЛ пришли?
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением |
|||
![]() |
|
||||
Инженер-философ Регистрация: 24.04.2019
Хабаровск
Сообщений: 2,069
|
Как и все в программировании. Легко написать программу, которая делает что-нибудь простое. Например, записывает PDF с ИУЛом. Потому что для этого надо реализовать 0.01% от всех возможностей формата. Но если надо прочитать файл, который записал кто-то еще, надо реализовать 100% формата. Программа, записывающая минимальный файл, пишется за день-другой. Программа, читающая произвольный файл - за 10-20 лет.
Я, когда с техотделом воевал, вручную парсил: в Far Manager открывал, и заменял теги ModifyDate, CreateDate, MetadataDate (примеры этих тегов по ссылке выше есть). Но внутри файла могут лежать пожатые объекты и хз что еще. Парсить упаковку из нескольких форматов сжатия в нуля из принципа - дурная затея. А без этого программа никак не даст гарантии, что она все исправила. Единственное легковесное решение - генерить ИУЛ; как писать тексты и рисовать линии, в учебнике показано. Но потом же туда надо будет фамилии вставлять, или сканы подписей - и пойдет история развития программы годы наматывать. |
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Цитата:
Наверное что то попроще есть, в плане того что бы красивые линии и тексты делать в pdf, считывать метаданные pdf разделов проекта и смотреть на титульный лист.
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением Последний раз редактировалось iliorik, 21.06.2024 в 17:59. |
|||
![]() |
|
||||
Инженер-философ Регистрация: 24.04.2019
Хабаровск
Сообщений: 2,069
|
Делать в pdf можно без подготовки, если нужно просто записать файл фиксированного формата с нуля. Там достаточно несколько строк подставить в шаблон:
Код:
|
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Вот поэтому я думаю, что без нейросетей не обойтись. Подключить OCR, и при помощи нейросетей, обучить извлекать из титулов и штампов всю нужную информацию.
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением |
|||
![]() |
|
||||
Инженер-философ Регистрация: 24.04.2019
Хабаровск
Сообщений: 2,069
|
Следующие темы будут называться:
|
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Согласен, так бы и было. Но это никому не интересно на данном форуме, поэтому таких тем не будет.
Тут только crc32 для ИУЛ думаю обсуждать. Когда напишу что то работающее по вытягиванию информации из pdf (если напишу, может надоест и брошу всё это), тогда выложу с новой темой. А потом увяжу две программы между собой, и будет счастье. Пока в части ИУЛ вижу только создание (или редактирование готовых) RTF документов по клику правой кнопкой мышки. Такая принципиальная концепция моей программы, минимум действий для определённого результата, при этом не должно быть привязок к стороннему ПО (типа Microsoft Word) Пока задача была кликнуть по файлу и потом через Ctrl+v вставить код CRC32 в нужное поле.
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением |
|||
![]() |
|
||||
Регистрация: 10.08.2013
Сообщений: 11,499
|
даже если умудритесь написать программу, которая учитывает все организационную "рукожопость" многих проектных организаций - то они (организации) просто начнут еще больше "косячить") Никогда исправление ошибок за других не приводило к уменьшению количества ошибок...
|
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Мне вот даже интересно. Если я вижу ошибки, и что должно было быть, может ли нейросеть это тоже увидеть? Мы же как то видим, что что то не так..
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением |
|||
![]() |
|
||||
Регистрация: 10.08.2013
Сообщений: 11,499
|
не факт - "правильность" того или иного варианта решения вещь достаточно субъективная:
|
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Ну например, взглянув на титульный лист, мы сразу понимаем где название объекта, где название раздела, где фамилия исполнителя, и где наименование организации (я понимаю что это очень непростая процедура будет в плане нейросетей).
Результат конечно субъективный, но он не отличается от тысячи других субъективных результатов.
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением |
|||
![]() |
|
||||
Регистрация: 10.08.2013
Сообщений: 11,499
|
|
|||
![]() |
|
||||
Регистрация: 03.10.2009
Сообщений: 733
|
Я всё равно пойму где название объекта, а где название раздела. И даже фамилию от названия организации отличу.
А такой pdf с разделом документации я отправлю обратно, с вопросом, что это, и как по этому строить в РФ
__________________
Черточки и точки на плоскости - лишь посредник между идеей проекта и его физическим воплощением |
|||
![]() |