Нужна помощь в обработке сканов документации

FAQ, мануалы, полезные ссылки
dk_spb
Advanced Member
Сообщения: 6619
Зарегистрирован: 16.09.2009,20:25

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение dk_spb » 11.07.2020,15:03

Скопилось много документации, в планах всю её отсканировать и выложить на сайт oldpc.su/lib
Но не всегда хватает времени на обработку сложных сканов.
Ищу безвоздмездную помощь ;-)

1) имеется документация БОСИИ-1024
Сканировал не я. Документация в наличии, какие-то части можно пересканировать.
В результате хотелось бы получить pdf или djvu размером до 5 (ну может до 10) Mb. Хотя требования по размеру очень условны.
Черно-белый или оттенки серого. Большие страницы склеить в одну.
Исходники сканирования тут (2,2 Gb) http://oldpc.su/7/BOSI.rar

2) Том документации по НАИРИ (вот отсюда http://oldpc.su/lib/docs/nairi/)
Исходники разбил на три части (всего 1,1 Gb):
http://oldpc.su/7/2/1.rar
http://oldpc.su/7/2/2.rar
http://oldpc.su/7/2/3.rar
У коллеги, который мне помогал сканировать и обрабатывать, получилось вот так http://oldpc.su/7/2/11.pdf
Но мне совсем не нравятся страницы 6,7,14 и т.д.
Может кто справится получше сделать?

Аватара пользователя
Takedasun
Advanced Member
Сообщения: 3640
Зарегистрирован: 16.10.2013,18:07
Откуда: Керчь

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение Takedasun » 11.07.2020,20:08

dk_spb писал(а): 11.07.2020,15:03 У коллеги, который мне помогал сканировать и обрабатывать, получилось вот так http://oldpc.su/7/2/11.pdf
Но мне совсем не нравятся страницы 6,7,14 и т.д.
Вполне нормально получилось.
Маловероятно, что можно будет сильно улучшить качество, если конечно не корпеть над одной страницей в фотошопе по одному часу.

Что Вам там не нравится?

Еще посоветую, параллельно сканы выкладывать на Archive.org. Там будет выше вероятность, что это уцелеет для потомков.

dk_spb
Advanced Member
Сообщения: 6619
Зарегистрирован: 16.09.2009,20:25

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение dk_spb » 11.07.2020,20:26

Коллеги, очень прошу: флейм из серии "и так сойдёт", "а кому это надо", "я не знаю как надо, но Вы делаете это неправильно" исключить.
Как и советы. Если готовы помочь с обработкой - велкам. Если негде пофлудить - найдите, пожалуйста, другую тему.
Модераторов прошу поддержать

dk_spb
Advanced Member
Сообщения: 6619
Зарегистрирован: 16.09.2009,20:25

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение dk_spb » 11.07.2020,20:31

Takedasun писал(а): 11.07.2020,20:08 Вполне нормально получилось.
Получилось плохо, потому как трешолд в ч/б взят средний для всех страниц. И на некоторых страницах из-за этого идёт потеря нужной информации.
Нужно либо отказываться от ч/б, либо некоторым страницам менять трешолд.
Про часы и годы в фотошопе - не комментирую

Аватара пользователя
AksTis
Advanced Member
Сообщения: 371
Зарегистрирован: 15.03.2017,12:14
Откуда: ru
Контактная информация:

Нужна помощь в обработке сканов документации

Сообщение AksTis » 11.07.2020,22:26

Доки босии отвратительны. Напечатанный на машинке текст очень плохо перекукоживается в дежавю. Его как не мучай, а всё равно дрянь мутная выходит. Если хочется красоты, то проще заново всё сверстать.

А вот доки наири вполне не плохи. Посидеть пару-тройку вечеров фотошопе, выровнять странички, подчистить сущности, исправить косяки печати и сканирования, и выйдет конфетка.

С наскока набросал 5 листов. Единственная беда это первый лист. Он отвратителен, ибо опять же он из под печатной машинки. В остальном дежавюха выходит чёткая. Могу заняться наири. Но не сегодня. И не завтра. И возможно даже не через неделю. Но если не к спеху, то ... за пол года точно управлюсь :biggrin:
А бабушка EGA сошла с ума ...

dk_spb
Advanced Member
Сообщения: 6619
Зарегистрирован: 16.09.2009,20:25

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение dk_spb » 11.07.2020,22:33

Срочности никакой нет. И совсем идеал не нужен, главное чтобы без потерь.

>Доки босии отвратительны
Такая "розовая/бежевая" документация всегда для оцифровки ужасна. Но в другом виде такой документации нет :-(

Аватара пользователя
Кай
Почётный пользователь
Сообщения: 19738
Зарегистрирован: 08.08.2010,21:44
Откуда: СПб, Ульянка-Лигово
Контактная информация:

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение Кай » 11.07.2020,23:17

Такая "розовая/бежевая" документация
"Синька" она называется. Результат работы копировального устройства РЭМ/ЭРА.

ЗЫ: Я бы пересканировал.

Аватара пользователя
AksTis
Advanced Member
Сообщения: 371
Зарегистрирован: 15.03.2017,12:14
Откуда: ru
Контактная информация:

Нужна помощь в обработке сканов документации

Сообщение AksTis » 12.07.2020,11:26

dk_spb писал(а): 11.07.2020,22:33 Такая "розовая/бежевая" документация всегда для оцифровки ужасна.
Тут не в цвете дело. Текст от печатной машинки он всегда нечёткий, с грязью от ленты, с непропечатанными буквами, и тд. Если в оригинале его читать вполне комфортно, даже с учётом всяких шероховатостей, то после перекукоживания в дежавю он, иной раз, становится просто нечитаемым. От некоторых букв остаются только точки/узелки по углам, другие буквы сливаются в кляксу, третьи просто исчезают. Ещё и "жирнота" букв скачет постоянно. Читать подобное очень некомфортно.
Вот пример из наири:
► Показать
На мой взгляд djvu для печатного текста категорически не подходит.
Как вариант, белые чистые страницы можно попробовать кодировать не как текст, а как картинку. Но с розово-бежевыми такое наверное не очень красиво смотреться будет.

В общем я не знаю как БОСИИ сделать хорошо. А сделать плохо и без меня получится.

А вот НАИРИ займусь.
А бабушка EGA сошла с ума ...

dk_spb
Advanced Member
Сообщения: 6619
Зарегистрирован: 16.09.2009,20:25

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение dk_spb » 12.07.2020,11:33

>На мой взгляд djvu для печатного текста категорически не подходит.
Ну так пусть будет pdf

Аватара пользователя
AksTis
Advanced Member
Сообщения: 371
Зарегистрирован: 15.03.2017,12:14
Откуда: ru
Контактная информация:

Нужна помощь в обработке сканов документации

Сообщение AksTis » 12.07.2020,16:38

Наири
Лист 11. 6367 х 12 — Я так понимаю точка там есть? Должна быть но стёрлась?
Лист 12. 6377 х 32 — Точка чего такая жирная? Это клякса просто брак печати? Заменить на нормальную? Или в её жирноте какой-то тайный смысл?
И кстати
Лист 6. 6263 х 8 — Чего точка такая с ровной дыркой? Особенная какая, или опять брак печати? Закрасить?
А бабушка EGA сошла с ума ...

dk_spb
Advanced Member
Сообщения: 6619
Зарегистрирован: 16.09.2009,20:25

Вклад в сообщество

Нужна помощь в обработке сканов документации

Сообщение dk_spb » 13.07.2020,12:07

AksTis, Наверное я всё-таки не ясно выразился. Задача получить из сканов pfd или djvu без явной потери информации.
Задачи редактирования сканов нет. Тем более если редактирование основано на субъективном "мне кажется что тут была точка"

>Лист 11. 6367 х 12 — Я так понимаю точка там есть? Должна быть но стёрлась?
Скан очень достоверно передаёт содержание страницы. Предлагаю ничего не дорисовывать

>Лист 12. 6377 х 32 — Точка чего такая жирная? Это клякса просто брак печати? Заменить на нормальную? Или в её жирноте какой-то тайный смысл?
В оригинале именно так. Авторы документации недоступны, спросить не у кого. А какой вообще смысл заменять!?!?!?! Почему так как есть не оставить?
Если в оригинале жирная, зачем сознательно искажать информацию, меняя на обычную?

>Лист 6. 6263 х 8 — Чего точка такая с ровной дыркой? Особенная какая, или опять брак печати? Закрасить?
Опять же, почему не оставить так как есть? зачем сознательно искажать информацию?
dk_spb писал(а): 11.07.2020,15:03 Но мне совсем не нравятся страницы 6,7,14 и т.д.
Это страницы по нумерации в итоговом 11.pfd. Те места, по которым Вы спрашиваете у меня никаких вопросов не вызывают, их не надо редактировать.

Еще раз: не надо редактировать сканы, сознательно внося путаницу. Задача максимально соответствовать оригиналу. Я думал что для проблемных страниц надо всего лишь поменять трешолд (который сейчас одинаковый для все страниц). Дорисовывать что-то исходя из того что нам с Вами показалось так, а не иначе - это путь вникуда.
Простой пример. в http://oldpc.su/7/2/11.pdf страница 14 (лист 12) чуть выше середины смотрится ужасно. Но в исходниках 1_013.tiff всё вполне читабельно.
Как мне кажется надо только поиграть с контрастностью. А редактировать то что и так нормально читается и соответствует оригиналу совсем не нужно.

Ответить