Lib.Ru: : Проблемы OCR и электронных библиотек

Список форумов | Добавить сообщение | Правила | 30.11.2024, суббота, 18:11:24

30.11.2024
16:20 Главная гостевая книга библиотеки(3693)
24.11.2024
16:42 "Разыскиваются книжки", доска объявлений(15475)
20.11.2024
11:47 Обо всем - мнения(3131)
07:16 Русские впечатления о заграничной жизни(9431)
01.10.2024
13:10 Проблемы OCR и электронных библиотек(1967)
09.09.2024
04:35 Книжки, которые скоро будут выложены(47)
06.05.2024
02:06 О возвышенной поэзии(1568)
02.02.2024
15:33 Книжки, которые стоит прочитать(5187)
12.11.2023
00:25 Мнения читателей о дизайне библиотеки(1478)

Lib.Ru

Проблемы OCR и электронных библиотек: Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.
А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]

СООБЩЕНИЯ ЗА 13.10.2002

1. Максим Мошков, Москва 13:16:51 [ответить]
Пожалуй, общее обсуждение проблем OCR лучше перенести сюда, оставив форум "Книги, которые будут выложены" только для размещения списков обрабатываемых книг и синхронизации работы.

СООБЩЕНИЯ ЗА 19.10.2002

4. V.Voblin, 05:25:30 [ответить]
Вот problema, например.

Новая книга Терри Пратчетта.

Часть текстов написана фигурным, о~ень нестандартным шрифтом "Hebrew Condensed".

Этот шрифт латинский, но стилизован под еврейский. Человек прочтёт его легко. OCR-у гораздо труднее.

У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.

НО!

Эти куски текста - особым шрифтом - это маленькие вставки в основной текст, набранный обычным Times New Roman. Поэтому процесс обучения, ккоторому юзер имеет доступ, происходит очень медленно и коряво. Отпадает желание так тяжело пахать ради одной книжки.

Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.

Файнридер всё прекрасно делает, когда речь идёт о трёх главных фонтах - Times, Arial, Courier. Они распознаются независимо от размера букв и сохраняются в выходном файле.

Внимание, вопрос.
Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?

СООБЩЕНИЯ ЗА 23.10.2002

5. bmn, 08:25:48 [ответить]
> 4. V.Voblin.

> У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
У меня FR5.0 без обучения нормально распознает декоративные шрифты. Тк что у тебя, скорее всего, проблема с FR.

> Вдобавок - даже если и делаешь эту работу - после OCR исчезает особость этого шрифта в выходном файле. Ведь OCR не знает, что точнёхонько такой же фонт установлен в моих Windows.
Компьютер штука тупая ему все указывать надо. Выделяй эти фрагменты прямо в FR ручками, тогда он их нормально сохранит.
>
> Внимание, вопрос.
> Нет ли в Файнридере (скрытой?) фичи - обучение распознаванию на основе дополнительного фонта TTF, а не набора "пиксельных" трафаретов одного размера ?
А вот этого нет.

СООБЩЕНИЯ ЗА 27.10.2002

6. В.Воблин, (vvoblin@hotmail.com) 11:35:44 [ответить]
> 5. bmn.

Спасибо за ответ.

> > У ФайнРидера вроде есть механизм распознавания шрифтов и даже возможность обучения новому шрифту.
> У меня FR5.0 без обучения нормально распознает декоративные шрифты.

Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.

СООБЩЕНИЯ ЗА 28.10.2002

7. bmn, 08:53:05 [ответить]
> 6. В.Воблин.
> Спасибо за ответ.
Да, пожалуйста :))
>
> Хочу тоже попробовать. ПОдскажите, пожалуйста, о каких декоративных шрифтах идёт речь. Может, даже есть картинка в онлайне, на которой можно "прокатать" FR с целью воспроизвести Вашу ситуацию. Спасибо заранее.

Шрифт, по моему, назывался Bodoni Gothic (сейчас уже точно не помню), и сканов уже не осталось. Но FR без обучения распознал кнгу набранную полностью таким шрифтом.

СООБЩЕНИЯ ЗА 01.11.2002

8. Remnanta, Одесса (remnanta@ukr.net) 21:24:57 [ответить]
Ваша librari - просто чудо!!!
Но наладте "поиск".Пожалуста!!!!!!!!!!!!!!!!

СООБЩЕНИЯ ЗА 02.11.2002

9. V.Voblin, 18:43:13 [ответить]
Замечательные новые тексты:

Сергеев-Ценский, Айрис Мэрдок, Болеслав Прус, Юрий Герман - чудесно!

Спасибо Максиму, спасибо героям OCR-a Zmiy & HarryFan!!!

СООБЩЕНИЯ ЗА 05.11.2002

10. Thick-as-a-brick, (toomanyfaces@mail.ru) 21:36:14 [ответить]
Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню

КАКОЙ СКАНЕР ВЫБРАТЬ.

Сканировать планшетным сканером - нереально, имхо. Я бы хотел купить какой-то сканер с фидером и при помощи его сканировать книжки в мягкой обложке предварительно распотрошив их на отдельные страницы.

Или м.б. есть принтеры со сканирующей головкой, способные читать из пачки страниц.

Какие есть мнения?

СООБЩЕНИЯ ЗА 09.11.2002

11. Григорий, 14:23:20 [ответить]
> 10. Thick-as-a-brick.
> Уже давно хотел бы заняться сканированием книг, особенно на инстранных языках, которые по понятным причинам очень трудно найти в инете, но не заню
>
> КАКОЙ СКАНЕР ВЫБРАТЬ.
>
> Сканировать планшетным сканером - нереально, имхо.
Очень даже реально. Тысячи метров текста пересканированы именно планшетными сканерами. Да весь lib.ru отсканирован планшетными. Нереально сканировать сканером с автоподачей, как вы предлагаете. Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.

>
> Какие есть мнения?

12. Максим Мошков, 14:48:35 [ответить]
Лучший сканер для OCR книг - HP ScanJet II - чернобелый, 300dpi, со SCSI-интерфейсом. Я один такой покупал за 30$. Увы, на 500-й книжке он скончался.

Главное, на что надо смотреть - максимальная скорость прохода, ускоренный обратный ход (чтоб назад каретка двигалась быстрее, чем при сканировании), возможность отключить автоподбор яркости (отнимает много времени на каждой странице) и чтобы ФИнеРеадер знал эту модель и мог работать с ней сам, не вызывая твейн-интерфейс. И обязательно SCSI - перекачка kartinki через USB и _особенно_ через LPT - существенно дольше, чем по SCSI.

HP ScanJet II сканировал со скоростью 4 разворота в минуту - т.е. 500-страничная книжка за час-полтора.
Фидер не нужен, потому что собственно скорость сканирования - 1-2 часа, по сравнению с остальными затратами времени (2-4 часа на полуавтоматический спеллчек и корректуру, и 12 часов на вычитку) - непринципиальны.

Конкретные удовлетворительные модели народ, надеюсь, назовет.

13. Максим Мошков, 14:53:33 [ответить]
> 11. Григорий.
> Нереально сканировать сканером с автоподачей

Очень даже реально. У Леона такой, с автоподачей - он хвастался - книжка в мягкой обложке - за 23 минуты.

> Вопрос цены. Стоимость хорошего промышленного сканера заоблачна во всех смыслах.

Не заоблачна. Всего 20-30 тысяч долларов.
Хотя, конечно, это побольше, чем 100$ за обычный планшетник.

14. Thick-as-a-brick, (toomanyfaces@mail.ru) 16:32:10 [ответить]
Ну зачем же сразу - промышленный :)

У нас на прежней работе был сканер с фидером, но забыл какой. Но стоил он разумеется не 20 тыс.

Меня бы устроил принтер со скан. головкой до 300-500 долл.
Сканировать на планшетном не хочу. Пробовал. И долго и страницы плохо раскрываются, вследствие чего текст кривой и распознается плохо. И времени нет.

А вот при сканере с фидером скорость не важна. Поставил, включил и иди чай пить. Пусть хоть всю ночь сканирует.

15. Zmiy, Минск (zmiy@inbox.ru) 22:46:12 [ответить]
Вопрос ко всем :
Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?

У меня Mustek 1200CU (USB). Цена до 70$. Скорость 200 стр. в час (100 разворотов).
За время обратного хода я успеваю переворачивать страницы, а если будет 500 стр. в час - так ить запыхаться можно переворачивать-та... --------------:-)

Я видел один сканер со SCSI, так оно вешало всю машину на время передачи данных. Мне не понравилось...
В цену SCSI-сканера войдет еще и стоимость SCSI-карточки...
Я против потрошения книг. ------------;-) Книжка то может быть чужая...
Я сканю и распознаю сразу, чтоб видеть ошибки распознавания и соответствующе корректировать яркость...
Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)

16. Thick-as-a-brick, (toomanyfaces@mail.ru) 23:30:21 [ответить]
> 15. Zmiy.

> Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
> Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)

1. Книжки в мягкой обложке (e.g. Penguin, Bantam) трудно раскрыть на 180 град. А если это толстый роман на достаточно плотной бумаге - вообще невозможно. И после одного прочтения такие книжки практически теряют "товарный вид". Так что, имхо, рЭзать и только рЭзать. Не жалко.

2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)

А вот такой вопрос -

При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 ошибок на страницу? Т.е. можно ли без вычитки обойтись?

СООБЩЕНИЯ ЗА 10.11.2002

17. Григорий, Ярославль 00:48:16 [ответить]
> 15. Zmiy.
> Вопрос ко всем :
> Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?

Сейчас основные сканеры:
Mustek 12000 SP Plus (SCSI) скорость сканирования А4 (300дпи) примерно 30 сек. С учетом обратного хода - чуть больше разворота в минуту. Тк. медленный обратный ход. Зато недорого.
Acer 640S (SCSI) - проход - чуть быстрее, откат быстрый. Гасит лампу.

Замечательны (из опробованных планшетников) старые Хьюлеты - 4c например. 15-20 сек сканирование 10 - обратный ход. Гасит лампу при обратном ходе - тоже плюс. Только не достать их теперь.

Совершенно глупо использовать дорогие с высокой цветопередачей сканеры. Они перед каждый проходом греют и калибруют лампу.
Вывод - чем дешевле (проще) - тем лучше.
SCSI - быстрее чем USB. Правда, такой вывод только на основании личного опыта.

> У меня Mustek 1200CU (USB). Цена до 70$. Скорость 200 стр. в час (100 разворотов).

Быстро. Меняю представление о ЮСБ.

> Я сканю и распознаю сразу, чтоб видеть ошибки распознавания и соответствующе корректировать яркость...

Корректирую яркость только в начале сканирования и меняю только в случае, если вижу, что качество печати меняется. Распознаю пакетно. По ночам. Правда после выделения блоков - просматриваю. Особенно если стихи. Бывает такое запилит...

> Как понимать Thick-as-a-brick "страницы плохо раскрываются"??? Уточни...
> Как понимать Thick-as-a-brick "И времени нет"??? --------------;-) Компьютер-то и так занят... (если он один...)

18. Григорий, Ярославль 00:57:29 [ответить]
> 16. Thick-as-a-brick.

> 2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)

А новости смотришь - и переворачиваешь. Вот тебе и час. :)

>
> А вот такой вопрос -
>
> При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости

> - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 >ошибок на страницу? Т.е. можно ли без вычитки обойтись?

Весьма и весьма туманное определение.
Газетная бумага и 10-ка шрифт?
Тогда, если вкраплений на бумаге нет ошибок немного. 1-2 на страницу. При качественной офсетной печати и не глянцевой бумаге - ошибок _практически_ нет вообще. В реальности это менее 1 на 10 разворотов. Но такое бывает редко.

Без вычитки конечно обойтись можно. Но такие поделки на бестлибрари даже просматривать противно. Лучше уж никак.
Потому маньяки вроде нас и существуют как вид, что контролировать все равно должен человек.

19. Zez, (anatoly52@hotmail.com) 11:41:20 [ответить]
Уважаемый г-н Мошков!
Зачем выкладывать невычитанные книги?
Заглянул в "Назову себя Гастенбайн" Макса Фриша, появившийся
в библиотеке 9-го ноября, так текст совершенно не вычитан и
полно ошибок.Читать этот текст все равно никто не станет -
невозможно, так зачем выкладывать.
Да, хотел спрсить когда мои тексты у Вас появятся, а то мне
кажется что я книги для самого себя сканирую.
Спасибо за внимание.

20. Zmiy, Минск (zmiy@inbox.ru) 12:27:38 [ответить]
> 16. Thick-as-a-brick.
>
> 1. Книжки в мягкой обложке (e.g. Penguin, Bantam) трудно раскрыть на 180 град. А если это толстый роман на достаточно плотной бумаге - вообще невозможно. И после одного прочтения такие книжки практически теряют "товарный вид". Так что, имхо, рЭзать и только рЭзать. Не жалко.

Ну, если это книшки в мягкой обложке, да еще клееные, а не сшитые тетрадками, то да - кошмар. У мя одна такая распотрошеная до сих пор лежит (моя - не чужая ----------:-) )...
Хотя, вот сканил таких два тома Станюковича по 450 стр. - так не порвались и отлично сканились (там клея достаточно наложили, что листы не отрывалис...).

>
> 2. Ну не хочу я еще и после работы час или два страницы перед компом переворачивать. Лучше уж блины на сковородке :) (Да и комп не один)

А вот это, батенька, называется ЛЕНЬ! --------------;-)

>
> А вот такой вопрос -
>
> При распознавании обычной книги на англ., к примеру, - простая верстка в один столбец, без иллюстраций, на бумаге средней серости, шрифтом средней мелкости - СКОЛЬКО ОШИБОК БУДЕТ НА СТРАНИЦУ? Одна на 10 страниц или 10 ошибок на страницу? Т.е. можно ли без вычитки обойтись?

Книжка-книжке рознь! Бывает книги на одинаковой бумаге, а начнешь сканить - на одной без ошибок, а на другой - море...
Поэтому - как повезет...

21. Zmiy, Минск (zmiy@inbox.ru) 12:38:34 [ответить]
> 18. Григорий.
> Без вычитки конечно обойтись можно. Но такие поделки на бестлибрари даже просматривать противно. Лучше уж никак.
> Потому маньяки вроде нас и существуют как вид, что контролировать все равно должен человек.

А вот я признаюсь - я не вычитываю книжки... -------------;-)
У меня своя методика "вычитки", основанная на правилах русского языка и на выявленных недостатках FR, который может сделать "в бой пошли тапки и самолеты" и при проверке пропустит эту лажу...
Было вычитано чтением где-то около 5 книг, где книжки были просто в ужасном состоянии и методика не прошла...
По крайней мере у мя качество вычитки намного лучше большинства тутошних (интернетных) текстов. Хотя и у меня есть ошибки...
Тем более, что я брал несколько инетных текстов, да и после вычитки других тоже, и проверял по своему варианту - ошибки тоже были... Все таки когда читаешь, да еще захлебом что-нить интересное, то ошибки не замечаешь и пропустишь... Сложно и вникать в текст и проверять ошибки...
(Для тех, кто пробовал - про AfterScan говорить не будем -------------;-) )

22. Григорий, 15:08:53 [ответить]
> 21. Zmiy.

> У меня своя методика "вычитки", основанная на правилах русского языка и на выявленных недостатках FR, который может сделать "в бой пошли тапки и самолеты" и при проверке пропустит эту лажу...

А можно поделиться с общественностью ╚методикой╩?
Я предпочитаю читать вообще. В смысле - и не скучно и польза, и для души. Размеренно вчитываюсь в каждое слово, особо не торопясь.
Чистым просмотром обрабатываю только те, которые надо сделать, а читать либо невыносимо, либо нет никакого желания. А стихи все равно приходится полностью вручную, постоянно сверяясь с оригиналом.
А FR, особенно четвертый, можно использовать в качестве генератора ╚гэгов╩.
Как, например, такое ╚осеняя себя крестным знамением из церкви выбежали нацисты╩.
Были конечно ╚паписты╩.

23. Zmiy, Минск (zmiy@inbox.ru) 22:17:00 [ответить]
> 22. Григорий.
> А можно поделиться с общественностью ╚методикой╩?

Ну-у... Если чуть-чуть... -------------;-)

Я обрабатываю текст в FARе в формате TXT. Написал несколько программ и плугинов к FARу...
После FR сохраняю в TXT причем в вариантах с делением на строки и без деления, и сразу же ищу по тексту " - это мусор (кавычки обычно ╚ и ╩), далее одна из прог по этим двум текстам, анализируя их, делает один текст DOS-кодировки, где исправляются некоторые слияния знаков препинания, удаляются лишние пробелы, корректируются абзацы (поэтому два TXT) и др.
Далее по картинкам проверяю ВСЕ абзацы, объединяю страницы, делаю отступы глав, оформляю сноски... Вот самое нудное - проверка абзацев - ну вот FR все равно или склеивает их или разделяет, что ты с ним не делай... Хотя анализ из двух TXT немного исправляет это дело, но все же не все варианты...
Далее проверка текста. Один из плугинов по горячей клавише останавливается в том месте редактора, где есть какая-нить неопределенность в тексте. Тут проверяются знаки препинания (какие возможны, а какие нет - варианты типа .., не пройдут!); буквы искаженные в цифры или в англ.буквы; мусор из не-букв (типа &*%); слова неправильно распознанные и пропущенные FR при проверке (типа па, пего, опа, тапки, руной ... - уже 1000 слов таких насреблос); слова с больших букв (тоже "фича" от FR); после .!? новое предложение должно быть с большой буквы; слова с тире до/после слова; искажения типа "о вместо но, или "ад вместо над; а и но должны обычно после запятой; и др.
Другой плугин с небольшой прогой используется для поиска пропавших/искаженных точек/запятых и искаженных первых букв слова (по словарю проверяет текст - обычные слова с большой буквы только после .!? и т.д.).

Вот... Все как есть выложил... ----------------:-)
По крайней мере качество на уровне обычной вычитки получается...

СООБЩЕНИЯ ЗА 11.11.2002

24. Григорий, Ярославль 01:46:19 [ответить]
> 23. Zmiy.
> > 22. Григорий.
> > А можно поделиться с общественностью ╚методикой╩?
>
> Ну-у... Если чуть-чуть... -------------;-)
>
> Я обрабатываю текст в FARе в формате TXT. Написал несколько программ и плугинов к FARу...

> Вот... Все как есть выложил... ----------------:-)
> По крайней мере качество на уровне обычной вычитки получается...

Думал над чем-то таким же...
Но пришел к выводу, что раз все равно контроль человеческий нужен, то в качестве облегчителя работы использую только свору банальных поисков\замен наработанных. Кстати, фирменная "штучка" ФР - большие буквы - проявляется только при наличии маломальского перекоса страницы >2', и затрагивает только буквы Э и З. По крайней мере у меня.

СООБЩЕНИЯ ЗА 12.11.2002

28. Кир Санов, Кемерово (rabbi-t@kemcity.ru) 06:49:53 [ответить]
имеюца отсканированные буки. треба окаэрщика. оп всем вопросам на мыло.

Кюртис - Молодожены
У. Фолкнер - Деревушка (Поселок)
Э. Ионеско - Лысая певица
П. Лэне - Кружевница
Ле Клезио - Мондо
З. Ленц - Урок немецкого
А. Мердок - Дитя слова
Э. Олби - Что случилось в зоопарке
Ж. Перек - Вещи
Ф. Саган - Немного солнца в холодной воде
Н. Саррот - Детство
Триоле - Луна-парк. Розы в кредит.
Э. Тайле - Обед в ресторане "Тоска по дому"
Данные книги снанились для сдачи экзамена по истории зарубежной литературы на старших курсах филфака и ргф. распознав их, вы поможете очень многим людям, впрочем возможно и себе, так как некоторые книги очень редки.
Далее учебники:// 1. Galperin I.R. Stylistics of English Language (уже почти весь распознан)
2. Иванова, Чахоян - История английского языка
3. Зражевская, Гуськова - Трудности перевода общественно-политического текста с англ. яз на русский.
4. Брайент Дж. Кретти - Психология современного спорта.
В общем, отцы и дети OCR, не поленитесь :)

29. Соколов, Н.Новгород (sokolov_av@pochtamt.ru) 10:15:47 [ответить]
> 15. Zmiy.
> Вопрос ко всем :
> Q: У кого какой сканер, его цена и скорость сканирования в час для разворота книжки обычного(самого распространенного) формата?

У меня Primax Colorado Direct 4800 (LPT) 1997 г. Цена была 200$. Скорость 350 обычных (125х200) стр. в час. Выбирал месяца два. Сейчас, правда, уже совершенно не катят цветные изображения (5 лет работы все-таки). И у меня есть новый Epson 1250 (USB) для них (черно-белый, увы, на нем не катит). А LPT был выбран для переносимости - USB тогда не было.

А в принципе, максимальная скорость - 400 обычных стр. Больше уже чересчур хлопотно.

А насчет вычитки: я, как и Григорий, уже 3 года как разочаровался во всех spellcheck'ерах и программухах и гоню все как TXT с сохранением формата. Сначала, правда, пытался составить список стандартных ошибок FR, но где-то на 500-й плюнул. Причем в FR отслеживаю только выделения и правильность выделения абзацев. Все остальное можно сделать и в Word'е.

На счет заглавных букв добавлю "Д" и то, что они появляются при перекосе, согласен.

СООБЩЕНИЯ ЗА 13.11.2002

30. Евгения, Иваново (janestar@yandex.ru) 10:10:21 [ответить]
У нас стоит проблема оцифровки редкого фонда, книги
довольно старые, мы переживаем за их состояние
после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?

31. Zmiy, Минск (zmiy@inbox.ru) 12:11:09 [ответить]
> 30. Евгения.
> У нас стоит проблема оцифровки редкого фонда, книги
> довольно старые, мы переживаем за их состояние
> после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?

Цифровые фотоаппараты не подходят для OCR - у них слишком малое разрешение...
Я слышал, что у нас в Нац.Биб-ке Беларуси какие-то редкие старые книги оцифровали... Попробуйте с ними связаться и уточнить такие вопросы (см. контакты на http://natlib.org.by/>http://natlib.org.by/).
От себя - можно пробовать планшетным (ну не рвать же книги!) или ручным сканером... Ну а в крайнем случае, если там картинки, то набрать текст вручную, а картинки уж фотоаппаратом...

СООБЩЕНИЯ ЗА 14.11.2002

32. Григорий, Ярославль 01:41:28 [ответить]
> 30. Евгения.
> У нас стоит проблема оцифровки редкого фонда, книги
> довольно старые, мы переживаем за их состояние
> после сканирования. Посоветуйте, каким образом лучше оцифровывать текст? Если сканером, то каким? А может лучше цифровым фотоаппаратом?

В ленинке есть такая штука, позволяет сканить книги разворачивая только 90 град. Но больше такой штуки в России наверно нет.

СООБЩЕНИЯ ЗА 15.11.2002

33. Abolin, 10:59:46 [ответить]
> Цифровые фотоаппараты не подходят для OCR - у них слишком малое разрешение...

Ну, смотря какие аппараты...

Вот, почитайте - http://forum.ixbt.com/0020/003448.html>http://forum.ixbt.com/0020/003448.html

СООБЩЕНИЯ ЗА 20.11.2002

35. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:59:08 [ответить]
1. Гнустные типы в FR не сделали такой фичи типа сдвоенного русско-немецкого словаря на вычитку, а латинский изволь сам делай ручками. В гайде они написали, как ручками сдвоенные словари делать. Но это мудренее талмуда. И как жить сирым убогим крестьянам? Просто достало латинские слова в английский словарь сувать. Да и не дело это совершенно.
2. В 6-м FR-e еще такая гаисть. Идет, допустим, нормальный русско-английский текст. Встречается немецкая фраза с умляутами или французская со значками ударения вправо-влево. Вызываешь, есесьно, соответствующий словарь, а он выдает словоформы без над/подбуквенных значков, и хучь ты убейся. Самое обидное при этом то, что ручками соответствующий символ, как в ворде, не вставишь, запоминай это место, возвращайся к нему при вычитке потом. А в 5-м FR словоформы с умляутами выдавались пучком. Апгрейдеры недорезанные...

36. Соколов, Н.Новгород (sokolov_av@pochtamt.ru) 11:20:22 [ответить]
> 31. Zmiy.

Когда я оценивал необходимое разрешение для цифрового фотоаппарата (планировал когда-то взять - удобно для работы вне дома), то в принципе для одной страницы (125х200) достаточно разрешения 2048х1536 (это примерно 250-300 dpi). Приемлемое качество и при 1600х1280. Сейчас есть и на 4096х3072, но стоят они, увы, бешеные бабки. А у дешевых (порядка до 300$) разрешение до 1280х1024.
А насчет ручных сканеров: требуемое поле сканера не менее 4,5 дюймов (лучше 5), чтоб работать без учета перекрытия. У большинства же ручных сканеров это поле - 4 дюйма. Вторая проблема - нужно иметь два связанных ролика (они отсчитывают расстояние, кстати мнение о том, что ручные сканеры тянут связано с тем, что встроенный процессор при быстром движении не успевает обработать данные в кэше и некоторые линии удаляются) - до и после лампы, иначе возникают проблемы на краях листа. Еще одно требование - ширина от боковых границ сканера до лампы не должна превышать 0,4 дюйма, а опять же большинство сканеров имеют 0,5 и выше.
Кстати, есть строчные сканеры типа С-Pen. Но это для любителей.
HP CapShare 910/920 имеет малую ширину - 4 дюйма и дорог.
А насчет того, что сканер в Ленинке один - я думаю, что остальные подобные не являются общедоступными.

37. Максим Мошков, 13:47:17 [ответить]
> 32. Григорий.
> В ленинке есть такая штука, позволяет сканить книги разворачивая только 90 град. Но больше такой штуки в России наверно нет.

Вообще-то такую штуку любой столяр выпилит и склеит из мебельного щита и нескольких дверных петель. За полдня и за тысячу рублей.

Смысл этой штуки элементарен - ставится деревянная подставка-уголок, градусов на сто, в него вкладывается книга - полураскрытая, и уголок сперва одной стороной прижимают к горизонтали, а затем - другой. А сканер, естественно, с верхним с'емом (вроде фотоувеличителя по виду)

Что до использования цифровых фотоаппаратов для перес'емки и OCR книг - то действительно, особых проблем с их использованием не будет.

Новые модели 4М-пиксельных (2270x1700) фотокамер начинаются от 450$.
Из них я себе присмотрел Nikon CoolPix 4300 за 510$

http://guru.yandex.ru>http://guru.yandex.ru - на выбор около десятка предлагает по ценам 450-650$.

Цена 256Мб компактфлэшки - 80$ (ее хватит на 100-200 снимков)
512Мб - 150$

MicroDrive 1Gb - 450$

Таким образом вполне работоспособный комплект для мобильной перес'емки книг можно собрать сейчас за 600$

38. Григорий, 18:04:23 [ответить]
> Смысл этой штуки элементарен - ставится деревянная подставка-уголок, градусов на сто, в него вкладывается книга - полураскрытая, и уголок сперва одной стороной прижимают к горизонтали, а затем - другой. А сканер, естественно, с верхним с'емом (вроде фотоувеличителя по виду)

Только сканер такой сканер дорого стоит.

СООБЩЕНИЯ ЗА 21.11.2002

39. Максим Мошков, 00:49:16 [ответить]
> 38. Григорий.
> Только сканер такой сканер дорого стоит.

A ты сверху цифровой фотоаппарат на штативе прикрути и лампу галогеновую, для равномерного освещения.

Конечно, подороже обойдется, чем обычный планшетник - но ведь подешевле, чем те монстры, что у Перли стоят или у elibron'а.

СООБЩЕНИЯ ЗА 22.11.2002

40. Григорий, Ярославль 00:06:52 [ответить]
> 39. Максим Мошков.
> > 38. Григорий.
> > Только сканер такой сканер дорого стоит.
>
> A ты сверху цифровой фотоаппарат на штативе прикрути и лампу галогеновую, для равномерного освещения.
>
> Конечно, подороже обойдется, чем обычный планшетник - но ведь подешевле, чем те монстры, что у Перли стоят или у elibron'а.

Мысль хорошая. Только мне кажется, что по соотношению цена/эффективность действия (в нашем конкретном случае - ч/б сканирование) равных дешевым скази планшетникам нет. Однако, я могу и ошибаться.

СООБЩЕНИЯ ЗА 23.11.2002

41. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:49:35 [ответить]
1. А к чему си мудрости-премудрости со сканом под углом 90? В FR есть простенькая штучка, называется постраничное сканирование. Правда, на каждой страничке приходится лишний раз давить на мыша, но это не вагоны с дровами разгружать по тяжести процесса. Все дела. Или имеется в виду проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется. Если это не шибко редкая и ценная книга, то я не вижу тут никаких вопросов.
2. Кто-нибудь в курсе, какие дела с сайтом "Словесник" (www.slovesnik.ru). Была такая чудная-прекрасная библиотека, потом на нее налегли, извиняюсь за выражение, представительницы перекрасного полу и сделали из домена нечто суперпошлое и -похабное. Дальше-то как?

42. Максим Мошков, 13:09:45 [ответить]
> 41. Вячеслав Сачков.
> проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется.

Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...

> 40. Григорий.
> по соотношению цена/эффективность действия (в нашем конкретном случае - ч/б сканирование) равных дешевым скази планшетникам нет.

Не вопрос, все верно. По цене, эффективности - да.

Речь идет о некоторых видах использования, где этот "народный" вариант - "не катит".
А именно - редкие, старые книги, тугая ветхая обложка: решение - Сканер-"Гусь" (10,000-25,000$)

Места, библиотеки, из которых невозможно вынести книгу, а со своим планшетным сканером не пустят: решение - цифровая фотокамера с 4-5Mpix (500-1000$)

Или когда надо сканировать очень много: решение - промышленный сканер с разрезалкой (30,000-100,000$)

44. A.E., (eskov@mailru.com) 18:25:18 [ответить]
Система распределенной вычитки текстов после OCR - перспективна?

Отсканить текст - не проблема. По появлении некоторых навыков это делается автоматически (одновременно с просмотром телевизора :) и две-три сотни разворотов за вечер осилить можно. Но потом их надо вычитать - и это (по моему опыту) 85% от всех трудозатрат на перевод текста в электронный вид.

Использование всяких общедоступных спелчекеров и персонально созданных программ - эффект дает не слишком высокий (надеюсь, пока) и текст, вычитанный глазами все-таки IMHO заметно "чище", чем тот, что "причесали" автоматизированно. Плюс к этому - смысловые ошибки, кои только головой и можно поймать (в коллекцию приколов ФайнРидера: "Солнце бросало отблеск на яйца моряков"... разумеется - "на лица" :)

Возможным выходом может служить система, при которой на одного сканящего приходится несколько вычитывающих - она работает, но требует сложной организации (FTP, пересылка объемистых tif`ов и четкая координация). Как вариант такой системы меня очень заинтересовал вот этот сайт:

http://texts01.archive.org/dp/>http://texts01.archive.org/dp/

Мое знание английского ("матерюсь со словарем":) не позволяет всесторонне оценить найденное. Вот что пишет человек, с "подачи" которого я туда попал:

------------- цитата ----------------------------
Желающие принять участие в этом проекте выбирают кусок работы, размером в одну страницу, система загружает им отсканированую картинку страницы из книги и рядом с ним или под ним окно для ввода текста, в котором уже загружен текст распознаный OCR программой. Задача добровольца вычитать текст, это весьма напоминает процес вычитки в FR, но менее удобно так как картинка страницы не синхронизирована с текстовым окном и ее приходится скролинговать в ручную. К тому же нет выделением цветом мест в точности распознания которых OCR не уверен.
Зато чтобы принять участие в этом благом деле теперь не надо иметь ни сканер, ни специальные знания, ни тратить на это много времени - даже если делать одну страницу в день (5 минут для ненабившего руку) это все равно будет не малый вклад 300-350 страниц в год. Людей готовых потратить столько времени на это дело гораздо больше чем готовых в одиночку делать целую книгу, тем более большую.
Каждая страница вычитывается как миниум дважды разными людьми плюс координатор книги просматривает помеченые ими места, где например невозможно разобрать текст.
Что бы дать представление о возможностях этого подхода я дам статистику с их сайта с начала ноября этого года они делали более не менее стабильно около 1000 страниц в день, после того как 4 дня назад о них написал крупный новостной сайт slashdot.org они начали делать больше 10 000 страниц в день, сделав больше 15 тысяч в день аннонса. Похоже за этот месяц они сделают больше по объему чем выложенно книг во всех православные интернет библиотеки в руннете вместе взятых."
...
Похожая система уже достаточно давно действует и на сайте CCEL:
http://ccel.org/help/facsim/>http://ccel.org/help/facsim/ , а вот как их система выглядит в действии

СООБЩЕНИЯ ЗА 24.11.2002

45. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:35:20 [ответить]
> 42. Максим Мошков.
> > 41. Вячеслав Сачков.
> > проблема тугих переплетов? Дык книжачки можно аккуратненько расшить и переплести по-новой. Такая вещь широко практикуется.
>
> Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
> Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...
>

16-й век не по моей части, а что касается 19-го, то авторитетно могу утверждать, что все действительно ценные и редкие книги Музея книги Ленинки, например, давным-давно пересняты на 35 мм и читаются они с помощью больших старинных смешных аппаратов немецкого производства. Качество съемки, по-моему, не самое лучшее, попадаются не полностью (без нескольких крайних строк) отснятые страницы, даже иногда имеет место пропуск страниц при съемке, где-то недодержка, где-то передержка, но читать в целом можно. Вопрос поэтому другой - как с этими пленками возиться. И еще есть пленки формата 6 на 9, если не ошибаюсь, американские, на каждой пленке кадров-разворотов, кажется, штук по 40, давно с этим дело имел, плохо помню. Даже уже и забыл, где эти аппараты стояли. Возможно, даже и не в Ленинке, а в каком-то архиве. На них качество текста получше было. Хорошие дорогие сканеры позволяют с такими слайдами (35 мм) работать, но что должно получаться в итоге, представляю слабо. Это все практически проверяется.

СООБЩЕНИЯ ЗА 28.11.2002

46. Шумахер, (mail@shumaher.net) 16:56:54 [ответить]
Маленький вопрос.
А как быть, если во время прочтения видишь ошибки и очепятки?
Ответ "не обращать внимания", несколько обламывает. :)

Есть ли возможность направлять отчет об ошибках? И насколько своевременно они будут исправляться?
Личного секретаря такими поручениями обременять не хочется, а ресурс Ваш оч полезный.

Спасибо за понимание!
В надежде на сотрудничество...

47. Максим Мошков, Москва 19:13:45 [ответить]
> 46. Шумахер.
> Маленький вопрос.
> А как быть, если во время прочтения видишь ошибки и очепятки?

http://lib.ru/TXT/incoming.txt>http://lib.ru/TXT/incoming.txt

Приветствуются новые е-тексты интересных с _вашей_ точки зрения книг, а так же - поправки, замечания, вычитанные spellcheck'нутые варианты на замену существующим е-книгам.

СООБЩЕНИЯ ЗА 01.12.2002

48. Андрей Никитин-Перенский, Аугсбург (info@imwerden.de) 15:52:23 [ответить]
Всем привет.

Получил письмо от РОМС - вот выдержка:

"Уважаемые владельцы http://www.imwerden.de>http://www.imwerden.de!
Ваш сайт просмотрен модератором РОМС и занесен в базу данных организаций и лиц, являющихся пользователями по Закону РФ "Об авторском праве и смежных правах".
Использование охраняемых Законом произведений, исполнений, фонограмм разрешается только на основании договора, заключенного непосредственно с каждым правообладателем, либо на основании лицензии, полученной от специальной организации по коллективному управлению авторскими и смежными правами.
Если Вы используете на своем сайте произведения и/или фонограммы только на основании письменных договоров с обладателями прав на них, пожалуйста, сообщите об этом нам, чтобы модераторы РОМС исключили Вас из поисково-претензионной базы.
Если Вы не получили разрешений от правообладателей на использование их произведений, то это повлечет санкции предусмотренные действующим законодательством."

Значит ли это, что мне нужно убрать со страницы всех авторов, обладателей авторских прав. А это и Пастернак и Мандельштам и Ахматова и Окуджава?.. Вот такие дела. Да, они отослали меня на свою страницу http://www.roms.ru>http://www.roms.ru, где можно скачать типовой договор с ними и платить деньги за то, сколько у меня кто скачал файлов. То есть деньги вымогают. Короче я должен платить не только за место в интернете и за то, если у меня скачают больше лимита, но еще и за конкретные скачиваемые файлы. Речь идет о моём самом большом собрании чтения стихов авторами: Бродским, Ахматовой и Пастернаком. Записи, которые достать почти не возможно ни за какие деньги!!!! А у меня лежат бесплатно и скачиваются и слушаются тысячами пользователей, которым нет никакой возможности добыть эти записи в магазине. Короче, я очень расстроен сегодня. Я конечно уберу всё, что противоречит авторскому праву, вот только как спросить наследников Ахматовой о том, можно ли опубликовывать эти чтения ею стихотворений. Да и что это за наследники - Пунины??

49. Юрист, Москва 20:37:22 [ответить]
> 48. Андрей Никитин-Перенский.
> Ваш сайт просмотрен модератором РОМС и занесен в базу данных организаций и лиц,
> сообщите об этом нам, чтобы модераторы РОМС исключили Вас из
> поисково-претензионной базы.

Типичный спам и вымогательство денег.
Поставьте игнор и не обращайте внимания.

СООБЩЕНИЯ ЗА 03.12.2002

50. Thick-as-a-brick, (toomanyfaces@mail.ru) 00:39:18 [ответить]
> 48. Андрей Никитин-Перенский.
> Всем привет.

Обычные инет вымогатели и ничего больше. Полно их сейчас развелось.

Я чуть не каждый день получаю угрозы занести меня во всевозможные базы рассылок спама и предложения за пару копеек не включать меня в эти базы. Гэбисты самодеятельные...

Кроме того, юридически вопрос авторских прав в инете не урегулирован. Но здесь не об этом речь. Это так - мелкие инетовские шавки.

В игнор.

СООБЩЕНИЯ ЗА 04.12.2002

51. CTAKAH, 02:58:42 [ответить]
Максиму Мошкову: помоему немецкие подпольщики тексты в сеть грузят. Много всякого. Пока их не прикрыли, стоит может быть чего скачать? (на lib.ru в смысле..:) Или как?
http://textz.com>http://textz.com

СООБЩЕНИЯ ЗА 06.12.2002

52. vladimir keidan, Roma (v.keidan@tin.it) 17:08:53 [ответить]
Многоуважаемый Леон Дотан, Вы сканировали и поместили в Библиотеку Машкова книгу И. Бунина "Воспоминания". В тексте книги много ссылок и примечаний, но к сожалению их невозможно открыть и прочитать. Я работаю над книгой о М. Семенове и издательстве "Скорпион". В "Воспоминаниях" есть цитата из статьи Семенова в газете "Русская мысль" со ссылкой 27. Мне очень важно узнать, что скрывается за этой ссылкой. Не могли бы Вы быть так любезны сообщить мне текст этого примечания. Заранее благодарю и готов к взаимным услугам.
Владимир Кейдан, Рим

53. V, 19:31:26 [ответить]
> 51. CTAKAH.
> Максиму Мошкову: по-моему, немецкие подпольщики тексты в сеть грузят. Много всякого. Пока их не прикрыли, стоит может быть чего скачать? (на lib.ru в смысле..:) Или как?
> http://textz.com>http://textz.com

Дорогой и уважаемый "стакан"!

Ну какой же Вы молодец!

Скачана куча интересных текстов, теперь откуда-то накачать времени и здоровья всё прочесть ;) но всё равно приятно.

Пью здоровье "Стакана" из элегантной рюмочки ;)

Дамы,господа и товарищи, берите пример с этого замечательного человека, оперативно сообщайте о таких нечаянных вулканических выбросах в ноосферу, как textz.com , и будет вам щасссте.

СООБЩЕНИЯ ЗА 07.12.2002

54. Thick-as-a-brick, (toomanyfaces@mail.ru) 11:49:02 [ответить]
> 53. V.
> >
> Дамы,господа и товарищи, берите пример с этого замечательного человека, оперативно сообщайте о таких нечаянных вулканических выбросах в ноосферу, как textz.com , и будет вам щасссте.

Вы просите книжков? Их есть у меня!

http://www.blackmask.com/page.php>http://www.blackmask.com/page.php

http://der.nachtwaechter.net/bottomframe.php>http://der.nachtwaechter.net/bottomframe.php

http://artefact.cns.ru/cgi/library.pl?view=abc&letter=3>http://artefact.cns.ru/cgi/library.pl?view=abc&letter=3

http://lib.coolparty.ru/>http://lib.coolparty.ru/

http://greylib.by.ru>http://greylib.by.ru

http://www2.hn.psu.edu/faculty/jmanis/jimspdf.htm>http://www2.hn.psu.edu/faculty/jmanis/jimspdf.htm

55. Equin, 23:31:52 [ответить]
> Книжечку 19-го века расшивать вряд ли позволят. Я уж не говорю об евангелиях 16-го века, которые открыть лишний раз - страшно.
> Библиотекари даже просто светить сканерной лампой на бумагу боятся - вдруг она пожелтеет и рассыпется от этого на 40 лет раньше, и изыскивают экзотические сканеры со слабым светом, с зеленой лампой, и т.п. экзотику (за бешенные деньги). В общем - есть проблемы, есть...

> Места, библиотеки, из которых невозможно вынести книгу, а со своим планшетным сканером не пустят: решение - цифровая фотокамера с 4-5Mpix (500-1000$)

Я пробовал для книги формата "примерно половина А4" пользовать 2-х мегапиксельную мыльницу с макрорежимом. После фильтра, убирающего "подушку" изображения + autolevel, файнридер 6 давал 2-3 ошибки на страницу. Единственная проблема - ограниченная память фотоаппарата. Хотя можно сразу в нотбук сливать.

Continue