Lib.Ru: :

Список форумов | Добавить сообщение | Правила | 30.11.2024, суббота, 20:18:50

Ответ на сообщение в форуме "Проблемы OCR и электронных библиотек":
Обязательно заполните поле: Ваше имя
Обязательно заполните поле: Текст сообщения
Ваше имя:Город:
Е-Маil:Сайт:

> [44. A.E.].
> [Система распределенной вычитки текстов после OCR - перспективна?] 
>  
> Отсканить текст - не проблема. По появлении некоторых навыков это делается автоматически (одновременно с просмотром телевизора :) и две-три сотни разворотов за вечер осилить можно. Но потом их надо вычитать - и это (по моему опыту) 85% от всех трудозатрат на перевод текста в электронный вид. 
>  
> Использование всяких общедоступных спелчекеров и персонально созданных программ - эффект дает не слишком высокий (надеюсь, пока) и текст, вычитанный глазами все-таки IMHO заметно "чище", чем тот, что "причесали" автоматизированно. Плюс к этому - смысловые ошибки, кои только головой и можно поймать (в коллекцию приколов ФайнРидера: "Солнце бросало отблеск на яйца моряков"... разумеется - "на лица" :) 
>  
> Возможным выходом может служить система, при которой на одного сканящего приходится несколько вычитывающих - она работает, но требует сложной организации (FTP, пересылка объемистых tif`ов и четкая координация). Как вариант такой системы меня очень заинтересовал вот этот сайт: 
>  
> <a href=http://texts01.archive.org/dp/>http://texts01.archive.org/dp/</a> 
>  
> Мое знание английского ("матерюсь со словарем":) не позволяет всесторонне оценить найденное. Вот что пишет человек, с "подачи" которого я туда попал: 
>  
> ------------- цитата ---------------------------- 
>  Желающие принять участие в этом проекте выбирают кусок работы, размером в одну страницу, система загружает им отсканированую картинку страницы из книги и рядом с ним или под ним окно для ввода текста, в котором уже загружен текст распознаный OCR программой. Задача добровольца вычитать текст, это весьма напоминает процес вычитки в FR, но менее удобно так как картинка страницы не синхронизирована с текстовым окном и ее приходится скролинговать в ручную. К тому же нет выделением цветом мест в точности распознания которых OCR не уверен. 
> Зато чтобы принять участие в этом благом деле теперь не надо иметь ни сканер, ни специальные знания, ни тратить на это много времени - даже если делать одну страницу в день (5 минут для ненабившего руку) это все равно будет не малый вклад 300-350 страниц в год. Людей готовых потратить столько времени на это дело гораздо больше чем готовых в одиночку делать целую книгу, тем более большую. 
> Каждая страница вычитывается как миниум дважды разными людьми плюс координатор книги просматривает помеченые ими места, где например невозможно разобрать текст. 
> Что бы дать представление о возможностях этого подхода я дам статистику с их сайта с начала ноября этого года они делали более не менее стабильно около 1000 страниц в день, после того как 4 дня назад о них написал крупный новостной сайт slashdot.org они начали делать больше 10 000 страниц в день, сделав больше 15 тысяч в день аннонса. Похоже за этот месяц они сделают больше по объему чем выложенно книг во всех православные интернет библиотеки в руннете вместе взятых." 
> ... 
> Похожая система уже достаточно давно действует и на сайте CCEL: 
> <a href=http://ccel.org/help/facsim/>http://ccel.org/help/facsim/</a> , а вот как их система выглядит в действии

Сортировать форумы по возрастанию даты публикации?
(Использовать эту опцию не рекомендуется)