Lib.Ru: : Проблемы OCR и электронных библиотек

Список форумов | Добавить сообщение | Правила | 30.11.2024, суббота, 23:51:53

30.11.2024
16:20 Главная гостевая книга библиотеки(3693)
24.11.2024
16:42 "Разыскиваются книжки", доска объявлений(15475)
20.11.2024
11:47 Обо всем - мнения(3131)
07:16 Русские впечатления о заграничной жизни(9431)
01.10.2024
13:10 Проблемы OCR и электронных библиотек(1967)
09.09.2024
04:35 Книжки, которые скоро будут выложены(47)
06.05.2024
02:06 О возвышенной поэзии(1568)
02.02.2024
15:33 Книжки, которые стоит прочитать(5187)
12.11.2023
00:25 Мнения читателей о дизайне библиотеки(1478)

Lib.Ru

Проблемы OCR и электронных библиотек: Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.
А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]

СООБЩЕНИЯ ЗА 24.01.2003

111. Эмин, Баку (azeribooks@narod.ru) 17:01:36 [ответить]
> 110. Максим Мошков.
> Книги кодируются в dejavu - 15-30 кб на страницу.

А если потом нужно будет распознать эти файлы? Кажется Fine Reader не воспринимает dejavu? Возможно ли опять переформатировать из dejavu в tif?

112. Максим Мошков, 17:54:18 [ответить]
> 111. Эмин.
> Возможно ли опять переформатировать из dejavu в tif?

Без этой возможности Dejavu никому бы не был нужен.

СООБЩЕНИЯ ЗА 25.01.2003

113. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:30:13 [ответить]
> 110. Максим Мошков.
> > Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...
>
> Если по предлагаемой технологии установить не 2 сканера, а 200, то весь фонд ленинки будет сосканирован за 10 лет.
> (И при этом - уничтожены все оригиналы ;^)

Допустим, эта технология самая лутчшая. Но буквально во всех ведомственных библиотеках сейчас сканерщиков заводят, которые усиленно бумажные книги дигитализируют традиционным путем. Очень даже шустро дело идет. Вообще уйма книг переснимается, причем, бывает, одно и то же разные ведомства дублируют по несколько раз. Теперь еще ленинка к этому дурдому подключится, и все замечательно будет...

114. Максим Мошков, 13:39:06 [ответить]
> 113. Вячеслав Сачков.
> которые усиленно бумажные книги дигитализируют традиционным путем.

Я слабо себе представляю, что это такое - традиционный путь.
Скан + текстовый OCR? Ну так это имеет смысл только для белетристики, тут текст "гладкий".

А любая техническая литература и большинство учебников - этим путем не пролезет. Формулы/диаграммы/таблицы/схемы...
О них и идет разговор. В каком формате готовить, в каком хранить, как представлять пользователю.

А "гладкий" текст - с ним все ясно и без этого. Да. Традиционный путь, и никаких гвоздей.

115. InFAiR, Уфа (infair@rusoil.net) 13:56:22 [ответить]
> 111. Эмин.

> Возможно ли опять переформатировать из dejavu в tif?
> А если потом нужно будет распознать эти файлы?
> Кажется Fine Reader не воспринимает dejavu?

Возможно.
Мы храним и tif.
С совершенствованием Fine Reader-а мы перераспознаем материал.
Думаю в следующей версии Fine Reader будет читать и djvu.

СООБЩЕНИЯ ЗА 26.01.2003

116. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:12:27 [ответить]
> 115. InFAiR.
> Думаю в следующей версии Fine Reader будет читать и djvu.

Не будет.

117. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:22:34 [ответить]
> 114. Максим Мошков.
> > 113. Вячеслав Сачков.
> > которые усиленно бумажные книги дигитализируют традиционным путем.
>
> Я слабо себе представляю, что это такое - традиционный путь.
> Скан + текстовый OCR? Ну так это имеет смысл только для белетристики, тут текст "гладкий".

Юзер (в широком понимании этого слова) туп, делает по-тупому. Файнридер - Save as.. и все дела. Что тут непонятного?

>
> А любая техническая литература и большинство учебников - этим путем не пролезет. Формулы/диаграммы/таблицы/схемы...
> О них и идет разговор. В каком формате готовить, в каком хранить, как представлять пользователю.

Ворд - html в подавляющем большинстве случаев легко схватывают. Если там язык редкий типа иврита или знаки, отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.

>
> А "гладкий" текст - с ним все ясно и без этого. Да. Традиционный путь, и никаких гвоздей.

Дык.

118. Максим Мошков, 11:59:00 [ответить]
> 117. Вячеслав Сачков.
> Формулы/диаграммы/таблицы/схемы.

> отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.

Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.

119. PDF-библиотека, Augsburg (info@imwerden.de) 13:44:23 [ответить]
> 98. Zmiy.
> > 97. PDF-библиотека.
> >
> Ну, то что сейчас появляется у В.Ершова - это одно, а вот то что раньше было у В.Е. нету...
> Стоит ли конвертить в PDF, если его, кроме как в Acrobat Reader, просто так никуда не всунешь...

Немного расскажу о моей технологии, чтобы было понятнее. Дело в том, что я делаю не pdf, a pmd, то есть PageMakerDokument.
Такой была моя технология:
отсканированный текст я открываю в Word, затем копирую его в PageMaker, после этого ведется вёрстка текста. Выбор шрифта, параметров абзаца, разбивка текста по страницам (чтобы не было висячих строк), создание Содержания, примечаний, комментариев, проверка иноязычных текстов... После этого я книгу РАСПЕЧАТЫВАЮ и вычитываю. К сожалению это не всегда реально, но в большинстве случаев я распечатываю текст. Только в распечатанном тексте я вижу все, или почти все ошибки. Потом, исправив ошибки, я конвертирую файл в pdf.
Если обрабатывать текст в Word, а затем его переносить в PageMaker, то появлябтся ошибки форматирования и/или ошибки в иноязычных текстах (проблемы шрифта).
Последнее время я делаю большую часть работы в Word, а затем переношу результат в PageMaker. Это добавляет мне работы.
Если делать doc, то его надо zipировать, иначе файл получается довольно большой. При zipировании пропадает возможность поиска по СОДЕРЖАНИЮ ФАЙЛА. Довольно много людей находят сейчас мою страницу по отдельной строчке Рильке или Гёльдерлина на немецком, правда, языке. Но всё, что в pdf - распознается Goggle, пока, к сожалению на русском это не работает. А всовывать никуда ничего не надо. Если нужна цитата - пожалуйста - копировать и вставлять. Если найдена ошибка в моем файле - сообщать по email.
Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе, но читателям нравится...

120. Damirjan, Когалым (damirjan@mail.ru) 13:49:51 [ответить]
> 118. Максим Мошков.
> > 117. Вячеслав Сачков.
> > Формулы/диаграммы/таблицы/схемы.
>
> > отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
>
> Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.

Просто на порядок больше работы, а так в общем-то проблем больших нет. Я как раз занимаюсь OCR технической периодики.
"Тяжелые" формулы - как рисунок, таблицы - тоже без проблем. так что FieneReader-а вполне хватает.
Если есть желание - гляньте на www.geolib.narod.ru - там есть пример моей работы.

121. PDF-библиотека, Augsburg (info@imwerden.de) 13:52:43 [ответить]
djvu За и против.

"За". Размеры маленькие. Вычитка не нужна. Не пропадает колорит печатного издания. Делается по сути фотографическое воспроизведение.

Читатель получает книгу. Для книг 17-19 веков - это очень хороший формат!!!

"Против". Книга в 500 страниц становится набором из 500 файлов (потеря или недокачка одного файла ведет к...). Локальный ПОИСК отсутствует. Поисковые машины тоже ничего не находят.

Вообще, зачем нужен Достоевский в интернете??? А затем, что если вы вспормнили какую-то фразу, слово, имя, то поискать и посмотреть - где оно было Достоевским употреблено...

Итак, jedem das sein. То есть каждому своё...

PS Кстати, немецкие тексты у Мошкова в любимом txt потеряли все свои прелести...

122. Максим Мошков, 14:35:54 [ответить]
> 119. PDF-библиотека.
> Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе

Да нет, дело не в том, по душе/не по душе.
Просто большая часть ваших усилий уходит на собственно верстку и украшательство книжки. По сути же в нее при этом не добавляется ни одного бита информации по сравнению с банальной хтмлной или вордовой версией. Ваши пдф-ы по сути своей остаются чисто-текстовыми.
С тем, на что вы тратите 70% своего времени, прекрасно справляется автомат, дравер принтера. Именно это мне печально, а не что-либо еще.

123. PDF-библиотека, Augsburg (info@imwerden.de) 21:53:08 [ответить]
> 122. Максим Мошков.
> > 119. PDF-библиотека.
> > Моя идея - сделать конечный продукт. Понимаю, что многим создателям своих библиотек моя идея не по душе
>
> Да нет, дело не в том, по душе/не по душе.
> Просто большая часть ваших усилий уходит на собственно верстку и украшательство книжки. По сути же в нее при этом не добавляется ни одного бита информации по сравнению с банальной хтмлной или вордовой версией. Ваши пдф-ы по сути своей остаются чисто-текстовыми.
> С тем, на что вы тратите 70% своего времени, прекрасно справляется автомат, дравер принтера. Именно это мне печально, а не что-либо еще.

Я согласен и не согласен с вами одновременно. Во-первых, не 70%, 70% занимает вычитка текста. А не согласен я с мнением, что главное - информация. В этом смысле, djvu - прекрасен. Для меня большая разница, читаю я Пушкина в издании "Классиков и современников" или же в издании Академии наук. То, что клеёная книга разваливается после первого же открывания книги... Я всегда старался, по-возможности, выбирать старые издания. Даже в Германии я купил Гессе - гдр'овское издание, но сшитое, нежели фрг'вское, но клеёное. Потому, я стараюсь в интернете реализовать некоторым образом те же принципы.

СООБЩЕНИЯ ЗА 27.01.2003

124. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:43:13 [ответить]
> 118. Максим Мошков.
> > 117. Вячеслав Сачков.
> > Формулы/диаграммы/таблицы/схемы.
>
> > отсутствующие в наборе символов ворда, тогда вопрос есть. Но в общем случае это очень редко бывает.
>
> Возьми школьные учебники по алгебре, физике и тригонометрии. И _все_ университетские учебники (за исключением истории КПСС). И подумай, что от них останется после распознавания и ворда.

Согласен, должен поправиться. Я имел в виду набор ОСНОВНЫХ символов ворда. С ними таблицы довольно корректно снимаются, если бывает нужна правка, то сравнительно небольшая. А если дополнительные символы, или, много того хуже, вовсе отсутствующие, то тут все, что угодно, может быть. Это правильно.

125. Соколов, 09:57:38 [ответить]
Я тут прочитал споры насчет PDF и прочего. И хочу заметить следующее: в действительно грамотной правильной библиотеке файлы должны храниться в универсальном формате. Наиболее грамотно с этой точки зрения можно описать структуру произведения с помощью языка XML или SGML. Недостатком их является необходимость стандартизации описания.
Все прочие форматы в действительности должны рассматриваться (и будут рассматриваться в будущем) как авторские/читательские публикации. Это относится как к текстовым файлам, как к сверстанной в HTML-формате книге, как к форматам текстовых процессоров, как и форматам всевозможных EBook (в том числе и PDF), так и графическим форматам представления (репринт).
Так что все споры насчет формата бессмысленны. Мы все занимаемся, по сути дела, публикацией произведений. И каждый имеет право делать это в том формате, который ему нравится, который он считает лучшим. И претензии, предъявляемые нам по поводу авторских прав, основаны как раз на этом.
В.Ершов, предложив объединение библиотек, не учитывает как раз того, что все мы не является держателями библиотек. Мы рапространяем и поддерживаем авторские личные коллекции, до какого бы размера не разрослась эта коллекция.
По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.

СООБЩЕНИЯ ЗА 28.01.2003

126. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:47:35 [ответить]
> 125. Соколов.
> По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.

Госстандарт электронного текста давным-давно принят. Спорить можно о том, что (какие параметры) стоило стандартизировать, а с какими поспешили. Но лично я проблемы здесь не вижу. Для одних источников, например, принципиально важно сохранение оригинальной пагинации, для других достаточно указания (и то, не строго обязательно) одних только общих выходных данных, причем даже не оригинального бумажного, а электронного текста, - например, в случае книжки Бориса Штерна о Чехове, написанной якобы У.С.Моэмом. Вопрос, может быть, где-то больше этический, чем технический, юридический и пр. Но стандарт ОПИСАНИЯ электронного издания (паспортички), мне кажется, действительно нужен. Пока в порядке эксперимента используются соответствующие формы, жизнь должна показать, что годится, что нет. Ведь стандарт - это юридический документ, а право только законодательно закрепляет то, что уже и так сложилось на практике.

127. Соколов, 08:43:42 [ответить]
> 126. Вячеслав Сачков.
> > 125. Соколов.
> > По моему мнению, сначала следовало бы решить вопрос о стандартизации описания текста произведений, а уж после начинать разговор о едином фонде. Только тогда единый фонд имеет смысл.
>
> Но стандарт ОПИСАНИЯ электронного издания (паспортички), мне кажется, действительно нужен. Пока в порядке эксперимента используются соответствующие формы, жизнь должна показать, что годится, что нет. Ведь стандарт - это юридический документ, а право только законодательно закрепляет то, что уже и так сложилось на практике.

Тогда давайте обсудим и примем стандарт описания для наших личных библиотек, как и предлагает Ершов? Это решит для нас ряд проблем, в частности возможность создания единого фонда, опираясь на это описание. Вся информация будет браться из него.

128. Zmiy, Минск (zmiy@inbox.ru) 10:31:20 [ответить]

Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.
См. тему "А-y! Деpжатели сетевых библиотек!"
Там Слава Алексеев предлагает на суд свой вариант "поискового классификатора для электронных библиотек"...
Вход, например, тут http://www.fido-online.com/>http://www.fido-online.com/

129. InFAiR, Уфа (infair@rusoil.net) 17:17:31 [ответить]
> 128. Zmiy.

> См. тему "А-y! Деpжатели сетевых библиотек!"

Кажется у Платона, я читал,
что восприятие жизни людьми ассоциируется у него с такой картиной:
где-то в пещере люди прикованы лицом к стене
и о событиях вне стен этой пещеры они судят по теням,
отбрасываемым происходящим вне пещеры,
причем только тем, которые проникают через узкий вход.

Эта картина немного напоминает рунет,
по части электронных библиотек, в частности,
и обычные, бумажные - в полной мере.

Попробуйте взглянуть на все со следующей точки зрения.

Мысли - это камешки, мелкие, крупные, цветные - разные.
Термины - это цемент, незначимые слова - вода.
Пишущие книги - строители, замешивающие растворы,
в результате чего получается кладочный раствор, штукатурка, бетон.
Издатели отливают блоки, из которых составляют пирамиды библиотек.

Чтобы добраться до необходимой информации,
которая лежит, может на вершине пирамиды, а может в глубине ее
надо иметь механизмы.
Даже отыскав необходимый блок - его надо поднять, осилить интеллектуально.
Затем проникнуть внутрь блока, чтобы отыскать ту необходимую мысль.

Это все идет от физической природы бумажных библиотек,
которые, как это становится очевидным на данном этапе,
недалеко ушли от каменного века и глиняных, клинописных.
Нельзя изготовить бумажную книгу в 750 тыс. стр., или размером 100х100 м.
В электронном варианте таких ограничений нет,
но многие привязаны к традиционной схеме -
максимум - это электронный каталог-спецификация на пирамиду
или гиперссылки - узкие ходы и коридоры в теле пирамиды.

Мой взгляд на библиотеку следующий.

Перевод в электронный вид - это разрушение пирамиды.
Но при этом, структура сохраняется, информация не пропадает, мысли не исчезают.
Мы даже отсканированные изображения держим,
чтобы в любой момент можно было проверить идентичность,
или восстановить блок (книгу) в первозданном виде.
Не исчезли ни песок, ни вода, ни цемент.
Компьютер позволяет мгновенно просеять все и отделить,
не скажу ╚зерна от плевел╩, но, по крайней мере, разделить на фракции,
и, при необходимости, отлить новый блок в новой форме.
Но это побочный эффект.
Основное - с применением различных методов поиска, стало возможным
разделение информации (синтез, надеюсь еще впереди).

Отсюда и заблуждение в последовательности поиска:
найти полку (раздел) - найти книгу - найти страницу - найти фразу.
В нашей программе вводится слово
(или фраза, или автор, или что хотите)
(как впрочем, и во всех поисковых программах);
Осуществляется ╚сквозной╩, полнотекстовый в настоящем смысле поиск:
программа ╚пролистывает╩ все 2,5 тыс. книг, естественно по индексу.
В результатах поиска - все, и меня не интересует какая книга, кто автор и
т.п., хотя эта информация тоже выводится.

Для существующих текстовых (txt) электронных библиотек
создать такую программу плевое дело:
надо разбить тексты на блоки,
на каждом поставить штамп изготовителя (автор, название книги)
и время изготовления (стр. ил

СООБЩЕНИЯ ЗА 29.01.2003

130. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:24:40 [ответить]
> 128. Zmiy.

> Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.

Как помнится, это, наверно, 50-й по счету классификатор в истории BOOK. Наверняка будут еще 100-й, 150-й и т.д. 8-) Для ВOOK в целом, каковой она себя представляет в настоящий момент, этот классификатор годится, так как текстов по филологии там, можно сказать, почти совсем нет. Нет политэкономии, истории и теории искусства. С историей дело обстоит тоже, мягко выражаясь, далеко не самым лучшим образом. С другими гуманитарными науками ненамного лучше, хотя ошибиться могу. Действительно художественная литература представлена, по сравнению с инетом, очень слабо. Ее возможно поэтому, как Слава предлагает, в принципе, полностью впихнуть в один раздел "Остальное". Но тогда останется еще логическое несоответствие с сохранением разделов "Проза" (как таковая), "Поэзия" (как таковая), "Драматургия". Взять, например, хороший однотомник Лермонтова, где проза, поэзия и драматургия в одном "флаконе" находятся. К какому из предлагаемых трех разделов такое издание относить? Или это именно единственно возможный случай для раздела "Остальное"? Многие фидошники - собиратели электронной литературы - обычно, помнится, совали такие вещи в раздел "Драма", куда помещалось буквально все посерьезнее Марининой, Чейза, Толкиена и Гарри Портера, т.е. все то, что было выше их уровня развития и потому абсолютно недоступно для их понимания. Ну, а в инете такая свалка просто не годится. Необходимо деление настоящей художественной литературы по периодам, хоть минимальное (античность, средние века, Возрождение и т.д.). И, разумеется, деление на прозу-поэзию-драматургию, я считаю, тоже ни к чему.

131. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:27:40 [ответить]
> 127. Соколов.
> > 126. Вячеслав Сачков.
> > > 125. Соколов.
> Тогда давайте обсудим и примем стандарт описания для наших личных библиотек, как и предлагает Ершов? Это решит для нас ряд проблем, в частности возможность создания единого фонда, опираясь на это описание. Вся информация будет браться из него.

Не понял, стандарт описания чего - личных библиотек или хранящихся в них текстов?

СООБЩЕНИЯ ЗА 30.01.2003

132. Zmiy, Минск (zmiy@inbox.ru) 12:38:44 [ответить]
Привет All!

Не будет ли любезен многоуважаемый All раскрыть тайну "Золотого ключика"?

Абзацем считается несколько предложений не разделенных переводом строки. Это видно в ФР или в Ворде, если включить отображение непечатаемых символов. Если есть перевод строки - это новый абзац.

Замечено, что ФР5/6 неверно распознают абзацы. Т.е. происходит либо склейка либо разделение абзацев. Самый простой пример - стихи - нет переводов строк... Другой пример - если абзац состоит из одного предложения, которое влезает в одну строку, т.е. заканчивается примерно на правой границе, то этот абзац непременно склеится со следующим. Есть еще другие варианты...

Для экспериментов скачайте тестовые TIFFы, на которых проявляются такие ошибки:
http://zpdd.chat.ru/files/test-tif.rar>http://zpdd.chat.ru/files/test-tif.rar

Результаты моих исследований можно посмотреть тут:
http://zpdd.chat.ru/files/test-txt.rar>http://zpdd.chat.ru/files/test-txt.rar

Пояснения: 4-5-6 - ФР4-ФР5-ФР6

*.tx1 - сохранение из ФР в ТХТ с делением на строки

*.tx2 - сохранение из ФР в ТХТ без деления на строки, вот только test4.tx2 получен из test4.tx1 (на переносы не смотреть).

В test5.tx2 и test6.tx2 видно если смотреть по картинкам, где идет склейка абзацев!

*.tx3 - сохранение из ФР5/6 в *.rtf плюс пропуск через спец-программу. Видно, что абзацы, которые склеились в *.tx2 исправлены, но есть ложные срабатывания алгоритма - ложные абзацы...

Так вот, наконец, вопрос:
Как All борется с такой ситуацией?
Какова методика исправления абзацев? (кроме как вычитки)

ФР4 не предлагать!
Это слишком просто (очень примитивно в век ФР5/6 и космических полетов).
Я знаю, что в ФР4 есть сохранение в TXT
с сохранением форматирования при помощи пробелов. И видел, что там с абзацами таких проблем нету...

С уважением, Zmiy. --------------:-)
http://zmiy.da.ru>http://zmiy.da.ru

133. ЯVR, 16:12:16 [ответить]
А у меня вопрос : как убить дикое количество пробелов в распознанном тексте ? (FR 6) Файлы txt.

134. InFAiR, Уфа (infair@rusoil.net) 18:37:48 [ответить]
> 133. ЯVR.
> дикое количество пробелов

:) Открыть в Word
Ctrl+F; Найти "два пробела"
Заменить "один пробел"
"Заменить все"
ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

135. InFAiR, Уфа (infair@rusoil.net) 18:54:58 [ответить]
> 132. Zmiy.

> тайна "Золотого ключика"

:) Открыть в Word
Ctrl+F; Найти "Специальный" "разрыв строки";
"Заменить все"
ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

136. ЯVR, 19:44:40 [ответить]
> 134. InFAiR.
> > 133. ЯVR.
> > дикое количество пробелов
>
> :) Открыть в Word
> Ctrl+F; Найти "два пробела"
> Заменить "один пробел"
> "Заменить все"
> ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

Ничего не получается :)))

137. InFAiR, Уфа (infair@rusoil.net) 20:20:02 [ответить]
> 136. ЯVR.
> Ничего не получается :)))

Ясное дело! В окошке "найти" надо не писать "два пробела",
а два раза на клавишу "пробел" нажать!

138. ЯVR, 20:54:33 [ответить]
> 137. InFAiR.
> > 136. ЯVR.
> > Ничего не получается :)))
>
> Ясное дело! В окошке "найти" надо не писать "два пробела",
> а два раза на клавишу "пробел" нажать!

:))) Вот теперь до меня дошло.

СООБЩЕНИЯ ЗА 31.01.2003

139. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:54:44 [ответить]
> 132. Zmiy.
> Привет All!
>
> Не будет ли любезен многоуважаемый All раскрыть тайну "Золотого ключика"?
>
> Абзацем считается несколько предложений не разделенных переводом строки. Это видно в ФР или в Ворде, если включить отображение непечатаемых символов. Если есть перевод строки - это новый абзац.
>

Может быть, я тебя неправильно понял, но общий принцип борьбы с неправильным разбиением на абзацы такой. В FP6 есть опция "Разрыв строк между абзацами". Имеет смысл пробовать с ней и без нее и сравнивать. Я попробовал. Если гнать сразу в дос, в какой-нибудь нафигатор, точно сильно лучше - с ликвидацией ненужных пустых строк по только что описанной здесь методике. В виндовозе не пробовал, поэтому не скажу. Но, наверно, помогает.

СООБЩЕНИЯ ЗА 03.02.2003

140. Zmiy, Минск (zmiy@inbox.ru) 14:01:25 [ответить]
> 139. Вячеслав Сачков.
>
> Может быть, я тебя неправильно понял, но общий принцип борьбы с неправильным разбиением на абзацы такой. В FP6 есть опция "Разрыв строк между абзацами". Имеет смысл пробовать с ней и без нее и сравнивать. Я попробовал. Если гнать сразу в дос, в какой-нибудь нафигатор, точно сильно лучше - с ликвидацией ненужных пустых строк по только что описанной здесь методике. В виндовозе не пробовал, поэтому не скажу. Но, наверно, помогает.

Возможно и не понял... --------------;-)

ФР5/6 при сохранении в ТХТ с "разрывом строк между абзацами" вставляет эти "разрывы" (пустые строки) аналогично - неправильно - после своего же, неправильно определенного, конца абзаца (перевода строки)...

Label_l40 :
Если захочется поэкспериментировать, то скачай мои файлы, что я предлагал, и опиши методику сохранения текста из ФР5/6 в куда-нибудь и обработки его так, чтобы получился вариант test4.tx1, где ФР4 абсолютно точно воспроизвел разбиение на абзацы, выделив их тремя пробелами и при этом они полностью совпадают с абзацами из TIFFов...

СООБЩЕНИЯ ЗА 31.01.2003

141. Zmiy, Минск (zmiy@inbox.ru) 10:47:12 [ответить]
> 133. ЯVR.
> А у меня вопрос : как убить дикое количество пробелов в распознанном тексте ? (FR 6) Файлы txt.

Скачай тут набор маленьких программ на все случаи жизни:
http://lleo.aha.ru/soft/micrsoft.htm>http://lleo.aha.ru/soft/micrsoft.htm

СООБЩЕНИЯ ЗА 03.02.2003

144. PDF-Library, Augsburg, Germany (news@imwerden.de) 15:22:00 [ответить]
> 141. Zmiy.
> > 133. ЯVR.
> > А у меня вопрос : как убить дикое количество пробелов в распознанном тексте ? (FR 6) Файлы txt.
>
> Скачай тут набор маленьких программ на все случаи жизни:
> http://lleo.aha.ru/soft/micrsoft.htm>http://lleo.aha.ru/soft/micrsoft.htm

> В общем, что уже сделано - то есть, а доделок-переделок не будет.
> Архив программ LLEOSOFT.ZIP - 55кб
> В этом комплекте находятся 36 мелких программок для обработки текстов, они написаны под DOS и хороши

А что такое DOS ?????

Этим самым DOS не пользуются уже 99,99 %, а тем более такими программами для DOS, которым нужен русский DOS...

145. Zmiy, Минск (zmiy@inbox.ru) 14:01:57 [ответить]
> 135. InFAiR.
> > 132. Zmiy.
>
> > тайна "Золотого ключика"
>
> :) Открыть в Word
> Ctrl+F; Найти "Специальный" "разрыв строки";
> "Заменить все"
> ОК, ОК, ОК ... пока не увидишь "Произведено 0 замен"

goto Label_l40

СООБЩЕНИЯ ЗА 05.02.2003

146. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 04:28:59 [ответить]
> 128. Zmiy.

> Сейчас в группах новостей RU.OCR и SU.BOOKS проходит обсуждение предложения В.Ершова.
> См. тему "А-y! Деpжатели сетевых библиотек!"
> Там Слава Алексеев предлагает на суд свой вариант "поискового классификатора для электронных библиотек"...
> Вход, например, тут http://www.fido-online.com/>http://www.fido-online.com/

Я все-таки не понял, что ты там интересного нашел? Подробную клссификацию порнографии по Максимовой, что ли? Мне лично она по фиг. А что еще?

147. VV, 12:21:49 [ответить]
Вопрос.

Я пытаюсь соорудить один многостраничный файл-книжку из серии отсканированных greyscale страниц-картинок. FineReader-6 хоть и делает PDF, но автоматически снижает фактическую точность (resolution) изображения и вообще что-то там обрабатывает и местами портит изображение. Например, каждую картинку пытается чуток повернуть. А мне нужно непременно сохранить исходные файлы как они есть. Не менять картинки ни на грамм, просто "сшить" их в один файл-книжку. Формат PDF не так уж и обязателен, хотя и желателен как удобный стандарт.

Спрашивается, можно ли уговорить FineReader принимать картинки без доп.обработки? А может, есть какой "более другой" freeware/shareware для создания файлов PDF?

СООБЩЕНИЯ ЗА 09.02.2003

148. Олег Френкель, Торонто (znamenka@yahoo.com) 05:14:48 [ответить]
> 130. Вячеслав Сачков.
> > 128. Zmiy.
>
> Взять, например, хороший однотомник Лермонтова, где проза, поэзия и драматургия в одном "флаконе" находятся. К какому из предлагаемых трех разделов такое издание относить? Или это именно единственно возможный случай для раздела "Остальное"?

На мой взгляд, этот однотомник Лермонтова надо отнести ко всем трем разделам. А раздел "Остальное" свести к минимуму, а желательно вообще исключить. Кстати, именно по этой причине я пользуюсь только поиском на мошковской библиотеке. Скажем, я хочу почитать Бушкова. В какой раздел мне идти? Фантастика, история, современная проза? Ясное дело, я не помню в каком разделе Бушков находится у Мошкова, хотя относится ко всем трем. А по идее должен находится во всех разделах к которым относится. И меня, как читателя, не смутит факт что я пошел в раздел "история", а там книжки Бушкова не только про историю. Смущает меня, наоборот: я иду в раздел "история", а там нет книжек Бушкова про историю.

Надеюсь, мне не будут возражать в том плане что если поместить книжку в нескольких разделах, то придется хранить её в нескольких копиях (во всех разделах хранится ссылка на одну копию -- впрочем это очевидно).

СООБЩЕНИЯ ЗА 10.02.2003

149. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:22:24 [ответить]
> 148. Олег Френкель.
> > 130. Вячеслав Сачков.
> > > 128. Zmiy.
> >
> > Взять, например, хороший однотомник Лермонтова, где проза, поэзия и драматургия в одном "флаконе" находятся. К какому из предлагаемых трех разделов такое издание относить? Или это именно единственно возможный случай для раздела "Остальное"?
>
> На мой взгляд, этот однотомник Лермонтова надо отнести ко всем трем разделам. А раздел "Остальное" свести к минимуму, а желательно вообще исключить. Кстати, именно по этой причине я

Дорогой друг! Библиография - это очень серьезная и большая наука, которой в ин-те культуры учатся 5 лет, для того чтобы получить минимальные познания по этому предмету. Это "бумажная" библиография, которая сильно ПРОЩЕ файловой. Давайте не будем упрощать проблемы. Тут осторожность, осторожность и осторожность нужна. А дилетанство губительно.

150. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:48:03 [ответить]
Переехал с двадцатника на шестидесятник, после чего файнридер затребовал переустановки. Быват. Но чтобы притом слетали рабочие пакеты - это архисвинство. Месяц работы коту под хвост. :-( Джими Хендрикс в таких ситуациях пел FHITA.

151. Григорий, Ярославль 22:03:16 [ответить]
> 150. Вячеслав Сачков.
> Переехал с двадцатника на шестидесятник, после чего файнридер затребовал переустановки. Быват. Но чтобы притом слетали рабочие пакеты - это архисвинство. Месяц работы коту под хвост. :-( Джими Хендрикс в таких ситуациях пел FHITA.

Как слетали? В чем это проявлялось?

СООБЩЕНИЯ ЗА 11.02.2003

152. Олег Френкель, Торонто (znamenka@yahoo.com) 01:49:20 [ответить]
> 149. Вячеслав Сачков.
> > 148. Олег Френкель.
> > > 130. Вячеслав Сачков.
> > > > 128. Zmiy.
> > >
> Дорогой друг! Библиография - это очень серьезная и большая наука, которой в ин-те культуры учатся 5 лет, для того чтобы получить минимальные познания по этому предмету. Это "бумажная" библиография, которая сильно ПРОЩЕ файловой. Давайте не будем упрощать проблемы. Тут осторожность, осторожность и осторожность нужна. А дилетанство губительно.

Согласен, что библиография - это очень серьезная и большая наука. К тому же я никогда не изучал библиографию. Более того, я не совсем точно представляю себе о чем эта наука. Я о ней и не пытался высказываться. Просто я, как рядовой читатель, выразил свое мнение в каких категориях хотел бы найти книжки (но не к каким категориям относить эти книжки!). И привел пример с однотомником Лермонтова и книгами Бушкова. Более того, я думаю вам, библиографам, стоит иногда прислушаться к пожеланиям дилетантов (конечно же, только в плане использования библиотек, а не в их устройстве). Ведь основная масса читателей -- дилетанты в библиогафии. А подавляющее большинство библиотек в интернете расчитано именно на дилетантов.

В общем виде, я могу сформулировать проблему следующим образом. Каким образом организовать электронную библиотеку чтобы читателю было наиболее просто найти интересующую его книжку. Если же вы имели в виду другую проблему с этой совершенно не связанную, я приношу свои извинения что влез не поняв о чем идет речь. В противном случае, можно обменяться мнениями.

153. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:59:17 [ответить]
> 151. Григорий.
> > 150. Вячеслав Сачков.
> > Переехал с двадцатника на шестидесятник, после чего файнридер затребовал переустановки. Быват. Но чтобы притом слетали рабочие пакеты - это архисвинство. Месяц работы коту под хвост. :-( Джими Хендрикс в таких ситуациях пел FHITA.
>
> Как слетали? В чем это проявлялось?

Очень просто. Обращаюсь к пакету, ФР отвечает: какой-то там .dat полетел, попробую восстановить, тыр-пыр 2 часа без результата. Сколько еще ждать? Выключил, естественно. Все. Впрочем, надул я эту тупую скотину все-таки. Просто вошел в каталог, вызвал одну из картинок и вместе с ней весь пакет, куда ему положено, и выкатился.

154. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 03:34:59 [ответить]
> 152. Олег Френкель.
> > 149. Вячеслав Сачков.
> > > 148. Олег Френкель.
> > > > 130. Вячеслав Сачков.
> > > > > 128. Zmiy.
я, как рядовой читатель, выразил свое мнение в каких категориях хотел бы найти книжки (но не к каким категориям относить эти книжки!). И привел пример с однотомником Лермонтова и книгами Бушкова. Более того, я думаю вам, библиографам, стоит иногда прислушаться к пожеланиям дилетантов (конечно же, только в плане использования библиотек, а не в их устройстве). Ведь основная масса читателей -- дилетанты в библиогафии. А подавляющее большинство библиотек в интернете расчитано именно на дилетантов.
>
> В общем виде, я могу сформулировать проблему следующим образом. Каким образом организовать электронную библиотеку чтобы читателю было наиболее просто найти интересующую его книжку. Если же вы имели в виду другую проблему с этой совершенно не связанную, я приношу свои извинения что влез не поняв о чем идет речь. В противном случае, можно обменяться мнениями.

Не хочется мне Вас обижать, но если честно, то для рядового читателя никакой организации никакой рубрикации, по моему глубокому убеждению, вообще не нужно. Вам нужен Бушков? Какие проблемы? Набрал в Яндексе это имя и все дела. Через полгода это имя никто помнить не будет, но Вам его книги нужны здесь и теперь. Другое дело, если Вы всерьез занимаетесь, например, изучением творчества и биографии Льва Толстого. По первому проходу в сети появляются одни его главнейшие произведения. По второму - менее известные. По третьему - основные критические работы. По четвертому - обзоры критики. По пятому - архивные материалы. По шестому - обзоры по архивным материалам. И т.д. Если бы Вы имели дело с "бумажной" литературой и Ваша задача была в том, чтобы просмотреть все контексты толстовского выражения "И во тьме правда светит", Вам пришлось бы сделать титаническую работу. В сети, по идее, это сделать гораздо проще. Проблема тут в том, что не всегда это выражение воспроизводится буквально точно, есть искажения. Как с этим бороться - отдельный большой вопрос, но на подходе к его решению крайне необходима рубрикация, которую нельзя создать готовой прямо сразу (см. вышеперечисленные проходы, для каждого из них только своя рубрикация годится), поэтому приходится делать рубрикацию "на вырост", представляя себе, как она будет развиваться в дальнейшем.

СООБЩЕНИЯ ЗА 13.02.2003

155. Гершон, Хеврон 20:38:07 [ответить]
Посоветуйте, пожалуйста, какой сканер (планшетного типа) лучше приобрести для сканирования книг, чтобы на сканирование страницы
уходило как можно меньше времени. Компьютер Pent.3, Windows 98 SE.
Спасибо.

156. DR, 23:20:37 [ответить]
> 155. Гершон.
> Посоветуйте, пожалуйста, какой сканер (планшетного типа) лучше приобрести для сканирования книг, чтобы на сканирование страницы
> уходило как можно меньше времени. Компьютер Pent.3, Windows 98 SE.
> Спасибо.

Однозначного ответа нет. Зависит, какие страницы Вы собираетесь главным образом сканировать. Тексты или цветные картинки, например. И какая точность (resolution) Вас интересует. Например, если это иврит с диакритическими знаками, книга видавшая виды и шрифт мелкий, то обычных 300 dpi, может, и хватит, но "с натягом".

И насколько важно, чтобы помещался разворот книги, не влезающий в стандартный планшет Letter-long, то есть нужен ли планшет А3. Такие сканнеры тоже есть, но они очень дорогие. Есть ещё сканнеры быстрые из-за более прогрессивного принципа сканирования, но и они весьма недёшевы.

И, наконец, ради моральной поддержки героических хевронцев :) если интересует подержанный, но абсоютно исправный сканнер по символической цене, самовывозом из Рамат-Гана или окрестностей - сообщите координаты. Ну а если не интересует - всё равно примите наилучшие пожелания :)

СООБЩЕНИЯ ЗА 14.02.2003

157. Гершон, Хеврон 00:00:46 [ответить]
Уважаемый DR!
Спасибо за Ваше сообщение.
Мне нужно просканировать текст книг на русском языке и ничего более.
> 156. DR.
> > 155. Гершон.
> > Посоветуйте, пожалуйста, какой сканер (планшетного типа) лучше приобрести для сканирования книг, чтобы на сканирование страницы
> > уходило как можно меньше времени. Компьютер Pent.3, Windows 98 SE.
> > Спасибо.
>
> Однозначного ответа нет. Зависит, какие страницы Вы собираетесь главным образом сканировать. Тексты или цветные картинки, например. И какая точность (resolution) Вас интересует. Например, если это иврит с диакритическими знаками, книга видавшая виды и шрифт мелкий, то обычных 300 dpi, может, и хватит, но "с натягом".
>
> И насколько важно, чтобы помещался разворот книги, не влезающий в стандартный планшет Letter-long, то есть нужен ли планшет А3. Такие сканнеры тоже есть, но они очень дорогие. Есть ещё сканнеры быстрые из-за более прогрессивного принципа сканирования, но и они весьма недёшевы.
>
> И, наконец, ради моральной поддержки героических хевронцев :) если интересует подержанный, но абсоютно исправный сканнер по символической цене, самовывозом из Рамат-Гана или окрестностей - сообщите координаты. Ну а если не интересует - всё равно примите наилучшие пожелания :)

158. DR, 16:40:07 [ответить]
> 157. Гершон.
> Мне нужно просканировать текст книг на русском языке и ничего более.

Тогда IMHO нет смысла тратиться на новый сканер. Тем более супер-быстродействующий. Всё равно FineReader почти наверняка будет его притормаживать своим OCR-ом. И вообще, по слухам, в сетевом подполье (mIRC, newsgroups и т.д.) ходит-бродит столько отсканированных текстов, что надо хорошенько проверить - может, книги-то уже давно отсканированы.

159. Гершон, Хеврон 18:29:14 [ответить]
> 158. DR.
> > 157. Гершон.
> > Мне нужно просканировать текст книг на русском языке и ничего более.
>
> Тогда IMHO нет смысла тратиться на новый сканер. Тем более супер-быстродействующий. Всё равно FineReader почти наверняка будет его притормаживать своим OCR-ом. И вообще, по слухам, в сетевом подполье (mIRC, newsgroups и т.д.) ходит-бродит столько отсканированных текстов, что надо хорошенько проверить - может, книги-то уже давно отсканированы.
Пытался найти отсканированные книги Э.Севелы, ничего не нашёл, кроме нескольких произведений.
Поэтому хочу отсканировать свои книги этого автора. Сканирование двойной страницы книги занимает 80 секунд моим старым сканером Mustek 600CP (без обработки OCR). Книг много, уж очень всё это долго.
Какой всё таки быстрый сканер приобрести?
Ещё раз спасибо за информацию.

СООБЩЕНИЯ ЗА 15.02.2003

160. Zmiy, Минск (zmiy@inbox.ru) 21:56:18 [ответить]
> 159. Гершон.
> Пытался найти отсканированные книги Э.Севелы, ничего не нашёл, кроме нескольких произведений.
> Поэтому хочу отсканировать свои книги этого автора. Сканирование двойной страницы книги занимает 80 секунд моим старым сканером Mustek 600CP (без обработки OCR). Книг много, уж очень всё это долго.
> Какой всё таки быстрый сканер приобрести?
> Ещё раз спасибо за информацию.

В интернете есть :

Севела Эфраим
Зуб мудрости
Моня Цацкес - знаменосец
Остановите самолет - я слезу !
Попугай, говорящий на идиш
Продай твою мать

Для информации :
У меня планшетный сканер Mustek 1200CU (цена ~ 70-80$).
Скорость сканирования в ч/б: min - 170, max - 200 стр./час.
(200 стр. = 100 разворотов книги (двойных страниц) )

P.S. Если на странице не много ошибок, то ФР ничего не "притормаживает"!
Я успеваю за время обратного хода перевернуть лист книги...

СООБЩЕНИЯ ЗА 16.02.2003

161. PDF-библиотека, Augsburg (info@imwerden.de) 11:22:00 [ответить]
> 150. Вячеслав Сачков.
> Переехал с двадцатника на шестидесятник, после чего файнридер затребовал переустановки.

Любопытно до чортиков. А что такое "двадцатник" и "шестидесятник" ??? Я каждый раз поражаюсь - почему же я ничего не понимаю???

162. Tark, Москва (tark@altern.org) 15:26:18 [ответить]
> 161. PDF-библиотека.
> > 150. Вячеслав Сачков.
> > Переехал с двадцатника на шестидесятник, после чего файнридер затребовал переустановки.
>
> Любопытно до чортиков. А что такое "двадцатник" и "шестидесятник" ??? Я каждый раз поражаюсь - почему же я ничего не понимаю???

Это не поколения, как можно было бы подумать, а всего навсего размеры жесткого диска :-)

СООБЩЕНИЯ ЗА 20.02.2003

163. Damirjan, Когалым (damirjan@mail.ru) 12:18:41 [ответить]
> 147. VV.
> Вопрос.
>
> Я пытаюсь соорудить один многостраничный файл-книжку из серии отсканированных greyscale страниц-картинок. FineReader-6 хоть и делает PDF, но автоматически снижает фактическую точность (resolution) изображения и вообще что-то там обрабатывает и местами портит изображение. Например, каждую картинку пытается чуток повернуть. А мне нужно непременно сохранить исходные файлы как они есть. Не менять картинки ни на грамм, просто "сшить" их в один файл-книжку. Формат PDF не так уж и обязателен, хотя и желателен как удобный стандарт.
>
> Спрашивается, можно ли уговорить FineReader принимать картинки без доп.обработки? А может, есть какой "более другой" freeware/shareware для создания файлов PDF?

По поводу снижения resolution есть опция "Снижать разрешение до 100 dpi". Уберите эту галочку и все будет ОК.

СООБЩЕНИЯ ЗА 21.02.2003

164. VV, 12:23:50 [ответить]
> > ...PDF, но автоматически снижает фактическую точность (resolution) изображения и вообще что-то там обрабатывает и местами портит изображение. Например, каждую картинку пытается чуток повернуть. А мне нужно непременно сохранить исходные файлы как они есть...
> > Спрашивается, можно ли уговорить FineReader принимать картинки без доп.обработки? А может, есть какой "более другой" freeware/shareware для создания файлов PDF?

> По поводу снижения resolution есть опция "Снижать разрешение до 100 dpi". Уберите эту галочку и все будет ОК.

Увы, это не помогает. Формально размер картинки - как при 300 dpi, a фактически это сначала уменьшенная, а потом увеличенная картинка. Когда речь идёт об обычном тексте - почти незаметно, а если есть вещи тонкие, например иероглифы, - всё портится. Опять же насильственный поворот тоже смазывает мелкие детали.

Ладно, я буду пробовать другие пути. Хрен с ним с PDF-ом, попробуем просто HTML+jpg...

165. InFAiR, Уфа (infair@rusoil.net) 16:30:15 [ответить]

> Ладно, я буду пробовать другие пути. Хрен с ним с PDF-ом, попробуем просто HTML+jpg...

- Ошибка их в том, что ...
... они искали сокровища, спрятанные на Пути, а сам Путь обходили.
- Так чего же мне не хватает? - повторил свой вопрос юноша.

Пауло Коэльо "Алхимик"

http://tom.imm.uran.ru/~u1318/djvu/djvu.htm>http://tom.imm.uran.ru/~u1318/djvu/djvu.htm
http://subscribe.ru/archive/radio.oldradio/200103/05200802.html>http://subscribe.ru/archive/radio.oldradio/200103/05200802.html

Continue