Список форумов |  Добавить сообщение |  Правила |  30.11.2024, суббота, 20:21:36
СПИСОК ФОРУМОВ
30.11.2024
16:20 Главная гостевая книга библиотеки(3693)
24.11.2024
16:42 "Разыскиваются книжки", доска объявлений(15475)
20.11.2024
11:47 Обо всем - мнения(3131)
07:16 Русские впечатления о заграничной жизни(9431)
01.10.2024
13:10 Проблемы OCR и электронных библиотек(1967)
09.09.2024
04:35 Книжки, которые скоро будут выложены(47)
06.05.2024
02:06 О возвышенной поэзии(1568)
02.02.2024
15:33 Книжки, которые стоит прочитать(5187)
12.11.2023
00:25 Мнения читателей о дизайне библиотеки(1478)
Lib.Ru

Проблемы OCR и электронных библиотек
Тема форума: В этом форуме обсуждаются общие проблемы связанные с поддержкой электронных библиотек и сканированием книг.

А так же обсуждение статьи Вадима Ершова "О коллективных сайтах"

Отсортировано по [убыванию] [возрастанию]   

СООБЩЕНИЯ ЗА 12.12.2002
56. Виталий Папилкин, Samara (rio-tv@mail.ru) 14:41:52 [ответить]
      Предлагаю составить рейтинг библиотечно-издательских систем. Господа Участники ЛИТКЛУБА, жду ваших предложений. Какой из ресурсов, по-вашему, должен войти в список для голосования. Сейчас в нем:
     
      - Библиотека Максима Мошкова (Самиздат www.lib.ru).
     
      - Национальный сервер современной прозы (www.proza.ru).
     
      - Самиздат (www.samizdat.sol.ru).
     
      - USERLINE (www.userline.ru).
     
      - Группа 62 (www.group62.ru).
     
      - FAБРИКА.ru (http://www.f-abrika.ru>http://www.f-abrika.ru).
     
      - Локальная сеть на Таганке (http://arch.cpms.ru/office/>http://arch.cpms.ru/office/).
     
      - Самиздат - сателит сайта \"Современной гей-литературы\" (http://leshk.webservis.ru>http://leshk.webservis.ru)
     
      - Литературный журнал \"ПЕРЕФЕРИЯ\". (http://periferia.kulichki.net>http://periferia.kulichki.net).
     
      Жду ваших предложений в течении недели на e-mail, в форме ответов на это сообщение в ЛИТКЛУБЕ, а так же мнений в гостевой книге своего сайта.
     
      Напоминаю вопрос будущего голосования: \"Какая из предложенных ниже библиотечно-издательских систем, по вашему, работает лучших других?\"


57. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 22:28:17 [ответить]
      КЛАССНАЯ КНИГА!!! RPOSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


СООБЩЕНИЯ ЗА 14.12.2002
59. Izvergue, 13:08:01 [ответить]
      Помогите разобраться!
      Отсканировал я книжку и хочу отформатировать её "под Мошкова". Какой прогой это делается?


60. Григорий, Ярославль 22:25:50 [ответить]
      > 59. Izvergue.
      > Помогите разобраться!
      > Отсканировал я книжку и хочу отформатировать её "под Мошкова". Какой прогой это делается?
     
      Смотри тут:
      http://lib.ru/TXT/incoming.txt>http://lib.ru/TXT/incoming.txt
      Также тут вот: http://www.lib.ru/COMPULIB/ocr_bychkov.txt>http://www.lib.ru/COMPULIB/ocr_bychkov.txt
      есть ссылка на прогу: http://www.lib.ru/COMPULIB/ocr_bychkov_textfmt.rar>http://www.lib.ru/COMPULIB/ocr_bychkov_textfmt.rar


СООБЩЕНИЯ ЗА 17.12.2002
61. Сергей, Н. Новгород (szan@mail.nnov.ru) 15:44:28 [ответить]
      Как в данной библиотеке найти т.н. "бирюльки", которыми ведала в свое время "КП" в рубрике "Verbлюд"?


СООБЩЕНИЯ ЗА 19.12.2002
62. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 19:52:29 [ответить]
      КЛАССНАЯ КНИГА!!! PROSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


СООБЩЕНИЯ ЗА 25.12.2002
63. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:05:19 [ответить]
      По предложению В.Ершова
      Сама идея - это принцип работы фидошной файлэхи book, распространенный на инет, понятно. Мои замечания. Ни у кого вообще полного комплекта файлов, пробегавших по book, нет, хотя у людей имеются огромные архивы. Что-то по разным причинам в архивы не откладывается и не откладывается вообще нигде. Но тем не менее, имеются, повторяю, огромные архивы. Если тройку-четверку из них в один свести, то с разных узлов вольется в одну воронку дополнительно к совпадающим еще несколько сот книг. И это хорошо, это правильно. Но представим далее, что сводный узел грохнулся, а наполнявшие его, напрасно понадеявшись на его надежность, очистились. Что имеем? Исчезновение одним махом всей коллекции. Поэтому нужна, как минимум, двойная страховка. Правильно? В том же book в точности одни и те же тексты в ha-файлах, пропущенные (продублированные) с интервалом в два года и более, именовались по-разному. Это своего рода вид страховки тоже, где-то оправданный по обстоятельствам, описанным мной здесь выше. Но когда абсолютно идентичные дубли в по-разному поименованных архивах на одном и том же винте лежат, то это нужно, может быть, на случай порчи файлов, чтобы тогда стало можно использовать дубликаты. Но, а как же тогда с каталогизацией? Десятки тысяч файлов-то. В этой же путанице, которая образуется, никто никогда вообще не разберется...


64. п пЁп╬я я , п я я -п п╬я п╨ (rubinshteyn2001@yahoo.com) 21:51:00 [ответить]
      п я я я п╣я п╣ п╫п╣п©п╩п╬я п╟я п╠пёп╠п╩пёп╬я п╣п╨п╟ п╫п╟ bestlibrary.ru, пё п©п╬пёя п╨п╬п╡п╟я я пёя я п╣п╪п╟ п╫п╟ kulichki.ru


СООБЩЕНИЯ ЗА 26.12.2002
65. pdf-библиотека, Augsburg (info@imwerden.de) 13:32:39 [ответить]
      По поводу обращения Вадима Ершова. Размышления
     
      Самой лучшей, на мой, конечно, взгляд, была бы специализация библиотек по АВТОРАМ. Например, у меня в библиотеке - полное собрание Евгения Боратынского. Это - моя "специализация". А, например, сочинения Горького меня совершенно не волнуют. Зато Платонов - мой сегодняшний кумир! При этом я послал рассказы Платонова (то, что отсканировал впервые) Машкову. Он их всё ещё не выложил. В формате txt. Кроме того - послал Вадиму Ершову - он их уже выложил в doc. А у меня всё только в pdf. Таким образом, на трёх страницах лежит одно и тоже, но в трёх разных форматах. Остаётся сделать перекрёстные ссылки и работа закончена...
      Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.


СООБЩЕНИЯ ЗА 27.12.2002
66. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:57:10 [ответить]
      > 65. pdf-библиотека.
      Платонова (то, что отсканировал впервые) Машкову. Он их всё ещё не выложил. В формате txt. Кроме того - послал Вадиму Ершову - он их уже выложил в doc. А у меня всё только в pdf. Таким образом, на трёх страницах лежит одно и тоже, но в трёх разных форматах. Остаётся сделать перекрёстные ссылки и работа закончена...
      > Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.
      Ваши случаи легкие. Это один и тот же текст, только под разными именами в разных форматах, что известно. А когда приходит не очень понятно, что, да под разными именами в разных форматах, то тут уже, действительно, черт ногу сломает. Кто-то при сканинге страницы пропускает/путает, кто-то названия перевирает, а сами-то тексты, как таковые, есть. Проблема выбрать из них лучший, хотя он и с дефектами. Но это может быть даже и вовсе не то, что в заголовке. Конкретный пример. Года 3 назад на philosophy.ru валялась ссылка на "Левиафан" Гоббса. Файл где-то на 700 килов. А внутри файла вовсе никакой не Гоббс, а современная развлекательная текстуля, которая тоже "Левиафан" называется. Библиотекарь выложил без проверки. Такое бывает. Ну, и пошел этот файл до людям множиться и гулять. Вот на какую проблему я указываю. А с тем, что Вы описываете, - ясно. Это-то без проблем.


67. Zmiy, Минск (zmiy@inbox.ru) 14:20:42 [ответить]
     
      Для хозяев эл.б-ки www.bestlibrary.ru :
     
      Я НЕНАВИЖУ ДЕБИЛОВ, КОТОРЫЕ УКАЗЫВАЮТ МНЕ ЧЕРЕЗ КАКУЮ СТРАНИЧКУ ВХОДИТЬ НА САЙТ!
     
      ЗАЧЕМ НАСТАВИЛИ СКРИПТОВ НА ЗАГРУЗКУ СТРАНИЧКИ www.bestlibrary.ru/index2.html ??? РАНЬШЕ СПОКОЙНО ЗАГРУЖАЛ ЕЁ, А ТЕПЕРЬ ИДЕТ РЕФРЕШ НА СТАРТОВУЮ СТРАНИЦУ!
     
      С МОИМ ИНТЕРНЕТОМ Я ДОЛЖЕН ПОЛЧАСА ЖДАТЬ ЗАГРУЗКИ ИХ СТАРТОВОЙ СТРАНИЧКИ, ЧТОБ ПОТОМ НАЖАТЬ ССЫЛКУ www.bestlibrary.ru/index2.html И ЕЩЕ ПОЛЧАСА ЖДАТЬ ЗАГРУЗКИ ИХ ГРЁ***ЫХ ФРЕЙМОВ !? Я УЖ НЕ ГОВОРЮ О ЗАГРУЗКАХ СТРАНИЦ АВТОРОВ И СТРАНИЦ ТЕКСТОВ...
     
      СДЕЛАЙТЕ ЕЩЕ БОЛЬШУЮ ВЛОЖЕННОСТЬ! УМА НА ЭТО ВАМ ХВАТИТ!
      ДЛЯ КОГО ВЫ СДЕЛАЛИ СВОЮ БИБЛИОТЕКУ? ДЛЯ СПОНСОРОВ ИЛИ ДЛЯ ЧИТАТЕЛЕЙ???


СООБЩЕНИЯ ЗА 29.12.2002
68. Сергей Сотников, Минск 00:40:39 [ответить]
      Добрый день.
      Среди моих pdf-книг есть несколько экземпляров, в которых не разботает сглаживание текста. Не подскажете ли, в чем проблема, и как ее исправить?


69. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:58:30 [ответить]
      > 65. pdf-библиотека.
      > По поводу обращения Вадима Ершова. Размышления
      >
     
      > Если признать библиотеку Машкова - главной, то необходимо, чтобы у него были самые разнообразные форматы файлов. Ведь классическая Библиотека - это собрание не текстов, а изданий. Об этом косвенно говорит Вадим.
     
      Впрочем, еще подумав, проблему предотвращения путаницы, на которую я все время указывал, можно решить, приняв предложение авторов проекта "OREL" (и реализованное на ОРЛе и в "Милитерре"), а именно, если тексты, которые будут сгоняться на общие сервера, снабжать объяснительной паспортичкой. Для сканерщиков-библиотекарей, которые держат сравнительно небольшое количество текстов, это было бы вполне по силам. Сложнее тем, у кого текстов уж очень много - тысячи и десятки тысяч. Но для сайтов с объемом до нескольких сот файлов в собственных файлохранилищах это вполне реализуемо.


70. PDF-библиотека, Augsburg (info@imwerden.de) 12:18:33 [ответить]
      > 68. Сергей Сотников.
      > Добрый день.
      > Среди моих pdf-книг есть несколько экземпляров, в которых не разботает сглаживание текста. Не подскажете ли, в чем проблема, и как ее исправить?
     
      Это обозначает, что эти pdf сделаны на компьютерах без правильной установки русских шрифтов. При этом буквы становятся картинками с оптимальным расширением (не большим и не маленьким).
      Помочь в этом случае нечем. PDF-Файл это конечный продукт, как, грубо говоря, распечатанный на бумаге текст.


СООБЩЕНИЯ ЗА 02.01.2003
71. Фёдор Москалейчик, Москва (potock@pochtamt.ru) 21:51:23 [ответить]
      КЛАССНАЯ КНИГА!!! PROSTOR.BY.RU
     
     
      Молодой писатель-мистик Фёдор Москалейчик недавно опубликовал свою книгу с эпатажным названием "СОБРАНИЕ СОЧИНЕНИЙ, которые наглая глупость автора осмелилась выставить на суд читателя".
     
      Виртуальная копия книги в виде .zip-архива и on line расположена на сайте prostor.by.ru (а также на зеркале prostor.newmail.ru)
     
      Несмотря на молодость автор уже выработал свой стиль, отличающийся легкостью языка, живой образностью и аффективной насыщенностью.


СООБЩЕНИЯ ЗА 03.01.2003
73. алексей, Самара (novator@samaramail.ru) 22:12:03 [ответить]
      На сайте www.lib.ru у меня возникает такая проблема.Не весь текст который я скачиваю, скачивается нормальною.Какаето честь текста представляет собой набер букв и цифр.Как мне с этим справится?


СООБЩЕНИЯ ЗА 04.01.2003
74. [марат], н.челны (maratustra@yandex.ru) 13:48:35 [ответить]
      ершову (по поводу статьи): не вопрос, а скорее реплика поддержки...


75. [марат], н.челны (maratustra@yandex.ru) 14:10:55 [ответить]
      простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)


76. Eugeny, Екатеринбург (odz@etel.ru) 23:13:26 [ответить]
      Уважаемые господа!
      Существует ли способ перевода Ваших текстов из .txt в .pdb, чтобы было удобно всегда носить с собой!
      С уважением,
      Евгений.


СООБЩЕНИЯ ЗА 05.01.2003
77. bmn, 08:58:11 [ответить]
      > 75. [марат].
      > простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)
     
      Что значит "подвесить"? Если имеется в виду Ваш перевод известного писателя то отправлять Мошкову, если неизвестного, то в "Самиздат"
     
      А вообще-то вопрос не в тот форум задан.


78. [марат], н.челны (maratustra@yandex.ru) 12:26:08 [ответить]
      > 77. bmn.
      > > 75. [марат].
      > > простите,алексей...но вопрос модератору - каким образом я могу "подвесить" на либ перевод произведения (соответственно либ.ру сского)
      >
      > Что значит "подвесить"? Если имеется в виду Ваш перевод известного писателя то отправлять Мошкову, если неизвестного, то в "Самиздат"
     
      я имел в виду "Эйнштейн. Как я вижу мир"
     
      > А вообще-то вопрос не в тот форум задан.
     
      А как интерпретировать "OCR"?
      А как интерпретировать "ить"?


СООБЩЕНИЯ ЗА 08.01.2003
79. bmn, 08:43:05 [ответить]
      > я имел в виду "Эйнштейн. Как я вижу мир"
      Значит отправлять Мошкову - moshkow@systud.msk.su
     
      > > А вообще-то вопрос не в тот форум задан.
      >
      > А как интерпретировать "OCR"?
      Optical Character Recognition :))
     
      > А как интерпретировать "ить"?
     
      Понятия не имею


СООБЩЕНИЯ ЗА 09.01.2003
80. lanky, Ufa 08:51:45 [ответить]
      п╞ п╫п╣ я п╬п╡я п╣п╪ п©п╬п╫я п╩ я п╩я я я пёп╧ я п╣п╨я я п╡
      http://lib.ru/URIKOVA/etika.txt:>http://lib.ru/URIKOVA/etika.txt:
     
      ->п п╟п╢п╫п╬я я я п©я пёп╣п╪ п╫п╟я п╨п╬я пёп╨п╬п╡<-, я п╟п╥п╩пёя п╫я п╣ п╫п╟я пёя п╟п╫пёя пёп╩пё п╨п╬п╫я п╣п╫я я п╟я пёпё. п╜я п╬ п╢п╬п╩п╤п╫п╬ п╠я я я п╪я я п╩п╣п╫пёп╣ п╬п╠ п╬п╠я п╣п╪ п╠п╩п╟пЁп╣, п©п╬п╪п╬я я , я п╣я п©пёп╪п╬я я я пё п╩я п╠п╬п╡я
     
      п╒п╬ п╩пё я п╟п╪п╟ п╨п╫пёпЁп╟ п╫п╟п©пёя п╟п╫п╟ п╨п╬я я п╡п╬, я п╬ п╩пё я п╟я п©п╬п╥п╫п╟п╫п╬ я я п╣п╫п╬п╡п╬


81. Павел, (Lib_Pavel@km.ru) 17:09:49 [ответить]
      Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?


82. Иван, Новосибирск (castle@gorodok.net) 19:14:46 [ответить]
      С некоторых пор страдаю навязчивой идеей скачать папку ПРОЗА. Целиком. Эксперимент начал со Стругатских. Первый этап прошел безболезненно - /CpioGzip.cpz и на винчестере обнаружился файл CpioGzip.cpz. Затем я, согластно прилагающейся инструкции, скопировал себе cpio.exe и gzip.exe. Запустил их: сперва gzip.exe -d CpioGzip.cpz cpiogzip.cp (в этот момент место файла CpioGzip.cpz занял CpioGzip.cp), потом cpio.exe -idmv cpiogzip.cp. В ответ высветилось недвусмысленное CPIO: Unrecognizable archive. Люди знающие, подскажите, пожалуйста, как в этой ситуации поступить?


83. Anonymous, 22:53:03 [ответить]
      > 82. Иван.
      > С некоторых пор страдаю навязчивой идеей скачать папку ПРОЗА. Целиком. Эксперимент начал со Стругатских. Первый этап прошел безболезненно - /CpioGzip.cpz и на винчестере обнаружился файл CpioGzip.cpz. Затем я, согластно прилагающейся инструкции, скопировал себе cpio.exe и gzip.exe. Запустил их: сперва gzip.exe -d CpioGzip.cpz cpiogzip.cp (в этот момент место файла CpioGzip.cpz занял CpioGzip.cp), потом cpio.exe -idmv cpiogzip.cp. В ответ высветилось недвусмысленное CPIO: Unrecognizable archive. Люди знающие, подскажите, пожалуйста, как в этой ситуации поступить?
     
      Попробуйте cpio.exe -idmv < cpiogzip.cp


СООБЩЕНИЯ ЗА 10.01.2003
84. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 05:05:56 [ответить]
      > 81. Павел.
      > Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?
     
      Не понял, зачем такие извращения. Насколько представляю, это бывает оправданно лишь тогда, когда не получается сохранить файл в онлайне интэксплорером. Но тут, похоже, какой-то другой случай. А если тот, тот сам ворд тут не особо причем. Он делает все, что в его силах...


СООБЩЕНИЯ ЗА 13.01.2003
85. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 04:37:13 [ответить]
      Резюме по обращению В.Ершова
      1. Обязательно нужна двойная страховка. ОДНА lib.ru проекта не вытянет. При ожидаемых оборотах бакап фигня. Нужно, как минимум, еще одно хорошее зеркало, бакапящееся в некоторой противофазе.
      2. Обязательно нужны паспортички по типу заведенных Перли (РНСБ aka OREL).


86. Эмин, Баку (azeribooks@narod.ru) 12:09:34 [ответить]
      > 84. Вячеслав Сачков.
      > > 81. Павел.
      > > Проблема такая: в Word 97 начинаю сохранять файлы в *html. Какие-то сохраняются нормально, какие-то выдают недопустимую ошибку. В чем проблема?
      >
      > Не понял, зачем такие извращения. Насколько представляю, это бывает оправданно лишь тогда, когда не получается сохранить файл в онлайне интэксплорером. Но тут, похоже, какой-то другой случай. А если тот, тот сам ворд тут не особо причем. Он делает все, что в его силах...
     
      Вячеслав, у меня похожий вопрос. После сканирования и распознавания текста я обычно сохранию его в Word. Потом вычитка и также сохраняю файл из Word-а в .Htm
      У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?


87. Максим Мошков, 14:13:52 [ответить]
      > 86. Эмин.
     
      > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
     
      Если сохранять просто в txt, размер файла будет порядка 400Кб
     
      Примерно 10% вордовых файлов содержат значимую хтмл-разметку - для их конвертации можно воспользоваться макросом, переводящим стили "bold", "italic", "underline", "subscribe" в хтмл-теги, с последующим сохранением в txt
     
     
      http://www.lib.ru/COMPULIB/wordmacros.txt>http://www.lib.ru/COMPULIB/wordmacros.txt


88. Эмин, Баку (azeribooks@narod.ru) 16:44:38 [ответить]
      > 87. Максим Мошков.
      > > 86. Эмин.
      >
      > > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
      >
      > Если сохранять просто в txt, размер файла будет порядка 400Кб
      >
      > Примерно 10% вордовых файлов содержат значимую хтмл-разметку - для их конвертации можно воспользоваться макросом, переводящим стили "bold", "italic", "underline", "subscribe" в хтмл-теги, с последующим сохранением в txt
      >
      >
      > http://www.lib.ru/COMPULIB/wordmacros.txt>http://www.lib.ru/COMPULIB/wordmacros.txt
     
     
      Максим, я попытался записать Ваш макрос в Ворд2000, но он выдает ошибку на этом участке:
      ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt", FileFormat:=
      _
      wdFormatText, LockComments:=False, Password:="",
      AddToRecentFiles:=True, _
      WritePassword:="", ReadOnlyRecommended:=False,
      EmbedTrueTypeFonts:=False, _
      SaveNativePictureFormat:=False, SaveFormsData:=False,
      SaveAsAOCELetter:= _
      False
      ActiveDocument.Close
      End Sub
     
      Я не очень то силен в этих делах, поэтому прошу обьяснить, что я делаю не так. Может он записан у Вас для Ворд97 и поэтому у меня ничего не получется.


89. Zmiy, Минск (zmiy@inbox.ru) 17:33:55 [ответить]
      А ТАКИХ ДЕБИЛОВ КАК НА http://www.bestlibrary.ru>http://www.bestlibrary.ru ЕЩЕ НАДО ПОИСКАТЬ !!!
      ТЕПЕРЬ У НИХ НЕЛЬЗЯ КАЧАТЬ ФАЙЛ ЧЕРЕЗ ПРОГРАММЫ С ДОКАЧКОЙ... ДАЖЕ "СОХРАНИТЬ КАК..." НЕ РАБОТАЕТ - НУЖНО ЖАТЬ НА ССЫЛКУ... ВО ДОЖИЛИ...
      Я ТАКИЕ БИБЛИОТЕКИ НИКОМУ НЕ МОГУ РЕКОМЕНДОВАТЬ...


90. Максим Мошков, 20:47:12 [ответить]
      > 88. Эмин.
      > выдает ошибку на этом участке:
      > ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      > ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt",
     
      Kaк насчет - создать директорию c:\BBS ?
     
      > Zmiy,
      > Я ТАКИЕ БИБЛИОТЕКИ НИКОМУ НЕ МОГУ РЕКОМЕНДОВАТЬ...
     
      Змий, не нервничай. Лучше уж так, чем вообще никак. Должен же бестлайбрари покрывать свои расходы - сканирование книг, и особенно хостинг - обходится ему в серьезные деньги.


СООБЩЕНИЯ ЗА 14.01.2003
91. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 01:50:21 [ответить]
      > 86. Эмин.
      > > 84. Вячеслав Сачков.
      > > > 81. Павел.
      > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла Word, например если в Ворде файл "весил" 1600 Кб, то при сохранении его в .htm он уже "весит" 2200 Кб. Есть ли какие либо спец. программы позволяющие корректно переводить тексты в .html?
      Я на сидюке у друга видел такую прогу, он обещал мне этот диск дать. Сам он ее пробовал и хвалил. Когда даст, посмотрю, отвечу по существу.


92. Эмин, Баку (azeribooks@narod.ru) 08:50:47 [ответить]
      > 90. Максим Мошков.
      > > 88. Эмин.
      > > выдает ошибку на этом участке:
      > > ChangeFileOpenDirectory "C:\WINDOWS\TEMP\"
      > > ActiveDocument.SaveAs FileName:="C:\BBS\moshkow.txt",
      >
      > Kaк насчет - создать директорию c:\BBS ?
     
     
      И директорию создал, все равно не работает, пишет Compile Error: Sintax Error. Может у меня Windows2000 стоит - поэтому макрос не работает.


93. Сергей Сотников, Минск 20:04:36 [ответить]
      > 91. Вячеслав Сачков.
      > > 86. Эмин.
      > > > 84. Вячеслав Сачков.
      > > > > 81. Павел.
      > > У меня все обычно проходит нормально, но размер файла в .htm получается прибл. на 30-40% больше исходного файла...
      > Я на сидюке у друга видел такую прогу, он обещал мне этот диск дать. Сам он ее пробовал и хвалил. Когда даст, посмотрю, отвечу по существу.
     
      Попробуй ClearTXT (http://www.gribuser.ru/freeware/cleartxt/index.shtml>http://www.gribuser.ru/freeware/cleartxt/index.shtml)
      Мощная программа. Вот описание из хелпа:
     
      -----------------------------------------------------
     
      Программа преобразует текстовые файлы в HTML. Параграфы, заголовки, эпиграфы и прочие элементы документа выявляются и сохраняются в виде форматирования HTML. Так же в программу встроен ╚Reader╩ со всеми необходимыми функциями.
     
      Программа способна распознать практически любой текст, начиная от созданного в ╚лексиконе╩ и заканчивая псевдо-html из библиотеки Мошкова (с опорой на теги и вместо абзацев).
     
      Широко понятная аналогия ╚автоформат╩ в MS Word. Разница (огромная) в качестве распознавания и возможностях управления процессом.
     
      Если Вы хоть раз сталкивались с задачей переформатирования текстовых файлов, Вы уже знаете, насколько это непросто. Эта программа оправдает ваши самые смелые ожидания и сделает этот процесс если не элементарным, то максимально производительным и удобным как для End-Usera, так и для пользователя с особыми предпочтениями.
     
      Reader позволяет делать заметки, закладки, форматировать весь документ под ваши предпочтения (например, сделать зеленый текст на черном фоне с шрифтом Verdana 14 пунктов) и многое другое. Все изменения (например, заметки) сохраняются и доступны в любом Web Browser-е.
     
      Программа включает все операции, необходимые при работе с e-Book. Большинство электронных книг на русском существуют в виде текстовых файлов, с помощью этой программы Вы можете подготовить электронную книгу к чтению, настроить ее внешний вид в соответствии с вашими предпочтениями и комфортно прочитать ее.
     
      -----------------------------------------------------


СООБЩЕНИЯ ЗА 17.01.2003
95. Zmiy, Минск (zmiy@inbox.ru) 16:18:41 [ответить]
      >
      > PDF-библиотека - www.imwerden.de .
      >
     
      А вот для эксперимента не можешь выкладывать тексты не только в PDF, но и скажем в DOC ???
      И поcмотреть по статистике, что больше будут скачивать!..
      Сомневаюсь, что победит PDF...


СООБЩЕНИЯ ЗА 18.01.2003
96. Ответ тов. N, Уфа (infair@rusoil.net) 14:49:12 [ответить]
      ОК. Продолжим.
      Мы не понимаем друг друга, и это нормально,
      т.к. Вы смотрите на проблему с одной стороны, а я с другой
      (дело тут не в том, что Вы "гуманитарий", а я "технарь").
     
      Позвольте, я поясню свой взгляд на информацию, так как я это понимаю,
      с точки зрения химика-технолога по переработке нефти, каковым и являюсь.
     
      В технологической цепочке любого производства
      для получения из сырья продукта необходимо
      сырье найти - переработать - продать продукт.
     
      По части переработки у нас проблем нет:
      При скорости сканирования 30 стр./мин,
      исходя из 9600 минут в месяце и 300 стр. в книге, производительность - 960
      книг.
      Качество - стандартное - 300 dpi, больше и не нужно.
      30 мин./книга - на кодирование в djvu и распознавание в txt,
      но в компьютерах у нас недостатка нет - около 30 компьютеров хватает,
      чтобы 1000 книг переработать за неделю-другую.
      Почему Вы решили, что мы сохраняем в doc или, тем паче в html ?
      В гиперссылках необходимости нет,
      и в перспективе мы такой вопрос не рассматриваем, т.к. он у нас позади.
      Во-первых, все книги (по моей специальности) у меня под рукой
      в электронном виде; поисковая программа выводит их мне все.
      Во-вторых, реферат со всеми выписками и ссылками составляется
      автоматически даже не в секунды, а в доли секунды.
     
      Проблема (по части гуманитарной литературы) - в первом и последнем звене:
      Сырье найти и продукт продать.
      Кстати, не далее, как вчера я наблюдал такую картину.
      Из подвала нашего университета вывезли в макулатуру грузовик,
      в т.ч. Ленин, Сталин, и почти все, что я привел в списке,
      переведенной в электронный вид литературы.
      Директор библиотеки меня успокоила,
      что экземпляры для разрезания и сканирования остались.
     
      Так что в сырье, оказывается, тоже особой проблемы нет.
      Остается продажа продукта, без которой не найти средств,
      для развития гуманитарных библиотек - целенаправленного,
      а не усилиями энтузиастов-одиночек.
     
      Мои расчеты здесь расходятся с Вашими, т.к. я иду по восходящей - от
      себестоимости.
      Допустим, минимально, себестоимость перевода книги в 300 стр. - 100 руб.
      Это цена демпинговая, т.к. предложения дают цену от 0,5 до 6 руб. за стр.
      Тысяча книг, а это довольно солидная библиотека, соответственно, 100 тыс. рублей.
      Сумма, поверьте, смешная для такого объема работы.
      Естественно, таких денег у гуманитариев нет, так скиньтесь!
      50 организаций могут купить за пару тысяч библиотеку в тысячу книг?
      При этом цена 1 книги в библиотеке 2 рубля!
     
      Конечно, такие расчеты встречаются с нашей "суровой" действительностью.
      По России десятки тысяч библиотек, тысячи университетов и институтов,
      сотни "объединений" и десятки фондов, финансирующих "электронные
      библиотеки",
      которые занимаются копированием и сбором "ссылок и гиперссылок".
      Например, в интернете я насчитал 26 электронных библиотек,
      приводящих ссылку на ELSEVIER и т.п.
      А кто и когда займется организацией наших электронных библиотек?
      Если не Вы - гуманитарными или Я - техническими?
     
      Абызгильдин А.Ю.


СООБЩЕНИЯ ЗА 19.01.2003
97. PDF-библиотека, Augsburg, Germany (info@imwerden.de) 22:21:25 [ответить]
      > 95. Zmiy.
      > > PDF-библиотека - www.imwerden.de .
      > А вот для эксперимента не можешь выкладывать тексты не только в PDF, но и скажем в DOC ??? И поcмотреть по статистике, что больше будут скачивать!.. Сомневаюсь, что победит PDF...
     
      Мои тексты, как и Ваши, уважаемый Змий, выкладываются в doc в библиотеке Вадима Ершова, мне хватает моего хаоса файлов :)). И не интересно, сколько у меня скачивают, до тех пор, пока мне не надо будет доплачивать. Не знаю, как в России, но в Германии: если у меня будут скачивать больше чем ..Гб, то мне, за каждый последующий Мв придется платить. Надеюсь, что у Вадима такой проблемы нет. Тем более у Максима :)))))
      Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???


СООБЩЕНИЯ ЗА 20.01.2003
98. Zmiy, Минск (zmiy@inbox.ru) 11:24:19 [ответить]
      > 97. PDF-библиотека.
      >
      > Мои тексты, как и Ваши, уважаемый Змий, выкладываются в doc в библиотеке Вадима Ершова, мне хватает моего хаоса файлов :)). И не интересно, сколько у меня скачивают, до тех пор, пока мне не надо будет доплачивать. Не знаю, как в России, но в Германии: если у меня будут скачивать больше чем ..Гб, то мне, за каждый последующий Мв придется платить. Надеюсь, что у Вадима такой проблемы нет. Тем более у Максима :)))))
      > Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???
     
      Ну, то что сейчас появляется у В.Ершова - это одно, а вот то что раньше было у В.Е. нету...
      Стоит ли конвертить в PDF, если его, кроме как в Acrobat Reader, просто так никуда не всунешь...


99. Максим Мошков, 13:13:15 [ответить]
      > 97. PDF-библиотека.
      > Надеюсь, что у Вадима такой проблемы нет.
      > Тем более у Максима :)))))
     
      Я тоже на это надеюсь. С 1.5T месячного трафика такие проблемы - довольно болезненны.
     
      > Возможно, что аудио в формате WAV тоже будут больше скачивать, чем mp3???
     
      А угадайте с одного раза.


100. Максим Мошков, 13:27:01 [ответить]
      > 96. Ответ тов. N.
      > производительность - 960 книг.
      > Качество - стандартное - 300 dpi, больше и не нужно.
      > 30 мин./книга - на кодирование в djvu и распознавание в txt,
     
      Вопросы от любопытного:
     
      Сколько стоит сканирующий комплекс, вместе с софтом?
      Сколько человек работают в технологической цепочке?
      Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
      Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?


101. Абызгильдин А.Ю., Уфа (infair@rusoil.net) 18:11:40 [ответить]
     
      > Сколько стоит сканирующий комплекс, вместе с софтом?
      > Сколько человек работают в технологической цепочке?
      > Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
      > Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?
     
      у нас 2 сканера по 3 тыс.$ каждый.
      ПО входит в комплект поставки.
      Работает обычно 1 человек.
      1 книга - около 5-6 МВ.
      В djvu стр. 15-20 КВ - правда.


102. ЯVR, 20:12:07 [ответить]
      > 101. Абызгильдин А.Ю..
     
      > > Сколько стоит сканирующий комплекс, вместе с софтом?
      > > Сколько человек работают в технологической цепочке?
      > > Какой об'ем в dejavu занимает в среднем одна 300-страничная книжка?
      > > Я читал где-то, что dejavu жмет одну страницу в 15-30Кб. Это правда?
      >
      > у нас 2 сканера по 3 тыс.$ каждый.
      > ПО входит в комплект поставки.
      > Работает обычно 1 человек.
      > 1 книга - около 5-6 МВ.
      > В djvu стр. 15-20 КВ - правда.
     
      А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))


СООБЩЕНИЯ ЗА 21.01.2003
103. Максим Мошков, 01:58:18 [ответить]
      > 102. ЯVR.
      > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
     
      Они их в графическом виде хранят, "as is".
      А распознают автоматом - чтоб было что индексеру-поисковику скормить. Для полнотекстового поиска. А читают - в графическом режиме.
     
      Правда, книжки приходится резать. Но с другой стороны - а что их жалеть.


104. ЯVR, 08:18:42 [ответить]
      > 103. Максим Мошков.
      > > 102. ЯVR.
      > > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
      >
      > Они их в графическом виде хранят, "as is".
      > А распознают автоматом - чтоб было что индексеру-поисковику скормить. Для полнотекстового поиска. А читают - в графическом режиме.
      >
      > Правда, книжки приходится резать. Но с другой стороны - а что их жалеть.
     
      В графическом... ясно... а то я думал что за скорости космические :)))


105. InFAiR, Уфа (infair@rusoil.net) 12:43:43 [ответить]
      > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
     
      Книги не вычитываются.
      Почти вся обработка производится программно.
      Некоторые брошюры и глазами прочитать трудно.
      В таких изданиях максимальная ошибка 70,5%.
      Большинство книг удовлетворительного качества,
      в них для текстовой части ошибки составляют до 0,002%.
      Есть книги до 900 стр. без единой ошибки, но это исключение.
      В среднем (на 1 тыс. книг) ошибка - 0,0025%.
      Это, конечно больше, чем норма РГБ (0,0001%) -
      по стандарту допускается 1 ошибка на 10 тыс. слов,
      но на качество поиска это почти не влияет:
      в среднем (на 100 книг) - 99,99% для обычного поиска;
      122% для вероятностного (fuzzy) поиска,
      за счет снижения релевантности на 20-25%.


СООБЩЕНИЯ ЗА 23.01.2003
106. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 02:23:50 [ответить]
      > 105. InFAiR.
      > > А книги не вычитываются? Все програмно происходит? Интересно сколько ошибок на разворот? Или их вообще нет :)))
      >
      > Книги не вычитываются.
     
      Это типа: "Казнить нельзя помиловать"? Халтура.


107. Максим Мошков, 12:58:20 [ответить]
      > 106. Вячеслав Сачков.
      > Халтура.
     
      Книги представляются и читаются в графическом виде.
      Их не зачем вычитывать.


108. Ихтик, Уфа (iht57@mail.ru) 13:36:53 [ответить]
      Делюсь имеющейся у меня информацией с господами держателями библиотек и их сотрудниками.
      По нижеследующим адресам вы можете узнать веб-адреса самих библиотек. Если у вас есть что прибавить к списку - пжалста напишите
     
      Приёмные любых электронных текстов:
      orel@rsl.ru, moshkow@systud.msk.su, books@myweb.ru, rw@vinbazar.com, kazak2@rambler.ru, forsas@mail.ru, bestbooks@pisem.net, biblio@i-u.ru, webmaster@referats.com, library@till.ru, library@till.ru, info@bigmir.net, admin@bestlibrary.ru, Adm@booksite.ru, anonimous@au.ru, lemail@shaw.ca, chrushka@hotmail.com, lohness@klondike.ru, vgershov@pochtamt.ru, kalaus_l@mail.ru, Lib_Pavel@km.ru
     
      приём исключительно философских текстов:
      lebedev@philosophy.ru, wagner@ecoclub.nsu.ru, philosophy@allru.net, science@philosophy.nsc.ru, webmaster@mcf.msk.ru, library@log.philos.msu.ru, wagner@ecoclub.nsu.ru, yanko_slava@yahoo.com
     
      Приём правовой (юридической) литературы:
      tarraskad@mail.ru, tarasei@mail.ru, study@mirprava.ru, kazref@narod.ru, webmaster@referats.com, sigura@soros.albertina.ru, sad@jurfak.spb.ru, interlaw@dax.ru, lawyerclub@mail.ru, LawyerClub@permonline.ru, vlachova@online.ru, info@mirprava.ru, sovetnikov@ultranet.ru, ranger@online.sinor.ru
     
      Любая учебная лит-ра:
      biblio@i-u.ru, auditorium@auditorium.ru
     
      библиотека литературы сумеречного настроения (http://www.literature.gothic.ru/>http://www.literature.gothic.ru/)
      birdy@aha.ru
     
     
      Только русские тексты русских авторов:
      litvinov@snezhinsk.ru


СООБЩЕНИЯ ЗА 24.01.2003
109. Вячеслав Сачков, Троицк (u10642@dialup.podolsk.ru) 03:22:52 [ответить]
      > 107. Максим Мошков.
      > > 106. Вячеслав Сачков.
      > > Халтура.
      >
      > Книги представляются и читаются в графическом виде.
      > Их не зачем вычитывать.
     
      Вы не обратили внимание на ту деталь, что оригинал, с которого в принципе могло делаться считывание, притом уничтожается. Т.е. если вдруг распознавать/вычитывать понадобится, то это может оказаться невозможным. Кроме того, проблема 100-километровые тифы туда-сюда таскать. Еще более серьезная проблема заключается в следующем. В локальном проекте такая технология, как и традиционная может принципиально применяться за отсутствием лучшей. Но для глобального применения она не годится. Если в литературных текстах будут допущены опечатки, ничего особенно страшного не произойдет, читатель может это понять и пережить без инфаркта. Но если это, к примеру, словарь, опечатки в котором могут привести к существенному искажению содержания технической документации и далее к серьезной техногенной катастрофе? Ошибки должны быть исключены на все 100%. Спешка необходима при ловле блох и когда находишься в гостях у чужой жены, это понятно. А в данной ситуации она недостаточно оправдана. Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...


110. Максим Мошков, 11:52:16 [ответить]
      > 109. Вячеслав Сачков.
      > > Книги представляются и читаются в графическом виде.
      > Вы не обратили внимание на ту деталь, что оригинал, с которого в принципе могло делаться считывание, притом уничтожается.
     
      Книги представляются в графическом виде. 300 dpi вполне достаточно, чтобы при чтении ничего не потерять.
     
      > Кроме того, проблема 100-километровые тифы туда-сюда таскать.
     
      Книги кодируются в dejavu - 15-30 кб на страницу.
     
      > Но если это, к примеру, словарь, опечатки в котором могут привести к существенному искажению содержания технической документации и далее к серьезной техногенной катастрофе? Ошибки должны быть исключены на все 100%.
     
      Книги представляются в графическом виде. 300 dpi.
     
      > Если по предлагаемой технологии взять обрабатывать фонд "ленинки", на это уйдет все равно более 500 лет. Веком раньше, веком позже - великая разница...
     
      Если по предлагаемой технологии установить не 2 сканера, а 200, то весь фонд ленинки будет сосканирован за 10 лет.
      (И при этом - уничтожены все оригиналы ;^)


Continue