понеділок, 9 листопада 2009 р.

Коротко про електронні книги

Загальні поняття:
Електронна книга
(англ. e-text, eBook) - версія книги в електронному (цифровому) вигляді. Даний термін застосовується як для творів, представлених у цифровій формі, так і по відношенню до пристроїв, що використовуються для їх прочитання.
OCR - Оптичне розпізнавання символів (англ. Optical Character Recognition) - механічна або електронна конвертація зображень символів і букв в текст, можна редагувати на комп'ютері. Переклад здійснюється програмним шляхом, після отримання зображення зі сканера або фото.

Формати
Існує кілька груп форматів електронних книг - графічні та растрові. Растрові формати представляють об'єкт у вигляді безлічі точок, векторні - у вигляді найпростіших геометричних фігур (точки, лінії, багатокутники).
Однак, як і будь-яка інша, ця класифікація умовна. Наприклад, PostScript (. Ps,. Eps), PDF можуть бути чисто векторними. Так само DOC, PDF можуть містити лише растрові відскановані зображення або ж навпаки - містити лише текст
Існує також поділ форматів електронних книг на призначені для читання тексту он-лайн і для збереження на комп'ютері користувача. До першої групи належать файли такого формату, як HTML і TXT, до другої - RTF, DjVu, PDF і ін.

Зупинимося на найбільш поширених форматах:


PDF (Portable Document Format) - це переносимий формат документів, створений Adobe як засіб міжплатформову обміну даними. Хоча існує маса способів передати документ, наприклад, між Windows і Mac OS, Adobe PDF пропонує найбільш елегантне рішення. Формат не накладає ніяких обмежень на зовнішній вигляд документа - текст, векторна і растрова графіка можуть бути об'єднані довільним чином. Реалізується принцип "все моє ношу з собою" - для перегляду PDF-файлу не потрібно нічого, крім самого файлу і безкоштовної програми Acrobat Reader.PDF створювався як формат електронного документа. Необхідність швидкого переміщення по сторінках і об'єктів документа зумовила ієрархічну структуру даних PDF. На початку файлу знаходиться зміст, що показує де і які об'єкти розташовані у файлі, потім ідуть самі дані. Для того, щоб що-небудь робити з PDF-файлом, що його треба мати цілком, оскільки фрагмент даних, який знадобиться перше, може знаходитися в будь-якої частини файлу - в тому числі і в самому кінці. Для документів з явною перевагою тексту і векторної графіки формат PDF, як правило, забезпечує помітне скорочення обсягу файлу (з відповідним скороченням часу пересилання по мережі і т.д.).
Foxit Reader
Adobe Acrobat


DjVu (дежа-вю) - графічний формат, розроблений фірмою AT & T, оптимізований для зберігання відсканованих документів. Особливе значення цей формат набуває для перенесення в мережу математичної і взагалі технічної літератуи, де велика кількість схем і формул робить розпізнавання і переведення у текстовий формат практично нездійсненним. . В даний час DjVu стає фактичним стандартом для електронних бібліотек технічної та наукової літератури. Відтепер існує компромісний варіант - переведення відсканованих зображень у формат DjVu (дежа-вю). При цьому текст і контрастні малюнки зберігаються з роздільною здатністю 300 dpi, все інше вважається фоном і зберігається з пониженим дозволом. Це дозволяє добре стиснути електронний документ без втрати його читання. Розмір файлу відсканованої книги виявляється в межах декількох мегабайт, що цілком прийнятно. Розроблений фірмою AT & T Технологію DjVu забезпечує для файлів з чорно-білими монохромними зображеннями стиснення порядку 500:1. Виграш у розмірі файлу в порівнянні з форматом GIF складає в середньому 20 разів. Суть технології DjVu полягає в автоматичному розбитті зображення на кілька ділянок (наприклад, текст, логотип фірми і растрова малюнок), для кожного з яких вибирається оптимальний для даного графічного образу алгоритм стиснення.
WinDjView
Плагін до браузера для читання DJVU-текстів


FB2 (FictionBook) - формат подання електронних версій книг у вигляді XML-документів. Стандарт покликаний забезпечити сумісність з будь-якими пристроями і форматами. Документи, зазвичай мають розширення. Fb2, можуть містити структурну розмітку основних елементів тексту, деяка кількість інформації про книгу, а також можуть містити вкладення з двійковими файлами, у яких можуть зберігатися ілюстрації або обкладинка.
«Читалки»:
Cool Reader 2
HaaliReader
Є також читалки для Palm (PalmFiction), Palm Zaurus (FBreader) і смартфонів (AlReader).


HTML (. HTM;. CHM;. MHT) - HyperText Markup Language-Стандартний мова розмітки документів у Всесвітній павутині. Хоча НTML дозволяє непогано оформити текстовий документ, він все ж таки не дуже підходить для e-book. Далеко не всім подобається читати книги в браузері. При використанні ж програми-рідера, HTML конвертується у звичайний текст і втрачає всі свої переваги. А ось формат CHM, спочатку призначався для підготовки файлів довідки до програмного забезпечення, - справа інше ...

CHM (Compiled HTML) - спочатку формат CHM був створений для формування зручної та функціональної довідкової системи до програм Windows. Цей формат часто використовується не тільки для створення хелп-систем до ПЗ, а й для видання книг в електронному вигляді. Найбільш сильною стороною цього формату є наявність в CHM файлах повнотекстового пошуку. Коротенько файл CHM-це набір скомпільованих HTML-файлів, тобто, іншою мовою, щось подібне до архіву з Web-сторінок. І діє CHM-файл за принципом архіву, стискає дані, що зберігаються в ньому, але не всі, а лише текстові або містять текст, відформотований за допомогою тегів HTML (HTML, TXT, CSS і файли інших форматів).

ExeBook - книга в форматі ExeBook-по суті, Win32-додатків, скомпілювати за допомогою спеціального програмного забезпечення. Основною особливістю книги в форматі EXE є її максимальна наближеність до паперового аналогу.

Звичайний текст (plain text) (. TXT) - ну що тут багато говорити. Проста послідовність восьмібітних (як правило) кодів, кожен з яких відповідає або символу, або керуючому коду. Відрізняється лише кодуванням та у спосіб переведення рядка. Формат txt активно використовувався при створенні всіляких збірників книг ( "Бібліотека в кишені", "HarryFan Text Collection" та ін.)

Rich Text Format (. RTF) - був спеціально розроблений компанією Microsoft в 1987 році для переносу тексту з розміткою з однієї програми в іншу. У такій якості він використовується і до цього дня. RTF розуміють практично всі сучасні текстові редактори. RTF досі широко використовується в онлайн-бібліотеках. Головним чином, саме через його гарною сумісності з різним програмним забезпеченням.

Документ Microsoft Word (. DOC) - внутрішній, пропріетарний формат Microsoft Word і призначений для зберігання текстових документів, підготовлених у цій програмі. Документи Word використовують як e-book з однієї причини: авторам книги (або сканерістам) просто лінь конвертувати її в більш легкий для читання формат.

Закриті спеціалізовані формати. Існує досить багато форматів електронних книг, створених для одного конкретного пристрою або програми. До них можна віднести Rocket e-book (. Rb), Microsoft Reader (. Lit), PalmDoc, MobiPocket (. Prc) і т.д. Плюс деякі програми для читання норовлять конвертувати текст у свій власний ні з чим не сумісний формат. (IceBook Professional на PC, iSilo і Weasel на Palm та ін.) Щоправда, при найближчому розгляді виявляється, що це все ті ж HTML, RTF або txt (деякий виняток становить формат ExeBook, який конвертує текст книги в набір растрових зображень), як правило, упаковані для компактності і обладнані службової областю, де можуть зберігатися, наприклад , закладки. Також може бути додана DRM.

Спеціалізовані відкриті формати на основі XML - розширювана мова розмітки (eXtensible Markup Language) XML призначений для зберігання структурованих даних у текстовому форматі. Теоретично файли XML повинні легко читатися як програмним забезпеченням, так і людиною. На відміну від HTML, набір засобів розмітки (тегів) в XML не фіксований і визначається лише файлом-специфікацією schema (. XSD). Допустимі теги на зразок , і т.д. Документи XML деревоподібну мають ієрархічну структуру. За допомогою XML можна легко створювати нові формати даних, які будуть простими, переносимості та незалежними як від операційної системи, так і від програми, ці дані створив. Але, даючи свободу, XML одночасно пред'являє до даного документу набагато більш жорсткі вимоги, ніж HTML. Всі елементи повинні бути правильно закриті. Гнучкість у сполученні зі строгістю оформлення робить можливим використання XML для найрізноманітніших завдань, а також його обробку практично на будь-яких апаратних і програмних конфігураціях.
До речі, формат FictionBook, який вже згадувався вище, був розроблений Дмитром Грибовим з кількома співавторами за підтримки групи ентузіастів і повністю базується на XML.

І останній з поширених форматів електронної книги-аудіокнига. Їй я присвячу наступні кілька статей.

PS. Даний огляд не претендує на лаври серйозної статті. Це просто спроба описати найбільш часто зустрічаються формати електронних книг. Можливо, щось я й упустив. Якщо у Вас є чим доповнити викладену вище інформацію - you are welcome!

Немає коментарів: