Из любопытства посмотрел разные форматы eBook-ов. Интересовался только открытыми стандартами на основе XML. Нашел два принципиально разных подхода:
1. Разметку текста проводим на основе графического представления. Т.е. тупо берется XHTML и говорится, что это - и есть eBook;
2. Разбиение документа логическое, т.е. присутствуют элементы "название", "параграф", "сноска", "цитата", "эпиграф", но не "жирный текст", "красный шрифт", "выравнивание налево", "таблица".
Естественно, на рынке скорее представлены мутанты.
open eBook, например, взял XHTML и добавил (стандартизировал) несколько тагов для метаинформации (автор, дата публикации, язык).
TEI - подход с другой стороны. Структурирование документа превыше всего.
Так, например, практически каждому элементу можно определить язык, причем список языков, используемых в документе должен быть определен в заголовке книги. Кроме очевидных "русский", "английский" можно определить "русский латинницей" или "английский рэпперский" (влияет на проверку ортографии, голос автомата для прочтения, и т.п.)
Или вот "note" (примечание). Кроме самого текста прмечания можно определить, чье оно: автора, переводчика, издателя, составителя сборника, и т.п.
Но и тут какие-то артефакты проглядывают (или я не понял, зачем это), например элементу "note" можно определить "place" (расположение): сбоку, внизу страницы, в конце текста и т.п.
Реализация книг на основе первого варианта проста. В конце концов, броузеры есть практически на всех платформах. Второй гораздо сложнее, но и интереснее, дает больше преимуществ. Собственно, именно он и имеет право называться eBook.
Русская виртуальная библиотека сделана именно в этом формате. Но:
1. Зачем-то они сохранили оригинальную нумерацию страниц. Ну, я допускаю, что это необходимо (например, при поиске текста по ссылке "том 12, стр. 546"), но можно было сделать это незаметнее, без жирных горизонтальных линий с номером, не совпадающим с моей нумерацией при печати.
2. Недоступен оригинальный текст eBook (надеюсь, он есть, и я просто не нашел его. Диретор библиотеки -
e_g - теоретически может набрести на этот пост, может у него есть ответ?), что убивает начисто все преимущества использования формата. Т.е., конечно, организаторы библиотеки преимущества не теряют, а вот пользователи ни сменить представление текста не могут, ни использовать eBook для других, отличных от распечатки целях (чтение автоматом, анализ текста, и т.п.)
Забавно, что пока не находятся утилитки для конвертирования TEI в Word для чтения. Наоборот есть, но они по определению несовершенны: в Word-е нет информации о логической разбивке документа. Либо хотя бы просто редактор текстов в формате TEI. Никому идея startup-а не нужна?
1. Разметку текста проводим на основе графического представления. Т.е. тупо берется XHTML и говорится, что это - и есть eBook;
2. Разбиение документа логическое, т.е. присутствуют элементы "название", "параграф", "сноска", "цитата", "эпиграф", но не "жирный текст", "красный шрифт", "выравнивание налево", "таблица".
Естественно, на рынке скорее представлены мутанты.
open eBook, например, взял XHTML и добавил (стандартизировал) несколько тагов для метаинформации (автор, дата публикации, язык).
TEI - подход с другой стороны. Структурирование документа превыше всего.
Так, например, практически каждому элементу можно определить язык, причем список языков, используемых в документе должен быть определен в заголовке книги. Кроме очевидных "русский", "английский" можно определить "русский латинницей" или "английский рэпперский" (влияет на проверку ортографии, голос автомата для прочтения, и т.п.)
Или вот "note" (примечание). Кроме самого текста прмечания можно определить, чье оно: автора, переводчика, издателя, составителя сборника, и т.п.
Но и тут какие-то артефакты проглядывают (или я не понял, зачем это), например элементу "note" можно определить "place" (расположение): сбоку, внизу страницы, в конце текста и т.п.
Реализация книг на основе первого варианта проста. В конце концов, броузеры есть практически на всех платформах. Второй гораздо сложнее, но и интереснее, дает больше преимуществ. Собственно, именно он и имеет право называться eBook.
Русская виртуальная библиотека сделана именно в этом формате. Но:
1. Зачем-то они сохранили оригинальную нумерацию страниц. Ну, я допускаю, что это необходимо (например, при поиске текста по ссылке "том 12, стр. 546"), но можно было сделать это незаметнее, без жирных горизонтальных линий с номером, не совпадающим с моей нумерацией при печати.
2. Недоступен оригинальный текст eBook (надеюсь, он есть, и я просто не нашел его. Диретор библиотеки -
Забавно, что пока не находятся утилитки для конвертирования TEI в Word для чтения. Наоборот есть, но они по определению несовершенны: в Word-е нет информации о логической разбивке документа. Либо хотя бы просто редактор текстов в формате TEI. Никому идея startup-а не нужна?
no subject
Date: 2003-10-17 07:06 am (UTC)no subject
Date: 2003-10-17 07:40 am (UTC)А по сути - я правильно понял, что твои tools из заявленного мною делают только конвертацию в rtf? Т.е. первая ступенька - "нормальный" человек хотя бы прочитать книгу смозйет.
Мне, если честно, интересно было бы появление на рынке какого-то продукта, в котором можно было бы набирать тексты в TEI. Т.е. emacs не предлагать, простота должна быть на уровне Word: набрал текст, выделил, сказал, что это "заголовок третьей главы". Чтобы люди изначально могли писать тексты, книги, а не конвертировать из чего-то.
Не слышал ни о чем таком?
no subject
Date: 2003-10-19 10:27 pm (UTC)По сути: да, только конвертация (не только в rtf).
Набирать -- любой XML-редактор в зубы, и вперед; их дофига. Я пробовал XMetaL -- вполне приличен. Есть еще http://www.syntext.com/products/serna/ -- не пробовал, но разработчики вменяемые, так что должно работать.
Использовать Ворд для разметки _структуры_ глубоко неправильно. Он неудобен в этом качестве. То есть, ты лишишь человека удобства *ML-редактора и запретишь пользоваться удобствами "word processor"a. Ну, например, с ходу -- нормальный редактор дает выбрать только из валидных элементов, а ворд легко позволит вместо "заголовка главы" вставить "заголовок части".
В emacs, кстати, простота такого набора выше, чем в ворде -- если ворд пытаться таки использовать в качестве структурного редактора. И не надо никакого текста выделять -- это дико неудобно. Удобно выбрать из popup menu "заголовок третьего уровня", внутри образовавшегося заголовка набрать текст, прыгнуть дальше, выбрать "параграф" и т.п.
Впрочем, это длинный разговор :)
no subject
Date: 2003-10-21 09:31 am (UTC)Кстати, как? Если я правильно помню, ЖЖ не индексируется?
Редакторов-то для меня масса. Но это для меня. Когда надо было - я для себя сам редактор написал по-быстренькому. Вопрос о массовом пользователе. Я не совсем представляю себе такой редактор (что-то типа дерева со структурой, где можно добавить главу, например, редактирования каждого кусочка, и одновременно видения всего документа... Но это так, очевидно пока), но он должен быть простым. Для многих и Word супер сломен. Да что там, Wordpad не всем осилить :)
Надо будет эту задачку поднять "из фона", подумать на досуге...
no subject
Date: 2003-10-21 10:51 pm (UTC)http://lj.crossroads.ru
Редакторов-то для меня масса. Но это для меня. Когда надо было - я для себя сам редактор написал по-быстренькому. Вопрос о массовом пользователе. Я не совсем представляю себе такой редактор (что-то типа дерева со структурой, где можно добавить главу, например, редактирования каждого кусочка, и одновременно видения всего документа... Но это так, очевидно пока)
Именно так XML-редакторы и выглядят. Дерево (collapsable, конечно) и документ. Ты посмотри, не бойся :)
Отрыл у себя во чего, BTW. Презенташка, правда, где-то пятилетней давности.