LangueDOC
Главная | Архивы | Языки | ТехПомощь | Фильм | Спецкурсы | Люди | Публикации | ENGLISH
 

Преобразования текстов

Примерный цикл обработки текстов выглядит следующим образом (на примере арчинского языка):

  • Записанный текст глоссируется в Тулбоксе
  • С помощью программы BoxReader преобразуем файл Тулбокса в формат XHTML (структура вложенных тэгов <span>). Этот файл можно просматривать в браузере.
  • Запускаем XSLT-преобразование и получаем готовый файл content.xml, который является основным компонентом документа в формате OpenOffice. Есть две версии XSLT:
    • Первая полностью сохраняет структуру элементов
    • Вторая склеивает все морфемы каждого слова в один элемент (в одну ячейку таблицы)
  • Добавляем content.xml в образец готового документа OpenOffice (архив ZIP)
    Теперь документ можно редактировать в OpenOffice Writer.
  • Можно также сохранить документ OpenOffice в формате MS Word.

Обратные преобразования:

  • Открываем документ в OpenOffice Writer и сохраняем в формате OpenOffice (если изменяли в Word'е).
  • Закрываем его в Writer и открываем архиватором ZIP. Достаём файл content.xml.
  • Применяем обратное XSLT-преобразование (версия для склеенных морфем) и получаем снова формат XHTML, который можно просматривать в браузере.
  • При желании можно воспользоваться программой BoxWriter и получить снова файл в формате Тулбокса.