LangueDOC
Главная | Архивы | Языки | ТехПомощь | Фильм | Спецкурсы | Люди | Публикации | ENGLISH
 

Технологии обработки языковых данных и документирование языков

Спецкурс для студентов ОТиПЛ, весенний семестр 2006/07 уч. г.

Спецкурс проходит при кафедре теоретической и прикладной лингвистики филологического факультета МГУ в феврале-мае 2007 г. Спецкурс рассчитан в основном на студентов 2–4 курсов, однако может быть полезен и дипломникам, и аспирантам.

Расписание

Занятия спецкурса проходят по четвергам в 16:55 в компьютерном классе (к. 951).

До конца семестра занятия состоятся: 26 апреля, 3 мая, 8 и 10 мая, 17 мая.

На неделе с 7 по 11 мая состоятся два занятия: во вторник, 8 мая (в 16:55) и в четверг, 10 мая (в 16:55).
Занятия проводит профессор Колгейтского Университета (США) А. Д. Нахимовский. Они будут посвящены языку XML и созданию интегральной среды работы для лингвиста.

Задания

Задание № 1. Фрагмент кодировочной таблицы в формате TECKit
[инструкция к заданию и основные материалы] [шрифт Charis SIL]

Задание является обязательным для получения зачёта.

[SIL Converters 2.5] — пакет перекодирования для MS Office. Поддерживает таблицы TECKit и другие форматы.

Задание № 2. Глоссирование текста берестяной грамоты в программе Toolbox

[Toolbox v.1.5.1]
Дистрибутив также лежит в компьютерном классе 951 на всех компьютерах в папке C:\Temp\LANGUEDOC.

[проект Toolbox для древнерусского языка] [шрифт RomanCyrillic_Std]

Требуется закончить глоссирование текста novg-text.txt

Задание является обязательным для получения зачёта.

Материалы

Хэндауты к занятиям:

16.02.2007 :: Занятие 1. Введение [MS Word] [OpenOffice]

22.02.2007 :: Занятие 2. Современные требования к документированию языков.
Мультимедийные материалы: звук (начало) [MS Word] [OpenOffice]

15.03.2007 :: Занятие 3. Общие технологические проблемы (продолжение) [MS Word] [OpenOffice]

29.03.2007 :: Занятие 4. Комьютерное представление символов. Кодировки. Юникод
[презентация в PowerPoint] [она же в архиве ZIP]

Программа

Предварительную программу курса можно скачать здесь:

[MS Word, 90 Kb]  [OpenOffice, 20 Kb]  [PDF, 150 Kb]

Аннотация

Современному лингвисту, помимо подкованности в новейших лингвистических теориях и хорошего языкового чутья, зачастую требуются весьма специфические технические знания и навыки, без которых его работа не будет ни эффективной, ни востребованной последующими исследователями.

Этот спецкурс посвящён документированию языков, то есть созданию долговечных ресурсов, в которых хранятся преимущественно первичные языковые данные — аудио- и видеозаписи, письменные записи текстов, словников и др. Причем храниться они должны в таком виде, чтобы максимально облегчить широкому кругу пользователей поиск, отображение и обработку интересующих фрагментов данных, а также пополнение информации. Документирование особенно значимо для изучения исчезающих языков — ведь даже хорошо подготовленная группа исследователей может не успеть задать носителям все важные вопросы, изучить все нюансы грамматики или фонетики. В этом случае собрать и сохранить для будущих исследований качественный текстовый материал не менее важно, чем обработать еще несколько типологических анкет.

Мы рассмотрим технические аспекты работы лингвиста-«документатора» — от записи первичного материала в поле до создания онлайновых баз данных. Занятия будут проходить в компьютерном классе; слушателям спецкурса предстоит выполнить ряд практических заданий, основанных на реальных задачах, встающих перед полевыми лингвистами.

Основные темы курса:

  • Аудио и видео: общие технические вопросы . Запись, монтаж; форматы.
  • Метаданные и разметка.
  • Компьютерное представление символов: кодировки и шрифты; Unicode. Средства автоматизации преобразований (конвертеры).
  • Форматирование текста. Microsoft Office vs. OpenOffice.org (vs. TeX) .
  • Корпусы глоссированных текстов.
  • Язык XML и преобразования структурированных данных.
  • Онлайновые базы данных. MySQL .