Вы находитесь на архивной версии сайта лаборатории, некоторые материалы можно найти только здесь.
Актуальная информация о деятельности лаборатории на lex.philol.msu.ru.
МГУ-ЛОКЛЛ:: Поликарпов А.А.- Славянская компьютерная лексикография: задачи и проблемы

 

Славянская компьютерная лексикография:

задачи и проблемы

 

А.А. Поликарпов


 

1. Решаемые задачи.

Может ли современная славянская лексикография успешно развиваться без компьютеризации? Разумеется, нет. Компьютеризация в лексикографии в настоящее время помогает решать следующие задачи:

а) Перевод в машинную форму ранее опубликованных книжных словарей, что позволяет «разложить по полочкам» содержимое каждого из них. Только на этой основе и можно осуществить эффективный контроль полноты и последовательности заполнения полей в статьях словаря, а также эффективно использовать и контролировать информацию в последующей лексикографической работе над новыми версиями данного словаря (в т.ч. в виде получения различных аспектуальных проекций словаря, его конверсий и т.п.).

Примером подобного рода развивающейся лексикографической базы данных может служить «Словарь русского языка» С.И. Ожегова (под редакцией Н.Ю. Шведовой; в последних изданиях в соавторстве с ней). Эта база создана в Институте русского языка РАН в 1990 году, и с тех пор она постоянно пополняется, на ее основе переиздаются обновляемые версии этого словаря, а также проводятся лексикологические исследования [Колодяжная, Поликарпов, 1994].

В лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ в настоящее время созданы и исследуются полные или частичные отображения в виде баз данных таких словарей, как «Этимологический словарь славянских языков» под ред. О.Н. Трубачева (М., 1975 - ….) [Поликарпов, 2001], «Словарь древнерусского языка» (тт. 1-5. - М., 1988 - 2000) [Поликарпов, Полякова, в печати] “Словарь русского языка XI - XVII вв.» под ред. Г.А. Богатовой (…), «Словарь синонимов» русского языка под ред. А.П. Евгеньевой (М., 1975) [Колодяжная, Поликарпов, 1997; Колодяжная, Поликарпов, 1997], “Новые слова и значения”-1 (М., 1984) [Поликарпов, Кустова, Савчук, в печати], “Новые слова и значения”-2 (М., 1997) [Поликарпов, в печати], "Грамматический словарь русского языка" А.А.Зализняка [Кукушкина, 1997].

Еще одним примером развитой лексикографической базы данных является "Komputerowy Slownik Jezyka Polskiego" [Komputerowy, 1998]. Он был издан в виде CD-ROM-ного диска, снабженного аппаратом поиска необходимой лексикографической информации (грамматической, стилистической, толковательной и нек. др.). Он содержит в себе материал трехтомного словаря (ок. 80 тыс. слов).

Кроме этого в последние годы создан и распространяется в виде CD-ROM-ного диска и 10-томный словарь "Slownik Jezyka Polskiego" (под ред. В.Дорошевского).

б) Создание и эффективное ведение (то есть контролируемое развитие) в виде баз данных новых словарей славянских языков. Необходимо с сожалением отметить, что новых крупных лексикографических проектов (типа толковых, исторических или аспектуальных словарей славянских языков) в таком виде сейчас практически не реализуется. В качестве редкого исключения можно назвать нашу базу данных «Хронологический морфемно-словообразовательный словарь русского языка» [Богданов, Крюкова, Поликарпов, 1998; Polikarpov, 2000], который создается на основе синтеза этимологической и источниковой информации со словообразовательной. Замышлявшийся как экспериментальный лексикологический полигон, этот словарь в настоящее время представляет самостоятельное лексикографическое предприятие, готовящееся к изданию как в традиционно книжном, так и в электронном вариантах.

в) Создание больших синхронных и диахронных текстовых корпусов славянских языков, имеющих целью исследование на их основе не только собственно характеристик устройства текстов разных эпох, стилей, жанров, авторов, тематики и т.п., но и снабжение лексикографов объективным, представительным, стилистически определенным материалом о состоянии употребления в этих языках лексикографируемых единиц. Т.е. в ходе исследования подобного материала не просто подбирается какой-то иллюстративный материал, но выясняются и верифицируются объективные различия в степени употребительности лексических (фразеологических, морфемных, морфологических) и иных единиц языка в тех или иных его стилях и жанрах (например, в виде частотно-распределительных словарей этих единиц по стилям и жанрам).

В настоящее время в стадии формирования и предварительной обработки находятся текстовые многожанровые корпуса чешского, польского, русского, хорватского и некоторых других славянских языков. В целом, однако, текстовое корпусостроение славянских языков отстает по темпам и результатам от того, что сейчас достигнуто на материале, например, многих германских и романских языков.

Особое место среди многожанровых корпусов занимают корпуса газетных текстов. Это связано как с тем, что в газетных текстах оперативно отображаются изменения в нормах и единицах языка, так и с тем, что они сейчас представляют наиболее доступный для корпусостроения материал. Создание и категоризация многожанрового корпуса русских газет конца XX века [Виноградова, Кукушкина, Поликарпов, Савчук, 2001а; Поликарпов, Кукушкина, Виноградова, Савчук, 2001б] позволило уточнить представления о состоянии лексики, морфологии, морфемики и фразеологии современного русского языка [Поликарпов, Кукушкина, Виноградова, Савчук, 2001в].

г) Создание и контрастивный анализ параллельных корпусов славянских языков. Этот раздел компьютерной лексикографии в настоящее время представлен совместным проектом Маннхайского и Московского университетов "Корпус параллельных текстов современных славянских языков: контрастивный анализ". Результаты этого исследования дадут более точные, количественно определяемые и типологически интерпретируемые различия систем славянских языков.

д) Создание комплексных автоматизированных лексикографических систем. Имеется в виду, во-первых, объединение в едином программном комплексе возможностей получения различных словарей по тексту (на основе использования лексических, морфологических, морфемных, фразеологических, синтаксических и иных анализаторов) и подкачки этой информации в основной словарь, содержащийся в словарной подсистеме. Во-вторых, имеется в виду обратное “опрокидывание” выбранных характеристик некоторого внешнего словаря на лексический и иной материал текста с целью дополнительной маркировни текста и анализы полученных в нем соотношений различных типов маркировки в интересах более глубокого проникновения в структуру и содержание текста. Принципы подобного рода системы, на наш взгляд, в наиболее развитом виде представлены в системе “Диктум-1” [Kukushkina, Polikarpov, 1996]. Подобная система в настоящее время позволяет, например, осуществлять многоаспектный анализ текстов и их единиц в целях обнаружения устойчивых индивидуально-авторских характеристик текстов [Кукушкина, Поликарпов, Хмелев, 2001; Khmelev, Kukushkina, Polikarpov, 2001].

Система “Диктум-1” может также выполнять функции автоматизированного рабочего места лингвиста, так как содержит в себе морфологический, лексико-семантический и морфемный анализаторы русского языка, поисковый и сортировочный аппарат, аппарат получения первичной статистики (макрохарактеристики отобранных текстов, частотные списки), сортировки и просмотра отобранных единиц в конкордансе переменной длины и просмотра отобранных единиц в режиме «прозрачного текста».

 

2. Нерешенные проблемы.

Они в современной славянской лексикографии в настоящее время сводятся, в основном, к двум:

- разрозненность усилий различных коллективов исследователей в решении сходных задач (поиски оптимальной структуры баз данных и интегральных лексикографических систем; синтез лексикологических и лексикографических задач и методов при создании новых машинных словарей; и т.п.);

- отсутствие достаточного финансирования перспективных лексикографических проектов.

Можно надеяться, что работа лексикографического блока на предстоящем съезде славистов будет способствовать более успешному решению указанных проблем и задач.

 

Литература