МГУ-ЛОКЛЛ:: Поликарпов А.А.- Славянская компьютерная лексикография: задачи и проблемы

Вы находитесь на архивной версии сайта лаборатории, некоторые материалы можно найти только здесь.
Актуальная информация о деятельности лаборатории на lex.philol.msu.ru.

Славянская компьютерная лексикография:

задачи и проблемы

А.А. Поликарпов

Translate this page into:

1. Решаемые задачи.

Может ли современная славянская лексикография успешно развиваться без компьютеризации? Разумеется, нет. Компьютеризация в лексикографии в настоящее время помогает решать следующие задачи:

а) Перевод в машинную форму ранее опубликованных книжных словарей, что позволяет «разложить по полочкам» содержимое каждого из них. Только на этой основе и можно осуществить эффективный контроль полноты и последовательности заполнения полей в статьях словаря, а также эффективно использовать и контролировать информацию в последующей лексикографической работе над новыми версиями данного словаря (в т.ч. в виде получения различных аспектуальных проекций словаря, его конверсий и т.п.).

Примером подобного рода развивающейся лексикографической базы данных может служить «Словарь русского языка» С.И. Ожегова (под редакцией Н.Ю. Шведовой; в последних изданиях в соавторстве с ней). Эта база создана в Институте русского языка РАН в 1990 году, и с тех пор она постоянно пополняется, на ее основе переиздаются обновляемые версии этого словаря, а также проводятся лексикологические исследования [Колодяжная, Поликарпов, 1994].

В лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ в настоящее время созданы и исследуются полные или частичные отображения в виде баз данных таких словарей, как «Этимологический словарь славянских языков» под ред. О.Н. Трубачева (М., 1975 - ….) [Поликарпов, 2001], «Словарь древнерусского языка» (тт. 1-5. - М., 1988 - 2000) [Поликарпов, Полякова, в печати] “Словарь русского языка XI - XVII вв.» под ред. Г.А. Богатовой (…), «Словарь синонимов» русского языка под ред. А.П. Евгеньевой (М., 1975) [Колодяжная, Поликарпов, 1997; Колодяжная, Поликарпов, 1997], “Новые слова и значения”-1 (М., 1984) [Поликарпов, Кустова, Савчук, в печати], “Новые слова и значения”-2 (М., 1997) [Поликарпов, в печати], "Грамматический словарь русского языка" А.А.Зализняка [Кукушкина, 1997].

Еще одним примером развитой лексикографической базы данных является "Komputerowy Slownik Jezyka Polskiego" [Komputerowy, 1998]. Он был издан в виде CD-ROM-ного диска, снабженного аппаратом поиска необходимой лексикографической информации (грамматической, стилистической, толковательной и нек. др.). Он содержит в себе материал трехтомного словаря (ок. 80 тыс. слов).

Кроме этого в последние годы создан и распространяется в виде CD-ROM-ного диска и 10-томный словарь "Slownik Jezyka Polskiego" (под ред. В.Дорошевского).

б) Создание и эффективное ведение (то есть контролируемое развитие) в виде баз данных новых словарей славянских языков. Необходимо с сожалением отметить, что новых крупных лексикографических проектов (типа толковых, исторических или аспектуальных словарей славянских языков) в таком виде сейчас практически не реализуется. В качестве редкого исключения можно назвать нашу базу данных «Хронологический морфемно-словообразовательный словарь русского языка» [Богданов, Крюкова, Поликарпов, 1998; Polikarpov, 2000], который создается на основе синтеза этимологической и источниковой информации со словообразовательной. Замышлявшийся как экспериментальный лексикологический полигон, этот словарь в настоящее время представляет самостоятельное лексикографическое предприятие, готовящееся к изданию как в традиционно книжном, так и в электронном вариантах.

в) Создание больших синхронных и диахронных текстовых корпусов славянских языков, имеющих целью исследование на их основе не только собственно характеристик устройства текстов разных эпох, стилей, жанров, авторов, тематики и т.п., но и снабжение лексикографов объективным, представительным, стилистически определенным материалом о состоянии употребления в этих языках лексикографируемых единиц. Т.е. в ходе исследования подобного материала не просто подбирается какой-то иллюстративный материал, но выясняются и верифицируются объективные различия в степени употребительности лексических (фразеологических, морфемных, морфологических) и иных единиц языка в тех или иных его стилях и жанрах (например, в виде частотно-распределительных словарей этих единиц по стилям и жанрам).

В настоящее время в стадии формирования и предварительной обработки находятся текстовые многожанровые корпуса чешского, польского, русского, хорватского и некоторых других славянских языков. В целом, однако, текстовое корпусостроение славянских языков отстает по темпам и результатам от того, что сейчас достигнуто на материале, например, многих германских и романских языков.

Особое место среди многожанровых корпусов занимают корпуса газетных текстов. Это связано как с тем, что в газетных текстах оперативно отображаются изменения в нормах и единицах языка, так и с тем, что они сейчас представляют наиболее доступный для корпусостроения материал. Создание и категоризация многожанрового корпуса русских газет конца XX века [Виноградова, Кукушкина, Поликарпов, Савчук, 2001а; Поликарпов, Кукушкина, Виноградова, Савчук, 2001б] позволило уточнить представления о состоянии лексики, морфологии, морфемики и фразеологии современного русского языка [Поликарпов, Кукушкина, Виноградова, Савчук, 2001в].

г) Создание и контрастивный анализ параллельных корпусов славянских языков. Этот раздел компьютерной лексикографии в настоящее время представлен совместным проектом Маннхайского и Московского университетов "Корпус параллельных текстов современных славянских языков: контрастивный анализ". Результаты этого исследования дадут более точные, количественно определяемые и типологически интерпретируемые различия систем славянских языков.

д) Создание комплексных автоматизированных лексикографических систем. Имеется в виду, во-первых, объединение в едином программном комплексе возможностей получения различных словарей по тексту (на основе использования лексических, морфологических, морфемных, фразеологических, синтаксических и иных анализаторов) и подкачки этой информации в основной словарь, содержащийся в словарной подсистеме. Во-вторых, имеется в виду обратное “опрокидывание” выбранных характеристик некоторого внешнего словаря на лексический и иной материал текста с целью дополнительной маркировни текста и анализы полученных в нем соотношений различных типов маркировки в интересах более глубокого проникновения в структуру и содержание текста. Принципы подобного рода системы, на наш взгляд, в наиболее развитом виде представлены в системе “Диктум-1” [Kukushkina, Polikarpov, 1996]. Подобная система в настоящее время позволяет, например, осуществлять многоаспектный анализ текстов и их единиц в целях обнаружения устойчивых индивидуально-авторских характеристик текстов [Кукушкина, Поликарпов, Хмелев, 2001; Khmelev, Kukushkina, Polikarpov, 2001].

Система “Диктум-1” может также выполнять функции автоматизированного рабочего места лингвиста, так как содержит в себе морфологический, лексико-семантический и морфемный анализаторы русского языка, поисковый и сортировочный аппарат, аппарат получения первичной статистики (макрохарактеристики отобранных текстов, частотные списки), сортировки и просмотра отобранных единиц в конкордансе переменной длины и просмотра отобранных единиц в режиме «прозрачного текста».

2. Нерешенные проблемы.

Они в современной славянской лексикографии в настоящее время сводятся, в основном, к двум:

- разрозненность усилий различных коллективов исследователей в решении сходных задач (поиски оптимальной структуры баз данных и интегральных лексикографических систем; синтез лексикологических и лексикографических задач и методов при создании новых машинных словарей; и т.п.);

- отсутствие достаточного финансирования перспективных лексикографических проектов.

Можно надеяться, что работа лексикографического блока на предстоящем съезде славистов будет способствовать более успешному решению указанных проблем и задач.

Литература

Богданов В.В., Крюкова О.С., Поликарпов А.А. Хронологический морфемно-словообразовательный словарь русского языка: создание базы данных и ее системно-квантитативный анализ // Вопросы общего, сравнительно- исторического, сопоставительного языкознания. Вып.2. - М.: Московский лицей, 1998. - С.172-184.

Виноградова В.Б., Кукушкина О.В., Поликарпов А.А., Савчук С.О.. Лингвистический анализ ядерного корпуса русских газет конца XX-ого века // Язык средств массовой информации как объект междисциплинарного исследования. Тез. докл. международной научн. конф. Москва, филологический факультет МГУ им. М.В.Ломоносова. 25-27 октября 2001 г. - М.: Изд-во Моск. ун-та, 2001. - С. 114-115.

Колодяжная Л.И., Поликарпов А.А. Исследование системных параметров лексики на основе компьютерной версии синонимического словаря // Труды машинного фонда русского языка. Том 2. Ин-т русского языка РАН. - М., 1992. - С. 3-15.

Колодяжная Л.И., Поликарпов А.А. Системно-квантитативное исследование русской синонимии // Альманах "Говор". Ч.1. D. - Сыктывкар: Сыктывк. гос. университет, 1997.

Кукушкина О.В. Словарная база данных "Грамматический словарь русского языка" А.А. Зализняка // Альманах "Говор".- Часть 1.D. - Cыктывкар: Сыктывк. гос. университет, 1997. - С. 35-40.

Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В.. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. Т. 37, №2 - М., 2001.

Поликарпов А.А. Теоретические проблемы прикладной лексикологии // Вестник МГУ. Сер.9 Филология. 1989, N 5. - С. 64-74.

Поликарпов А.А. Проблемы и перспективы автоматизации лексикологического и лексикографического анализа с помощью ЭВМ // Использование ЭВМ в лингвистических исследованиях. - Киев: Наукова думка, 1990. - С. 167-180.

Поликарпов А.А.. Закономерности образования новых слов: моделирование процесса и его экспериментальное исследование // Язык. Глагол. Предложение. К 70-летию Георгия Георгиевича Сильницкого. - Смоленск, 2000. С. 211-227.

Поликарпов А.А.. Зависимость сохранности общеславянской лексики во времени от категориальной принадлежности и возраста слов // Проблемы славянского языкознания в контексте индоевропейского сравнительно-исторического языкознания. Тез. докл. научн. конф. Москва, филологический факультет МГУ им. М.В.Ломоносова. 30-31 октября 2001 г. - М.: Изд-во Моск. ун-та, 2001.

Поликарпов А.А. Анализ закономерностей образования новых слов русского языка (На материале словаря "Новые слова и значения"-1997). - В печати.

Поликарпов А.А., Кукушкина О.В., Виноградова В.Б., Савчук С.О. Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей // Русский язык: исторические судьбы и современность. Международный конгресс русистов-исследователей. Москва, филологический ф-т МГУ им. М.В.Ломоносова. 13-16 марта 2001 г. Труды и материалы. - М.: Изд-во Моск. ун-та, 2001. - С. 398.

Поликарпов А.А., Кукушкина О.В., Виноградова В.Б., Савчук С.О Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей. - М.: Изд-во Моск. ун-та, 2001. - 96 с.

Поликарпов А.А., Курлов В.Я. Стилистика, семантика, грамматика: опыт анализа системных взаимосвязей (на основе анализа данных толкового словаря) // Вопросы языкознания, N 1, 1994. - С. 62-75.

Поликарпов А.А., Кустова Г.И., Савчук С.О. От конкретности - к абстрактности: тенденции семантической эволюции лексики. - В печати.

Поликарпов А.А., Крюкова О.С. О системном соотошении краткого и среднего толковых словарей русского языка // Квантитативная лингвистика и автоматический анализ текстов. - Тарту: Изд-во Тартуского университета, 1989. - С. 111-125.

Поликарпов А.А. Полякова Т.А. Зависимость сохранности древнерусской лексики во времени от категориальной принадлежности, величины полисемии и возраста слов. - В печати.

Kolodyazhnaya, L.I., Polikarpov, A.A. A System for Compilation and Analysis of Computerized Philological Dictionaries Using a Personal Computer. TKE`90: Terminology and Knowledge Engineering. Vol.2. Proc. 2nd Int. Congress on Terminology and Knowledge Engineering. Ap.

Kolodyazhnaya, L.I., Polikarpov. A.A. Study of Quantitative Correlations between Stylistics, Grammar and Polysemy of Words (On the Basis of Ozhegov Dictionary) // Qualico-94. 2-ая Международная конференция по квантитативной лингвистике, 20- 24 сент. 1994 г., Москва, МГУ, филологический факультет. - Москва, 1994. - С.110-112.

Komputerowy Slownik Jezyka Polskiego. Vol-s 1-3. PWN. CD-ROM. - Warszawa, 1998.

Kukushkina Olga V., Polikarpov Anatoliy A. DicTUM-1 - A System for Dictionary-Text Universal Manipulations and Analysis // XI International Conference "History and Computing", Moscow, Moscow State Universiti, August 20-24 1996. - Pp.50-52.

Polikarpov Anatoliy A. On the Model of Word Life Cycle // Koehler, R., Rieger, B. (eds.) Contributions to Quantitative Linguistics. - Dordrecht: Kluwer, 1993 - Pp. 53-66.

Polikarpov Anatoliy A. Chronological Morphemic and Word-Formational Dictionary of Russian: Some System Regularities for Morphemic Structures and Units // Linguistische ArbeitsBerichte. Institut für Linguistik - Universität Leipzig. 3. Europäische Konferenz "Formale Beschreibung slavischer Spachen, Leipzig 1999". № 75.- Leipzig, 2000.- Pp. 201-212

Slownik Jezyka Polskiego. Vols I-IX with supplement. (Compiled by prof. V.Doroszewski). CD-ROM