Вы находитесь на архивной версии сайта лаборатории, некоторые материалы можно найти только здесь.
Актуальная информация о деятельности лаборатории на lex.philol.msu.ru.
МГУ-ЛОКЛЛ:: Кукушкина О.В. - Словарная база данных "Грамматический словарь русского языка А.А.Зализняка" и некоторые результаты ее исследования.



[Paper published in "Almanac "GOVOR" - 1997]





Словарная база данных "Грамматический словарь русского языка А.А.Зализняка" и некоторые результаты ее исследования



О.В.КУКУШКИНА


В 1993 г. в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ была создана система управления словарными базами данных (Словарная СУБД). СУБД позволяет создавать компьютерные словари разного внешнего вида и конфигурации, в том числе и многоязыковые. Она снабжена развитой системой поиска по запросам и дает возможность создавать подвыборки, с помощью которых можно проводить автоматизированное исследование базы данных.

Первый продукт, который был получен с помощью СУБД, это компьютерная база данных "Грамматический словарь русского языка А.А.Зализняка". Перед конвертацией в базу была проведена полуавтоматическая обработка текстового файла словаря. Цель ее:

а/выявление типов информации и их разметка;

б/экспликация скрытой информации.

В эксплицитном виде (при таблицах с образцами спряжения, а не при самих словах) дается, например, в словаре информация о регулярных чередованиях согласных в глаголах.

Наибольшие проблемы возникали в связи с тем, что в исходном тексте в одной словарной статье объединяются некоторые регулярные типы омонимичных единиц ('больной'-сущ./прилаг.; 'конструктор' - одуш./неодуш.). Так как "скрытые" в статьях единицы имеют свои грамматические особенности, вплоть до частеречных, было принято решение вводить такие единицы в словник. Но поскольку содержащиеся в одной статье слова в большинстве случае семантически связаны друг с другом, при их введении в словник им присваивался специальный, указывающий на их связь маркер.

В результате такого подхода в словнике после конвертации оказалось 97.068 единиц. Вся имеющаяся при словах информация размещается в 16 полях.

В настоящий момент начата работа по исследованию базы. Основные цели этой работы:

1/получить количественное выражение для некоторых типологических характеристик русского языка;

2/выявить основные зоны неустойчивости и потенциальной внутренней интерференции, а также получить представление о степени активности отдельных процессов в современном русском языке;

3/оценить степень семантической нагруженности суперсегментных единиц (ударения и чередования);

4/определить степень распространенности в русском языке отдельных типов морфонологического варьирования.

Первые результаты этой работы будут изложены ниже.

Как известно, русский язык относится к числу синтетических. Данные "Грамматического словаря" позволяют количественно оценить некоторые из параметров, которые могут отражать степень синтетичности языка. Внутрисловный характер выражения значений должен проявляться, помимо всего прочего, а) в большом количестве грамматических классов; б) в незначительном количестве слов с частеречным синкретизмом. Обычно в качестве грамматических классов в исследованиях выступают части речи. В "Грамматическом словаре" слова также имеют частеречную характеристику - используется пятнадцатичленная классификация - ,однако А.А.Зализняк вводит особое понятие, более точно характеризующее особенности словоизменения в языке. Указывая на то, что все неизменяемые части речи составляют на самом деле один класс и что подразделение внутри него ведется на синтаксических основаниях, он предлагает считать основной единицей деления слов с точки зрения словоизменения грамматический разряд. "Под грамматическим разрядом понимается совокупность слов, у которых набор клеток, образующих парадигму, одинаков (т.е. однаково число клеток и их названия)" (Зализняк,1977, сс.4-5). И именно число разрядов, как представляется, может служить одной из величин, непосредственно отражающих степень синтетизма языка. Для русского языка А.А.Зализняк выделяет 11 таких разрядов.

Что касается частеречного синкретизма, то он, как известно, мало характерен для русского языка. Всего в базе оказалось около 470 таких полифункциональных единиц, объединяющих 1044 единицы словника. Следует отметить, что здесь имеется ввиду именно полифункциональность, когда в разных частеречных функциях выступают единицы, сохраняющие смысловую связь, а не омонимичность.

Значительный интерес представляет анализ типов частеречного синкретизма в русском языке. Один из самых частотных случаев - совмещение именных функций "наречие/прилагательное/существительное" (около 40 случаев ). Этот тип полифункциональности наблюдается во многих языках и был широко представлен в древних славянских языках, где один общий граматический класс имен был противопоставлен глаголу. Однако выявленные случаи ни в коей мере не свидетельствуют о том, что в русском языке имеют место следы этого древнего состояния: все случаи связаны с заимствованными несклоняемыми словами, типа "визави". Они просто еще раз демонстрируют потенциальные синтаксические возможности номинативных единиц с семантикой "постоянный признак".

Бесспорным лидером среди типов частеречного синкретизма является тип "наречие/предикатив" (110 случаев, объединяющих около 220 единиц словника). Это дает основание говорить о достаточной регулярности в русском языке такого явления, как грамматическое оформление единиц с семантикой "состояние" по наречному типу. На регулярность этого явления указывал еще В.В.Виноградов, который видел здесь проявление особого процесса - формирования и роста в русском языке слов так называемой "категории сстояния". Как известно, большинство слов этой категории используется прежде всего для выражения противопоставления "контролируемое/неконтролируемое состояние" (ср. "я веселый"/"я веселюсь"/"мне весело"). Активность этой категории подтверждается и общим числом единиц словника с пометой "предикатив" - это число весьма значительно - 272, что выводит предикативы на третье место (после наречия и сравн. степени) среди неизменяемых слов.

Итак, анализируемая база данных позволяет определить количество грамматических разрядов и единиц с частеречной полифункциональностью в русском языке, и эти величины могут быть (наряду с другими) использованы для оценки степени его синтетичности.

Интересным с типологической точки зрения может оказаться такой параметр, как соотношение предметных (по оформлению) и признаковых слов в словнике. В словнике базы существительные составляют 47,8%, глаголы - 28,45%, прилагательные - 21%, наречия -1,4%. Таким образом, наблюдается превалирование признаковых единиц (47,8% / 50,85%). Почему это соотношение может быть значимым и в каком плане?

Известно, что в русском языке очень развито внутриглагольное словообразование: в нем имеется развитая система способов глагольного действия (в основном, префиксальных) и видовых пар. Кроме того, особенностью русского языка является большое количество относительных прилагательных. Поэтому можно предположить, что словарях языков, где нет вида, не развиты способы глагольного действия и мало относительных прилагательных, будет наблюдаться существенно иное соотношение: существительные будут в них преобладать. В силу этого, количественное соотношение признаковых и предметных (с грамматической точки зрения) слов может служить критерием для оценки:

а/степени словообразовательной активности языка в признаковой области;

б/степени лексической дифференцированности этой области;

в/уровня развития относительных прилагательных;

г/величины метафорического потенциала языка в признаковой области.

Последнее представляется возможным в силу того, что почти любое относительное прилагательное потенциально способно выступать в качественных контекстах, т.е. создает возможность метафорического переноса.

Анализ количественного соотношения в словнике слов различных частей речи может быть интересен и еще в одном отношении. Одной из практически важных задач является задача определения стилистической ориентации словника, в котором отсутствуют стилистические пометы. В "Грамматическом словаре" они есть, но относятся, как правило, к отдельным формам или вариантам изменения. Одним из показателей степени представленности в словнике разговорных и просторечных слов может являться количество в нем междометий и частиц, поскольку в данные части речи входит преимущественно стилистически окрашенная лексика. В словнике базы имеется 184 междометия и 110 частиц. Эти величины следует оценить как очень значительные, что особенно хорошо видно на фоне такой относительно стилистически нейтральной части речи, как предлог (124 единицы). Это полностью соответствует тому эпмирически установленному факту, что словник базы содержит много разговорных, просторечных и архаических единиц.

"Грамматический словарь" дает очень полный материал по категории одушевленности/неодушевленности, что дает возможность получить данные для оценки степени синкретизма по одуш./неодуш. в русском языке.

Здесь имеются ввиду случаи, когда единицы, используемые для обозначения живого существа и предмета (растения), совпадают по звучанию (ср. "конструктор","кобыла") и при этом между ними сохраняется достаточно тесная семантическая связь. В базе выявлено около 500 таких пар, что составляет около 2% от общего числа существительных в словнике. Еще 182 пары объединяют настоящие омонимы, семантические связи между которыми отсутствуют или ослаблены (ср. "1 бой" -'битва' и '2 бой' -'слуга'). Этот параметр также может представлять существенный интерес с точки зрения типологии. Предположение о возможной типологической важности этой величины иы делаем исходя из того, что имеются языки, в которых лексические средства (как именные, так и глагольные), регулярно разбиваются на два класса - активный ("неодушевленный") и инактивный ("одушевленный") и для которых, в силу этого, указанный синкретизм не характерен.

"Грамматический словарь" дает необходимый материал для того, чтобы пытаться на его основе получить количественную оценку степени морфонологической сложности русского языка. Решать эту задачу можно, очевидно, по-разному. Мы при ее решении исходили из того, что степень этой сложности может определяться на основе двух параметров:

а/количество основных образцов (типов спряжений и склонений), с помощью которых описывается материал;

б/количество единиц, словоизменение которых не удается полностью описать с помощью основных образцов;

Первый параметр позволяет оценить степень унифицированности грамматических средств языка. С учетом схем ударения и разных тематических глагольных гласных можно выделить в "Грамматическом словаре " около 90 таких основных образцов.

Второй параметр позволяет оценить количество слов с чередованием, аномальным, дефектным или вариативным изменением. Как показали подсчеты, 36,7% единиц словника базы нуждается в в описании с помощью дополнительных помет.

Необходимо, однако, отметить, что указанные параметры позволяют оценить степень только словоизменительной морфонологической сложности. Они не отражают морфонологические явления, сопровождающие процессы словообразования. Поэтому к ним необходимо в дальнейшем добавить еще один параметр: количество производных единиц, при образовании которых используется та или иная морфонологическая модель.

Материал базы дает огромные возможности для выявления зон словоизменительной неустойчивости и потенциальной внутренней интерференции в языке.

При их выявлении может использоваться следующий основной критерий: количество слов с дополнительными пометами, относящимися к той или иной грамматической форме. Использование этого критерия показало, что для имен существительных такой зоной неустойчивости являются контексты так называемого родительного второго и предложного второго (497 случаев), а также контексты родительного множественного (134 случая). Для глагола одной из явных зон неустойчивости является образование имперфективных видовых пар. Эти данные вступают в противоречие с традиционными утверждениями о том, что в русском языке уже прошел процесс унификации типов склонения и унификации средств образования видовых пар. Очевидно, эти процессы далеко еще не завершены в языке.

Анализируемая словарная база позволяет решать задачи по определению степени семантической нагруженности различных средств и степени распространенности отдельных морфонологических явлений.

Так, нами выявлено 140 пар, в которых единицы противопоставлены ударением и всего 20 пар, средством противопоставления членов которых является чередование "е/Jo".

Чередованием гласных с нулем и чередованием "е/Jo" охвачено примерно 20% единиц словника. Следует учесть, однако, что это количество было бы значительно меньше, если бы в словаре не давались потенциальные формы прилагательных и существительных. Регулярное чередование согласных представлено у 4,2% единиц словника.

Такие морфонологические явления, как нетематическое наращение или усечение основы слова при словоизменении, представлены у 820 единиц: глаголы -555 и существительные-265 (местоимения не рассматривались).

Исследованию базы находится еще в начальной стадии, но оно еще больше укрепило нашу уверенность в том, что нужно вести активную работу по созданию компьютерных словарных баз данных. Только перевод словарей в базовый вид даст возможность в полной мере использовать материал, хранящийся в них.



ЛИТЕРАТУРА


Зализняк, А.А. [1977]. Грамматический словарь русского языка. Москва., 1977.