«Электронная энциклопедия языка Пушкина»

До сих пор не существует не только лингвистической электронной энциклопедии А. С. Пушкина, но и подобной энциклопедии любого другого автора. Создание пробного варианта такой энциклопедии по стихотворным и драматическим текстам А. С. Пушкина («Вып. 1. Поэзия и драматургия А. С. Пушкина. Путеводитель по Пушкину». М., 2006) осуществили сотрудники кафедры русского языка и лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета.

Вообще, авторская компьютерная лексикография до сих пор слабо развита. Из анализа попыток создания авторских корпусов текстов (например, корпус текстов публицистики Ф. М. Достоевского, разработанный сотрудниками Петрозаводского государственного университета) очевидно, что, в основном, эти попытки ориентированы на отображение узкого набора характеристик языка автора и на очень простые (в основном, справочные) функции использования компьютерного корпуса текстов.

Не лучше обстоит дело и в зарубежной компьютерной лексикографии. Самая популярная (и, как правило, единственная) единица поиска в зарубежных авторских корпусах — словоформа, никак не охарактеризованная, без различения омонимичных форм разных слов. Так что созданный на факультете диск «КИИСа. Корпусная информационно-исследовательская система. Вып. 1. Поэзия и драматургия А. С. Пушкина и Путеводитель по Пушкину» продолжает оставаться единственным опытом комплексного представления характеристик языка автора на материале анализа компьютерного корпуса его текстов. Мы надеемся, что «Электронная энциклопедия языка А. С. Пушкина» будет следующим серьезным шагом в этом направлении.

Как известно, язык Пушкина является тем фундаментом, на котором возник современный русский литературный язык. На основе пушкинских текстов складывались не только основные грамматические нормы, но и современная система понятий, смыслов, способов их номинации в русском языке. И уже в силу этого язык Пушкина заслуживает более внимательного и серьезного подхода. В то же время имеющиеся компьютерные продукты, представляющие творчество А. С. Пушкина, до сих пор содержат коллекцию его текстов с простейшим поисковым аппаратом — по названию текстов или по словам и словоформам (например, «Александр Сергеевич Пушкин. Полное энциклопедическое собрание сочинений», изд. ИДДК) либо в популяризаторских целях просто снабжают коллекцию текстов Пушкина разнообразными комментариями и иллюстрациями (например, мультимедиа-энциклопедия «А. С. Пушкин. В зеркале двух столетий», изд. 1С).

Очевидна настоятельная необходимость создания лингвистически ориентированной базы данных, ибо, как это ни парадоксально, язык Пушкина до сих пор еще не исследован полно и всесторонне, не выявлены основные структурные его характеристики. Не только в полной мере семантически не охарактеризованы лексика и фразеология текстов Пушкина, но и не систематизированы грамматические особенности его языка — морфологические, морфемные, словообразовательные, синтаксические. Далек от завершения анализ такого важного параметра, как сочетаемость единиц (слов, морфем, грамматических семантических категорий). Специфические особенности языка А. С. Пушкина, реализующиеся по-разному в текстах различных родов и жанров словесности, тоже не рассматривались систематически.

Решение этих задач возможно только на основе создания особого типа корпуса текстов на основе Полного собрания сочинений А. С. Пушкина (1937-1949), проведения многосторонней лингвистической квалификации грамматических и семантических характеристик слов, морфем и сочетаний слов, представленных в этих текстах. Тексты, в свою очередь, должны быть охарактеризованы по своим типам, по особенностям внутренней их структуры, а текстовые единицы должны быть снабжены необходимой информацией и сопряжены с набором внешних лингвистических справочных баз.

Обладающая такими свойствами база данных — «Электронная энциклопедия языка А. С. Пушкина» — должна быть доступна всем специалистам и снабжена средствами самостоятельного анализа и получения на ее основе новых данных.

Необходимо создание, исследование и ввод в научный оборот такого варианта корпуса текстов А. С. Пушкина, в котором не только тексты, но и их единицы (вплоть до слов, их значений, корней и пр.) будут снабжены обширной лингвистической и культурологической информацией, принципиально расширяющей возможности фундаментальных лингивистических исследований, в том числе в области истории языка, а также в области устройства и эволюции языкового сознания конкретной языковой личности.

Опираясь на опыт проделанной работы по созданию корпусной информационно-исследовательской системы КИИСа, в дальнейшем предполагается решать следующие задачи:

  • — сформировать корпус всех текстов по Полному собранию сочинений А. С. Пушкина и систему внешних словарей-справочников (в виде отдельных баз данных), сопрягаемых с единицами текстов и отдельными текстами корпуса («Словарь языка А. С. Пушкина» и фактографический справочник «Путеводитель по Пушкину»);
  • — адаптировать систему КИИСа под более обширный текстовый материал, привести в соответствие с кругом задач нового проекта;
  • — разработанные в рамках КИИСА морфологические и морфемные анализаторы адаптировать к лексическому и морфемному материалу корпуса пушкинских текстов;
  • — осуществить контролируемую разметку всех словоупотреблений текстов морфологическими пометами и пометами морфемной структуры слова;
  • — снабдить тексты необходимой жанровой и фактографической информацией, важной для решения исследовательских задач (жанр, адресат, период творчества и т. п.);
  • — сформировать базу данных по «Словарю языка Пушкина»;
  • — создать вспомогательные средства для сопряжения данных «Словаря языка Пушкина» с употреблениями знаменательных слов для их семантизации (экспертного определения их реализованных значений);
  • — выстроить систему частотно-распределительных словарей словоформ, лексем, корней, аффиксов, корневых групп, аффиксальных моделей, значений слов (лексико-семантических вариантов), семантических типов значений слов.

«Электронная энциклопедия языка А. С. Пушкина» может использоваться и как справочная система, и для дальнейшего исследования особенностей языка Пушкина — прежде всего в тех его аспектах, которые не затрагиваются в первой очереди «Энциклопедии»: словосочетания корпуса, а также синтаксические единицы и структура текстов Пушкина.

А. А. Поликарпов

© Филологический факультет МГУ им. М. В. Ломоносова, 2007–2008