Вы находитесь на архивной версии сайта лаборатории, некоторые материалы можно найти только здесь.
Актуальная информация о деятельности лаборатории на lex.philol.msu.ru.
МГУ-ЛОКЛЛ :: Компьютерный корпус текстов русских газет конца XX-ого века


Компьютерный корпус текстов русских газет конца XX-ого века


Подготовка корпуса и его Интернет-версии осуществлено на основе исследования при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435 ).

Найти на этой странице
работает только в Internet Explorer 5.0 и выше

Оглавление

Введение.

Создатели Корпуса

Создание корпуса, его анализ, категоризация, исследование и разработка Интернет-варианта выполнены в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435) в 1999-2002-ом гг.

Поликарпов А.А. - автор идеи корпуса, его рабочего проекта, руководитель коллектива по созданию корпуса, его лингвистическому анализу и формированию его Интернет-варианта. Контроль омонимических и синонимических характеристик слов и корней , контроль новой лексики.

Кукушкина О.В. - участие в разработке рабочего проекта корпуса, создание и ведение морфологической и других баз данных по корпусу, автоматический морфологический, лексико-грамматический и лексико-семантический анализ единиц текстов корпуса.

Савчук С.О. - жанровый анализ текстов.

Виноградова В.Б. - жанровый анализ текстов.

Пирятинская Е.Ф. - морфемный анализ лексики.

Хмелев Д.В. - создание оболочки СУК (системы управления корпусами).

Варламов А.А. - адаптация оболочки и поддержка Интернет-варианта корпуса.

Токтонов А.Г. - анализ новой лексики.


Источники материала корпуса.

Источником Корпуса послужили текстовые файлы русскоязычных российских газет, накапливаемые в информационной системе фирмы Интегрум-Техно. Благодарим руководство фирмы за ценный материал, представленный нам в 1997 г.

Финансирование работ по созданию Корпуса.

Создание корпуса осуществлено при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435) в 1999-2002-ом гг.


1. Системный подход и корпусная лингвистика.

Для развития современной лингвистики и науки в целом характерным является системный подход [ Мельников, 1978; Mel’nikov, 1988 ]. Этот подход заключается в видении своего объекта как специфической целостности. Этот подход требует в эмпирическом, экспериментальном плане иметь дело не с произвольными выборками, а с полным объемом данных об изучаемом объекте. Только сплошной, без субъективного изъятия анализ материала позволяет получить полную, системную картину состояния изучаемого объекта. Если же приходится ограничиваться теми или иными выборками из общей совокупности данных об изучаемом объекте, то эти выборки должны удовлетворять как универсально-статистическим критериям достаточности и надежности, так и специально-предметным критериям качественной представительности выборки для объекта, разнообразно представленного во времени и пространстве.

Таковым объектом, обширно распределенным во времени и пространстве и является тот или иной национальный язык, постоянно развивающийся и представленный колоссальным разнообразием случаев его употребления в виде текстов, построенных в разных условиях и с разными целями.

Средством организации материала текстов той или иной сферы данного языка для его системного анализа и объективного представления является создание корпусов текстов, представительных для той или иной сферы.

Корпус текстов – это не просто коллекция отобранных по определённой методике и представленных в электронном виде текстов определённых сфер употребления языка (подобных коллекций существует сейчас великое множество), но такая коллекция, которая категоризована как со стороны интегральных характеристик каждого текста (например, жанровых), так и со стороны специфических характеристик различных единиц его организации (лексемы, словоформы, морфемы и т.п.) Подобная характеризация позволяет вести развёрнутый анализ различного рода зависимостей в текстах некоторой области. Кроме того, подобная коллекция должна быть организована в виде некоторой базы данных. Это облегчает её практическое использование и научный анализ.

Здесь представлен газетный корпус современного русского языка и его начальный лингвистический анализ. В равной мере на этом материале могут рассматриваться вопросы современной политической истории, социологии, социальной психологии, контент-анализа, теории рекламы и др. Основой для этого являются те словари, индексы и конкордансы, которые строятся из материала Корпуса с использованием специализированного программного инструментария.

 

2. Общая характеристика Компьютерного корпуса газетных текстов современного русского языка.

Ниже представлены некоторые результаты работы по созданию, категоризации и анализу "Компьютерного корпуса газетных текстов русского языка конца 20-го века", подготовленного в течение 2000 - 2002-ого гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ по грантам РФФИ 00-07-90007 и 01-07-90386. В ходе выполнения данного проекта реализована серия основных задач построения и анализа базы данных газетного материала в интересах получения объективной картины состояния современного русского газетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе газетных жанров присутствуют многие жанры других родов словесности). Для этого был осуществлен подбор обширного газетного материала для корпуса (тексты общим объемом более 11 млн. словоупотреблений) на основе принципов включения в него полных номеров 13 российских газет на русском языке за отдельные даты 1994-1997-ого гг., представленности в нем ежедневных и неежедневных (МН, Новая газета), "левых" (Завтра, Правда, Правда-5) и "правых", центральных и местных, общих и профессионально ориентированных (Литературная газета) газет. Эти принципы позволяют получить относительно объективную и надежную картину соотношения в газетном материале текстов различного типа, (например, различных жанров и жанровых типов) их единиц и отношений между ними. В том числе, это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного языка характеристик, но и возможность анализа жанровой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.

Корпус создан, анализируется и управляется на основе системы Диктум-1 (разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии МГУ). С помощью этой системы тексты и единицы корпуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) - маркерами газеты-источника, объема текста, его жанра, даты публикации и т.п.; словоупотребления - маркерами грамматических, лексических, морфемных и иных категорий.

В составе всего газетного корпуса находится часть, которая исторически раньше всего была сформирована и была более подробно охарактеризована со стороны квалификации лексем и словоформ, реализуемых в ее текстах. Эту часть мы называем Ядерный газетный корпус. Объем Ядерного корпуса – ок. 1 млн. 350 тыс. словоупотреблений.

При подготовке демонстрационного варианта корпуса для Интернета был выделен из Ядерного корпуса его фрагмент общим объемом более 200тыс. словоупотреблений). Его единицы охарактеризованы наиболее подробно (см. ниже).

Общая картина источникового устройства Компьютерного корпуса русских газет выглядит следующим образом. Всего в корпусе 23110 текстов по полным номерам 13-ти разных российских газет на русском языке.

Ниже приводится Таблица 1 по объемным характеристикам разных привлеченных газет, представленных в Корпусе.


 

Таблица 1

Соотношение источников по их объёмам в Компьютерном корпусе текстов газет русского языка

 

Название газеты Объем в числе словоупотреблений
ЗАВТРА 1215968
ИЗВЕСТИЯ 1373682
ЛИТЕРАТУРНАЯ ГАЗЕТА 1449307
МК 1170229
МОСКОВСКИЕ НОВОСТИ 1403472
НЕЗАВИСИМАЯ ГАЗЕТА 905733
НОВАЯ ГАЗЕТА (ПОНЕДЕЛЬНИК) 910042
НОВГОРОДСКИЕ ВЕДОМОСТИ 14472
НОВГОРОД 84589
ПРАВДА 1438278
ПРАВДА-5 18819
СВОБОДНЫЙ САХАЛИН 95652
ТОМСКАЯ НЕДЕЛЯ 1321236
Все газеты вместе 11401479

 

Разработка и реализация на материале корпуса принципов жанровой классификации газетных текстов (включая типизацию жанров, а также определение характеристических признаков различных типовых жанров) позволила выявить профиль распределения объемов текстов разного жанрового и источникового состава и особенностей употребления в них единиц.

Проведенная автоматическая лемматизация и морфологическая квалификация словоупотреблений Корпуса (с последующими контролирующими процедурами), а также морфемная сегментация словоформ и лексем позволила автоматически получить для него алфавитно-частотные и частотно-распределительные словари словоформ, лемм, корней и морфемных моделей.

В таком объёме и с такой подробной разработкой различных характеристик корпуса текстов на русском материале ещё не строились. Каждый текст газетного корпуса характеризовался (а) датой публикации источника (газеты), (б) названием источника, (в) рубрикой (если есть), (г) автором (если указан), (д) жанром текста и его (е) жанровым типом (на основе классификации, разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии – см. ниже), (ж) объёмом текста.

Каждое словоупотребление во всем корпусе характеризовалось (а) той формой словоизменения, которая ему свойственна, (б) леммой (исходная форма лексемы), (в) некоторыми лексико-грамматическими, лексико-семантическими, морфемными и иными характеристиками.

 

3. Система маркировки газетных текстов маркерами конкретных жанров и жанровых типов.

В целях проведения жанровой квалификации газетных текстов была разработана система жанровых характеристик, которая уточнялась в процессе поэтапного анализа всего корпуса.

Жанр - это устойчивый тип текста, для которого характерен определенный тип содержания, способ его представления и языкового оформления. Определяющую роль играет способ интерпретации содержания автором. Так, одна и та же новостная информация может быть представлена как краткое информационное сообщение в жанре заметки, как сообщение с более подробной проработкой деталей в жанре корреспонденции, может быть проанализирована автором и включена в более широкий событийный контекст в жанре комментария, подвергнута обсуждению в беседе с каким-либо лицом или лицами в жанре интервью и т. д.

Изучение литературы по теме и проведенный анализ текстов позволили выявить круг основных жанрообразующих факторов.

I. Факторы, связанные с типом отражаемой внеязыковой действительности (предмет сообщения).

1. Характер объекта, отображаемого в тексте.

2. Актуальность или неактуальность сообщаемой информации.

3. Социальная значимость или незначимость сообщаемой информации.

4. Наблюдаемость или ненаблюдаемость отображенных в тексте событий автором сообщения.

II. Факторы, связанные с выбором коммуникативной цели сообщения.

1. Информирование как ведущая цель сообщения.

2. Побуждение как ведущая цель сообщения.

3. Желание разъяснить (эксплицировать) информацию в тексте.

4. Ориентация на изобразительность в тексте.

III. Факторы, связанные с выбором композиционно-стилевой формы текста.

1. Выбор формы персонификации информации.

2. Выбор способа изложения.

Признак имеет несколько значений: а) сообщение, б) повествование, в) рассуждение, г) описание, д) предписание, е) перечень.

3. Выбор субъектной формы текста (тип “образа автора”).

4. Выбор способа (открытый или скрытый) выражения оценки в тексте.

Оценочная информация может отсутствовать в тексте (деловые, информационные жанры), может быть открыто представлена в тексте, может составлять его основное содержание.

5. Наличие или отсутствие стандарта в форме изложения.

Признак имеет значения “+” (в деловых и некоторых информационных жанрах) и “-” (в большинстве жанров).

Для каждого жанра характерен свой образ автора, т. е. степень проявления авторского “я”, степень субъективации изложения за счет эмоционального или логико-аналитического компонента. На языковом уровне проявление авторского “я” выражается, например, в присутствии в тексте личных местоимений и глагольных форм 1 и 2 лица, модальных компонентов, эмоционально-оценочной лексики и т. д. Степень выраженности авторского “я” минимальна в информационном жанре заметки, в частности, агентской, в которой авторство не указывается, и максимальна в таких жанрах, как колонка, очерк, эссе. Однако поскольку для современной газеты характерна тенденция к усилению личного начала, стремление автора выразить свое отношение к сообщаемому становится обычным и в таких стандартных жанрах, как заметка. При этом, как показали наблюдения, речь может идти не о разрушении жанра заметки, а о его видоизменении.

Система жанров современной газеты имеет полевую организацию. Ее ядро формируют собственно газетные жанры. Периферию составляют жанры, возникающие при взаимодействии сферы газетной публицистики с другими сферами речевой практики - деловой, научной, художественной, разговорной. Ближе к ядру находятся художественно-публицистические жанры, научно-публицистические жанры (научно-публицистическая статья), рекламные материалы, дальше - жанры, типичные для других сфер общения и не являющиеся специфически газетными, хотя и помещаемые на газетную полосу (тексты официальных документов, художественные произведения, игры, тесты и др.). Их можно рассматривать как “цитаты” из других родов словесности, включение которых в газетный контекст обусловлено потребностью газеты снабжать читателя официальной и развлекательной информацией.

Анализ корпуса показал, что научно-публицистические жанры слабо представлены на страницах современных газет, ориентированных на массового читателя. Состояние науки, ее проблемы, перспективы развития становятся предметом исследования в публикациях, которые появляются в отраслевых изданиях (газета “Поиск”), в специальных приложениях, например, к “Независимой газете” (“НГ-Наука”), на специально отведенных полосах некоторых газет (“Общей газеты”, “Литературной газеты” и др.); в последнем случае для передачи научного содержания чаще всего используются традиционные информационно ориентированные газетные жанры корреспонденции, заметки, репортажа и др. Таким образом, приходится констатировать, что взаимодействие газетной публицистики с научной сферой происходит не на уровне образования новых жанровых типов и разновидностей, а на уровне использования методов научного анализа исследуемых проблем прежде всего в аналитических публикациях (использование статистических данных, данных социологических опросов, научных гипотез и т. д.; выбор объективной формы изложения и аргументированный анализ, которые сближают, в частности, газетную проблемную статью со статьей научной).

Что касается текстов разговорного характера, то в исследованном материале они представлены главным образом в жанре записки. Этот жанр встречается в единственной газете - “Томская неделя” в рубрике “Заборчик”, служащей для организации непосредственного неофициального общения молодежи и являющейся, по-видимому, аналогом “конференций”, “чатов” в Интернете.

Выбор определенной степени обобщения жанровых признаков обусловил наличие у некоторых жанров ряда конкретных разновидностей. Так, например, в зависимости от тематики выделяются разновидности статьи (обобщающая, или общеисследовательская, проблемная, или практико-аналитическая, литературно-критическая, полемическая), очерка (портретный, путевой, проблемный, исторический), обозрения (политическое, литературное, спортивное). Разновидности заметки (агентская, корреспондентская) зависят от типа авторства. Разновидности интервью (беседа, круглый стол, форум, пресс-конференция, горячая линия) связаны с различными формами организации диалога. В то же время анкета и опрос, хотя и связаны с интервью, представлены как самостоятельные жанры, поскольку их диалогичность имеет скрытый характер, личность интервьюера не выявлена.

Следует отметить, что некоторые жанры (биография, заявление, досье, ориентировка, молитва, проповедь, дневник, приметы и нек. др.) представлены единичными текстами. Кроме того, некоторые материалы представляют собой отрывки произведений (помечались как отрывок_книги, отрывок_худ. пр.) или подборку (цитат, писем, худ. произведений).

 

Обобщение жанровых характеристик привело к объединению конкретных жанров в 9 жанровых типов. Они следующие.

1) Собственно информационные жанры, содержанием которых является информация, представленная в максимально объективной форме, лишенной авторской индивидуальности.

2) Информационно-публицистические жанры, в которых объективное изложение информации сопровождается ее субъективной интерпретацией, эмоциональной или интеллектуальной оценкой. Следует отметить, что в эту группу попали и такие неспецифические для газеты жанры, как биография, заявление, приметы.

3) Собственно публицистические жанры, содержанием которых является переработанная автором информация: доказательство какого-либо положения, мнение, выражение чувств и т. д. Объективно новая для читателя информация играет здесь второстепенную роль.

4) Художественно-публицистические жанры, в которых используются различные приемы изобразительности, создания художественного текста.

5) Рекламные жанры, включающие как чисто рекламные тексты, так и рекламные сообщения, облеченные в форму традиционных газетных жанров (заметки, корреспонденции, интервью, очерка).

6) Художественные жанры.

7) Разговорные жанры.

8) Официально-деловые жанры.

9) Остальные, куда включены такие развлекательные жанры, как игра, кроссворд, гороскоп и т. д., жанры религиозного красноречия (проповедь, молитва), а также "другие", т.е. такие, отнесение которых к определенному жанру пока затруднительно.

 

4. Частотно-распределительные (по жанровым типам) словари лексических и иных единиц по всему корпусу.

На основе анализа текстов Корпуса получен полный распределительно-частотный словарь лексем.

Небольшой фрагмент его приводится ниже. Полный текст словаря, содержащий 159 тыс. разных лексем корпуса готовится к печати.

 

Таблица 2.

100 самых частых слов Компьютерного корпуса с показом их частотно-распределительных характеристик (по текстам разных жанровых типов)

№№ Слово Инф Собст-публ Инф-публ Худож Худож-публ Реклам Офиц-дел Разг-пис ост Все жанры
1 в 40104 72705 223130 7760 24912 4852 4475 229 28511 406678
2 и 26368 69056 185954 10287 24957 3207 4105 527 25185 349646
3 на 17612 30230 94984 4255 11497 2008 2190 124 12445 175345
4 не 9305 34316 95905 5449 13457 818 1856 345 13254 174705
5 с 10917 22892 69794 3140 8945 1618 1672 359 9549 128886
6 этот 7872 23143 68714 2695 7602 722 1275 88 9166 121277
7 быть 8273 21125 63479 3065 8365 684 1068 130 8651 114840
8 что 6829 20870 66187 2969 7509 460 1035 92 8373 114324
9 тот 5092 17878 51373 68 5618 431 823 60 6714 88057
10 а 4426 14587 40683 2840 6044 767 772 200 6516 76835
11 по 8691 12943 41833 1275 4131 874 966 33 5586 76332
12 весь 4540 14711 41630 2338 5805 557 761 145 5762 76249
13 как 3908 12176 34148 2179 4831 305 543 57 4357 62504
14 к 4288 10962 30331 1486 3737 439 620 168 3937 55968
15 о 4329 10653 30735 1012 3033 386 617 77 3888 54730
16 из 5172 9692 28336 1116 3594 495 471 398 3937 53211
17 но 2398 10201 29354 1581 4073 249 528 60 4034 52478
18 год 5226 9877 27120 583 2909 389 509 23 3624 50260
19 свой 3299 9189 25888 1084 3481 309 332 57 3163 46802
20 за 4132 8558 25000 1162 3158 362 491 31 3481 46375
21 для 3579 7182 21360 484 1958 439 652 13 2829 38496
22 от 3288 7274 20188 931 2461 361 638 53 2826 38020
23 у 2189 6395 19758 1412 3365 312 426 33 3104 36994
24 же 1812 6508 18254 914 2268 212 254 33 2514 32769
25 один 2472 6016 17228 778 2204 234 263 17 2474 31686
26 человек 1983 6046 15927 606 2376 188 255 10 2405 29796
27 Россия 2928 5271 17873 288 1198 319 261   1562 29700
28 мочь 1562 5465 15788 730 1838 156 444 46 2186 28215
29 так 1528 5351 15000 974 2158 143 252 37 2089 27532
30 такой 1538 5122 14855 680 1670 130 341 38 1945 26319
31 только 1510 5133 14087 641 1721 187 342 12 1854 25487
32 наш 1347 4823 12803 565 1831 212 350 29 1962 23922
33 бы 896 4893 13600 678 1687 95 167 26 1760 23802
34 до 2349 4235 12457 520 1538 422 386 13 1805 23725
35 время 1955 4263 12682 387 1480 201 197 8 1649 22822
36 еще 1330 4273 12287 693 1820 142 163 20 1714 22442
37 или 1197 4257 11150 491 1422 429 479 10 1813 21248
38 если 1228 3996 11866 418 1252 136 365 36 1652 20949
39 другой 1369 3964 11380 404 1254 160 278 20 1584 20413
40 новый 2020 3377 10752 238 914 342 175 4 1471 19293
41 стать 1673 3494 10585 517 1306 120 99 5 1337 19136
42 самый 1219 3536 10477 337 1269 185 159 16 1337 18535
43 первый 1852 2953 10225 313 1010 144 161 16 1306 17980
44 когда 828 3456 9598 653 1621 66 159 18 1344 17743
45 дело 1288 3461 9785 282 993 60 135 3 1373 17380
46 российский 1778 2684 10858 50 430 126 197   961 17084
47 страна 1495 3174 10111 153 658 130 138   908 16767
48 что 949 3246 9200 505 1152 83 157 9 1246 16547
49 день 2385 2271 7755 464 1316 271 163 12 1337 15974
50 чтобы 941 2796 8713 451 1152 65 190 28 1167 15503
51 ни 655 3189 8534 458 1301 66 144 5 1101 15453
52 говорить 508 2771 8446 649 1311 38 113 10 1185 15031
53 при 1491 2916 8061 199 684 101 363 1 1074 14890
54 два 1481 2338 8047 352 960 122 134 7 1141 14582
55 сам 732 2849 7964 424 1167 73 106 11 1073 14399
56 даже 692 2891 7919 387 1233 73 114 6 1042 14357
57 Москва 1810 1869 7876 160 840 321 185   967 14028
58 президент 1563 1563 9487 85 425 45 69   765 14002
59 сказать 550 2492 7424 690 1263 53 67 18 1029 13586
60 после 1261 2250 7593 247 879 181 133 1 983 13528
61 жизнь 880 2937 6428 456 1418 119 110 13 1036 13397
62 нет 590 2464 7230 445 1044 56 112 3 1052 12996
63 ли 658 2411 7489 344 851 70 196 4 929 12952
64 можно 918 2458 7019 192 678 152 265 5 890 12577
65 более 1175 2384 7146 98 463 90 165   834 12355
66 вот 513 2350 6336 625 1170 60 94 7 1042 12197
67 под 1011 2072 6363 445 986 130 111 3 865 11986
68 должен 901 2207 7122 140 515 40 258 1 800 11984
69 русский 692 2567 6208 376 1275 144 85 1 632 11980
70 город 2078 1764 5331 165 690 319 248 128 1000 11723
71 очень 554 1934 6556 283 842 80 163 237 1026 11675
72 раз 848 2044 6358 360 835 60 135 10 887 11537
73 без 853 2153 6028 318 941 114 161 35 864 11467
74 где 779 2051 6044 457 1034 95 97 6 800 11363
75 вопрос 775 1953 7205 103 393 56 115   703 11303
76 власть 784 2403 6676 82 449 42 86   676 11198
77 последний 1018 1887 6500 172 604 79 84 1 679 11024
78 иметь 787 2106 6251 110 523 81 229 2 783 10872
79 работа 1052 1928 5792 144 618 188 172   867 10761
80 мир 1119 1997 5702 228 681 173 69 2 650 10621
81 знать 354 1930 5475 572 1158 56 108 66 897 10616
82 деньги 713 1836 5904 131 630 45 133   1054 10446
83 дом 1011 1656 4866 331 915 386 175 4 1054 10398
84 мой 325 1836 4870 905 1330 47 59 91 825 10288
85 слово 759 2025 5454 327 725 63 70 3 743 10169
86 место 979 1711 5304 196 662 92 131 2 961 10038
87 правительство 1012 1422 6365 17 212 48 92   595 9763
88 сейчас 617 1526 5863 189 551 41 48 2 686 9523
89 да 293 1805 4790 708 1075 29 51 6 721 9478
90 сегодня 822 1728 5340 117 429 88 78 2 594 9198
91 какой 361 1693 5232 317 745 40 95 4 706 9193
92 каждый 638 1753 4780 203 724 77 106 8 658 8947
93 большой 820 1527 4893 219 557 128 112 40 600 8896
94 идти 445 1606 4861 374 644 42 81 5 627 8685
95 получить 1001 1420 4667 68 425 68 133 1 691 8474
96 здесь 618 1426 4609 230 692 79 42   565 8261
97 однако 807 1472 5047 51 300 21 93   454 8245
98 область 1491 1572 4045 11 192 45 159 1 691 8207
99 там 328 1384 4490 403 833 55 53 1 643 8190
100 несколько 727 1433 4659 120 513 45 88 2 584 8171

 

Кроме того, подготовлены к печати полученные на том же материале:

  1. Частотно-распределительный словарь словоформ;
  2. Частотно-распределительный словарь корней;
  3. Частотно-распределительный словарь аффиксальных моделей слов;
  4. Частотно-распределительный словарь новых слов (не зафиксированных в ранее изданных толковых словарях).
  5. Частотно-распределительный словарь предлогов.

5. Интернет-вариант корпуса.

Была разработана специализированная оболочка "Система управления корпусами (СУК)" для работы с полнотекстовыми корпусами - их анализа и представления в Интернете. Она работает с данными, получаемыми с помощью АРМ "Dictum-1". Эти данные преобразуются с помощью специальной утилиты в необходимый формат. СУК позволяет интернет-пользователю: - задать запрос на любое слово корпуса и получить всю имеющуюся в корпусе информацию об этом слове; - получить весь набор признаков, используемых в корпусе; - получить все слова, которым приписан выбранный признак.

Важной особенностью использования данной оболочки является возможность выдачи списков слов, обладающих одним признаком. Так, выбрав из списка корней нужных корень, можно получить список всех слов корпуса, имеющих этот корень, и для каждого из них просмотреть контекст. Выбрав признак "одушевленность", можно получить все одушевленные существительные текста и т.п. Такая идеология создает возможность для решения многих обучающих и исследовательских задач.



6. Краткое описание фрагмента Компьютерного корпуса газетных текстов (более 200 тыс. словоупотреблений представлено в Интернете)

Работа оболочки была проверена на 1 млн. газетном корпусе. В настоящее время подготовлен для показа в Интернете фрагмент этого корпуса - Компьютерный микрокорпус газетных текстов, содержащий тексты общим объемом свыше 205000 словоупотреблений. В нем представлены 446 текстов следующих российских газет:

  • Завтра

  • ИЗВЕСТИЯ

  • МК

  • Московские Новости

  • Независимая

  • Новая Газета

  • Новгородские Ведомости

  • Томская Неделя



  • Таблица 3.

    Распределение по жанровым типам текстов в во фрагменте Интернет-варианта корпуса:

    Жанровый тип Кол-во текстов Общий объем тек-стов в к-ве слово-употреблений в них
    Информационно-публицистический 164 92620
    Остальное 6 2856
    Официально-деловой 21 5463
    Разговорно-письменный 26 686
    Реклама 9 1525
    Собственно-информационный 105 9912
    Собственно-публицистический 94 79010
    Художественное произведение 8 5033
    Худохественно-публицистический 13 8414


    Для характеризации словоупотреблений фрагмента корпуса сейчас используется 20 разных типов информации:

    - Знак препинания справа,

    - Исходная форма слова,

    - Постоянные признаки,

    - Переменные признаки,

    - Лексико-грамматический разряд,

    - Корень,

    - Морфемная модель,

    - Жанровый тип,

    - Жанр,

    - Номер документа,

    - Источник,

    - Именные синтаксемы,

    - Синоним. группы лексем со стил. пометами,

    - Омонимия,

    - Семантический класс,

    - Доминанты членов синон. групп лексем,

    - Особенности употребления,

    - Частотно-ранговые характеристики,

    - Части текста,

    - Предложение,

    Для осуществления поисковых операций в базе Корпуса надо перейти в раздел «Поисковая система по корпусу».



    7. Замечания и предложения.

    Работа над Интернет-вариантом корпуса только начинается. Мы будем благодарны за все отклики, замечания и предложения, шлите их, пожалуйста, сюда

     

     

    Настоящее исследование и интернет-разработка корпуса выполнены при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ01-07-90386 и02-06-80435 ).