Вы находитесь на архивной версии сайта лаборатории, некоторые материалы можно найти только здесь.
Актуальная информация о деятельности лаборатории на lex.philol.msu.ru.
МГУ-ЛОКЛЛ:: Инструкция по использованию поисковой системы по Корпус газетных текстов русского языка конца ХХ века


Инструкция по использованию системы поиска по корпусу



Общая логика поиска



Единицами поиска в корпусе являются слово и набор приписанных ему характеристик. При этом используются три типа параметров:

1. условия поиска (устанавливаются в меню выбора характеристики поиска);
2. способ выдачи найденной единицы (устанавливаются в меню типа выдачи);
3. метод поиска (подстрока/буквальное совпадение);


Условия поиска:

Им может быть любой признак (или его часть), приписанный слову и его формам в корпусе.

Способ выдачи:

Найденная единица может выдаваться двумя принципиально разными способами:

1. Контекстуальный способ - найденная единица выдается ввиде словоупотребления с контекстом (контекст равен предложению или 30 слов слева и справа). Возможна также выдача полного текста;
2. Словарный способ - выдается перечень всех единиц с нужным признаком без контекстуального окружения.
При этом для каждой единицы, полученной словарным способом можно получить и контекст, поменяв для нее способ выдачи.

Метод поиска

- метод поиска "Подстрока" - с помощью этого метода ищется вхождение указанного набора символов в слово или в его характеристику;

- метод поиска "Буквальное совпадение" - при этом методе Вы должны указать точное написание словоформы, исходной формы слова или какой-нибудь его характеристики, по которой Вы хотите искать.



Задав признак, по которому Вы хотите найти единицу, Вы должны выбрать метод поиска, а также способ выдачи. В результате Вы получите либо все контексты для нужной единицы, либо список признаков нужного типа, которыми она обладает.

В процессе поиска Вы можете уточнить первоначальный запрос, так как его результат запоминается автоматически (смотрите ниже Уточнение запроса).



Формирование запроса

Перед Вами 4 ряда полей. Они дают Вам возможность сформировать 4 запроса, связанные определенными логическими отношениями. Эти отношения устанавливаются с помощью логического оператора, находящегося между рядами запроса (и/или/и нет/или нет). Каждый запрос состоит из 3-ех полей. Первое поле содержит перечень типов информации, по которым можно осуществлять поиск. Второе поле служит для ввода признака, который нужно искать в том или ином типе информации. Третье поле определяет метод поиска. В самом низу формы поиска находится перечень, определяющий тип выдачи запроса (смотрите выше). В начале этого перечня находится контекстуальные форматы выдачи (см. выше), ниже - словарные. (пример)

Примеры:

1. Получение списка словоформ, просмотр их контекстов и характеристик.

Допустим, Вы хотите найти все словоформы, в которых присутствует сочетание букв красн. Определяем в перечне характеристик для поиска нужный тип информации - в данном случае это Словоформа. Далее во второе поле запроса нужно ввести сочетание красн, выбрать метод поиска Подстрока и далее выбрать тип выдачи результата Словоформа. Смотрите пример (изображение в формате GIF). Таким образом будет сформирован запрос следующего содержания:

Отыскать все словоформы с сочетанием красн и выдать их список.

После этого Вы должны нажать кнопку "Поиск"

Результат, который Вы должны получить, если Вы сделаете все правильно, можно найти здесь.

Результат выводится на экран в виде списка. Перед каждой найденной единицей выводится кол-во употреблений данной единицы. В конце указывается общее количество найденных единиц.

С полученным результатом можно работать следующим образом:

1. можно распечатать или сохранить на диск стандартным образом;
2. можно для каждой единицы списка получить контекст;
3. можно получить интересующие Вас признаки этой единицы;
4. можно уточнить запрос и провести дополнительный поиск, сузив при этом круг найденных единиц (например отобрать из списка только существительные с сочетанием красн).


Для получения контекста нужно нажать на конкретную словоформу. Если Вы кликнете, например, на слово красный, то вы получите контексты, в которых эта словоформа встречается. В данном случае Вы получите 2 контекста, поскольку словоформа красный встречается в 200-тысячном корпусе два раза. Посмотрите пример результата выдачи контекстов здесь.

Обратите внимание, что как только Вы кликнули на словоформу красный, это слово сразу попало в поле уточнения запроса, а метод поиска сразу изменился на Буквальное совпадение, то есть поиск в контекстах будет производится только по слову красный.

Этот контекст можно расширить, перейдя в полнотекстовый режим, для этого нужно нажать звездочку в самом начале контекста.

Положение звездочки укзазано на примере выше.

Пример полного текста смотрите пример.

Если Вы хотите узнать какую-нибудь конкретную характеристику этой словоформы, например, жанровый тип, в котором эта словоформа употребляется, то, изменив тип выдачи, на Жанровый тип, Вы получите список жанровых типов, в которых встречается эта словоформа.

Вы также можете получить различную информацию об искомом слове, например, о корне, морфемной модели и т.д., с помощью различных типов выдачи результата после получения ответа на запрос.

Вы можете также выяснить корень, присутствующий в слове красный, для этого Вам нужно просто выбрать тип выдачи корень и кликнуть Поиск. Смотрите пример выбора здесь.

В результате Вы получите корень слова красный. Пример результата смотрите здесь.

Теперь, допустим, Вам понадобилось узнать, к какому жанровому типу относятся эти тексты, контексты из которых Вы получили.

Для этого нам надо выбрать тип выдачи Жанровый тип и нажимаем Поиск. Посмотрите изображение с примером.

Теперь Вы получаете результат ввиде списка жанровых типов, к которым относятся контексты. В данном случае жанровых типов два. Пример результата смотрите здесь.

Теперь Вы можете посмотреть контексты, которые относятся к одному из жанровых типов, присутствующих в результате, например, жанровый тип - Собственно-информационный. Для этого Вам нужно кликнуть на один из этих жанровых типов в результате, и тогда Вы получите контексты этого жанрового типа, в которых встречается слово красный (в данном случае контекст будет один). Смотрите пример здесь.

2. Получение списка слов с нужным признаком

Аналогичным образом можно получить список слов с сочетанием красн. Для этого при том же запросе нужно просто изменить характеристику поиска и тип выдачи c "словоформа" на "исходная форма слова".

В данном случае Вы получите словарный результат, где единицами словаря будут являтся словоформы (при выборе типа выдачи Словоформа). При выборе же в качестве характеристики выдачи, например, постоянных признаков, Вы получите в качестве словаря не словоформы, а перечень частей речи слов с сочетанием красн.

Если Вы хотите получить контексты для всех словоформ с сочетанием красн, то в перечне типов выдачи Вы должны выбрать вместо Словоформа тип Контекст: Предложение или Контекст: 30 слов.

Те же действия Вы можете проводить для поиска других типов информации, которые присутствуют в меню выбора типа выдачи запроса.

3. Получение полного списка значений какой-либо характеристики

Для этого Вам необходимо в меню перечня характеристик поиска (слева от поля для ввода запроса) выбрать интересующую Вас характеристику, а так же выбрать эту же характеристику в перечне типов выдачи результата внизу формы и нажать Поиск. Вы получите полный список значений данной характеристике.

Например, Вы хотите получить информацию о том, сколько источников присутствует в нашей базе. Для этого Вам надо в перечне характеристик выбрать тип информации Источник и в перечне типов выдачи запроса выбрать тип Источник (при этом поле ввода запроса должно оставаться пустым). Посмотрите пример выбора характеристики и типа выдачи

  • Описание компьютерного корпуса газетных текстов русского языка конца ХХ века


  • К сожалению, система поиска по корупсу временно недоступна. Приносим извинения за временные неудобства