Хмелёв Дмитрий Викторович:
Лингвоанализатор 3-эпсилон


О Лингвоанализаторе 3-эпсилон

Определение авторства текста с использованием буквенной и грамматической информации

Метод, применяемый в данной статье для определения авторства текста, основывается на формальной математической модели встречаемости последовательности элементов текста как реализации цепи Маркова. В качестве элементов текста используются последовательности букв и последовательности грамматических классов слов. Оказывается, частоты употребления пар букв и пар грамматических классов в тексте на русском языке являются достаточно устойчивой характеристикой автора и, видимо, их можно использовать, чтобы решать проблемы спорного авторства текста. Проводится сопоставление результатов, полученных при использовании различных вариантов методики в указанных единицах. Эксперимент проводится на 385 текстах 82 писателей. В Приложении описано исследование Д.В. Хмелёва о возможности применения алгоритмов сжатия данных в задаче определения авторства.

О программе "Репетитор"

Описание программы "Репетитор" и её алгоритма.

Распознавание автора текста с использованием цепей А.А. Маркова


В статье посредством формального анализа текста решается задача определения авторства текста. Новый метод основывается на формальной математической модели последовательности букв текста как реализации цепи А.А. Маркова. Оказывается, частоты употребления пар букв очень хорошо характеризуют автора. Последнее утверждение проверено в объемном статистическом эксперименте на произведениях 82 писателей.

Смотрите также:

Список публикаций