HumLang - Отзыв к статье В.В.Кромера

лист рассылки

Уважаемый Юрий Константинович!

Благодарю Вас за интерес к обсуждаемой работе (далее - ОР) и отзывы. Позвольте ответить по существу затронутых Вами вопросов, одновременно расширив тематику за счет не вполне проясненных в ОР пунктов.

1. По поводу привязки к эмпирике. Большинство моих работ основано на материалах частотных словарей и др. экспериментальных данных. ОР выпадает из общей тенденции. ОР является попыткой уменьшить количество постулируемых в лингвистике зависимостей за счет вывода одних зависимостей (вторичных и с трудом верифицируемых) из других, более фундаментальных и надежно подтвержденных на большом экспериментальном материале. Сделано предположение, что распределение некоторой величины, характерной для носителя языка и названной лингвистической инертностью, соответствует закону Ципфа-Парето в самом простом его выражении при значении параметра, предложенном Ципфом: . Я согласен с П.М. Алексеевым: "Много формул пишется, когда проблема не понята. С ее пониманием остаются одна-две формулы, и это следовало бы иметь в виду, когда появляется желание усложнять простую, но достаточно мудрую формулировку Ципфа" [1, с. 4]. Я также вводил многоэтажные многопараметрические формулы (см., например, работы [2, 3] в литературе к ОР), но каждому вновь вводимому параметру приписывался лингвистический смысл. Ранее лингвистами игнорировалось наличие на зависимости "ранг - частота" для смешанных выборок особого образования - кратера, обязанного своим наличием разнотемности текстового корпуса. Поскольку кратер имеет 2 границы и глубину - вот еще 3 "лишних" параметра. Стоит перейти к миллиардным корпусам - и появится возможность описания профиля дна кратера и крутизны его склонов с соответствующим лингвистическим толкованием ответственных за это параметров. Такая вот диалектика. Ципф выписал формулу: , затем потребовалась общая коррекция наклона зависимости (формула Кондона), коррекция в области высоких частот путем введения поправки Мандельброта (учет рангового искажения, по Хайтуну), коррекция в области больших рангов (поправка Ворончака), и пр. Где конец?

2. Относительно параметризации распределения "лингвистической инертности". Эдда Леопольд в своей работе о законе Пиотровского в неявном виде говорит о таком распределении, ссылаясь на работы 60-х годов: "eine Veraenderung langsam anfaengt, sich beschleunigt sobald sie akzeptiert wird und schliesslich wieder abebbt, wenn sie auf Sprecher stoesst, die sie ablehnen"[2].

3. В ОР сознательно не проводилось сопоставление теоретической модели с эмпирикой. Данные по ДС скудные, эмпирическая зависимость немонотонная, и у исследователей ДС отсутствует возможность ранжировать по F(t) годы - преимущество, которым обладают исследователи частот слов, за что на них и обрушивался Хердан, считая такую операцию некорректной [3, с. 58].

4. Относительно "от минус до плюс бесконечности". Количество употреблений слов измеряется целыми числами. Выписывание и решение диф. уравнений для описания динамики процесса основано на допущении дробных употреблений и переходе к бесконечно малым величинам с интегрированием до бесконечности. Рассмотрение процесса во всей его сложности (квантование употреблений + стохастичность процесса) позволит учесть интересные особенности (например, скорое вырождение только вошедшей в лексикон формы 2 и восполнение провала издавна существовавшей формой 1), но сейчас необходимо решить вопрос об общем ходе зависимости - об инварианте всех экспериментальных зависимостей.

5. Вследствие редкости данных по ДС критерии типа "хи-квадрат" не в состоянии решить вопрос в пользу конкурирующих для описания ДС арктангенса, гиперболического тангенса, логисты и функции нормального распределения. Хорошо, если критерий позволит хотя бы с ходу отвергнуть линейную зависимость (о ней речь впереди). Перечисленные функции ведут себя очень схоже в окрестности критической точки (по 50% каждой из форм) и различаются в основном поведением "хвостов", т.е. там, где исследователь фиксирует последовательно небольшое количество либо новых, либо старых форм, что ведет, в соответствии с законом биномиального распределения, к большей неопределенности. Необходима увязка ДС с устоявшимися парадигмами. Вопрос "Арктангенс или логиста? (К закону Пиотровского)" вполне уместен при данном уровне разработки вопроса, а что можно сказать по поводу "Гипербола или парабола? (К закону Ципфа)". Есть удачные находки, например "гиперболическая лестница", но не "параболическая" же!

6. Предложенная модель допускает обобщение. Можно рассмотреть дифференциальное уравнение при разных значениях b. При получаем , т.е. линейный рост с насыщением при . (Задача про бассейн и трубу). Система ведет себя как единый элемент, т.е. количество связей равно 1 (система замкнута на самое себя). При получаем логисту. В другой записи данное уравнение является известным уравнением Ферхюльста, описывающим рост популяции при наличии тормозящих факторов. Количество связей в системе равно количеству элементов (отдельный элемент во внешних связях не нуждается, т.е. число связей элемента = 1), и скорость роста популяции пропорциональна достигнутому размеру популяции с поправкой на тормозящий фактор. При решением является уравнение (18) ОР. Функция весьма близка к функции распределения Коши. Количество связей в системе пропорционально квадрату числа элементов (для элемента число связей равно количеству элементов). Системы начиная с этого уровня сложности относятся к информационным. При отсутствии ограничивающих факторов процесс роста получил название "режима с обострением" [4, с. 52] и его динамика соответствует левосторонней ветви гиперболы со "взрывом" в критической точке t₀. В работе [4, с. 220] данной функцией описывается динамика роста численности человечества. Концептуально рассматриваемая функция не пригодна для описания численности человечества, поскольку не прояснен механизм влияния количества элементов в системе на "производительность" отдельного элемента. Рост, скорей всего, происходит по экспоненте с переходом на логисту при последовательном снятии тормозящих факторов (уменьшении их с ходом времени) и синхронном изменении характеристического параметра r в уравнении (16) ОР. В определенном временном периоде данная сложная зависимость удачно аппроксимируется гиперболой. Возможен и обратный вариант -подбор параметров экспоненты под развитие, происходящее в режиме с обострением. Более быстрый рост гиперболы маскируется действием тормозящих факторов, а более длинный хвост не верифицируется вследствие малочисленности регистрируемых фактов в начале и конце процесса и роста неопределенности.

7. Сложность верифицируемости ДС заключается также в том, что "allerdingst ist es fraglich, ob es jemals ueberhaupt moeglich sein wird, die Parameter des PG deduktiv zu bestimmen, da viele Entitaeten der Sprache einen direkten Bezug zu der aussersprachlichen Realitaet (z.B. zu der Kultur) haben, die sich schwer quantifizieren laest und ausserhalb der wissenschaftlichen Kompetenz der Linguisten liegt" [5, с. 88]; (цитируется по [2]). Любое регулярное отклонение эмпирической зависимости от декларируемой теоретической представляется возможным объяснить неравномерностью хода лингвистического времени относительно физического, либо ввести зависимость r от t. Примеры возможных зависимостей r(t) приведены в [2]. Тем не менее, анализ многих эмпирических распределений позволит выявить их инвариант. Два основных претендента на инвариант вынесены в название обсуждаемой работы. Исходя из социального характера рассматриваемого процесса - диахронического скачка, - я полагаю, что инвариантом является распределение Коши. Информационное наполнение процесса () также располагает к этому выводу.

Искренне Ваш

В.К.

Литература

1. Алексеев П.М. Об оппозиции "ранг - частота" в лексической статистике // Квантитативная лингвистика и семантика (Квалисем - 99): Тез. докл. II межвуз. конф. Новосибирск: Изд-во НГПУ, 1999. С. 3-4.

2. Leopold E. Das Piotrowski-Gesetz // Quantitative Linguistik. Ein internationales Handbuch / Ed. G. Altmann, R. Koehler, R. Piotrowski. Berlin-New Yourk: de Gruyter, 2001. (В печати).

3. Алексеев П.М. Статистическая лексикография. Л., 1975.

4. Капица С.П., Курдюмов С.П., Малинецкий Г.Г. Синергетика и прогнозы будущего. М.: Наука, 1977.

5. Altmann G. Das Piotrowski-Gesetz und seine Verallgemeinerung // Exakte Sprachwandelforschungen / Ed. K.-H. Best, J. Kohlhase. Goettingen: Herodot, 1983.

[ главная страница ]