Bishop Gregory (hgr) wrote,
Bishop Gregory
hgr

Category:

количественные методы оценки текстологических гипотез: 1. теория

индуктивная логика и основанные на ней (с опорой на теорему Байеса) теоретико-вероятностные расчеты позволяют внести количественные (статистические) методы туда, куда они обычно не вносились. проще всего в случае задач на медицинские анализы (например), когда есть один процент ошибки аналитического прибора для отрицательного ответа и другой процент ошибки для положительного, а надо определить, какова вероятность, что у пацента с таким-то ответом, действительно, именно то, что ответил прибор. тут используется напрямую соответствующая формула. но в большинстве случаев все равно возникают проблемы с тем, где взять значения, которые туда подставлять.

рассмотрим следующий тип задач на историю текстов: требуется выявить неучтенное звено трансмиссии или доказать, что его не было. неучтенным звеном может быть любое явление. стандартные случаи -- еще один перевод-посредник на какой-нибудь язык (например, не просто цепочка еврейский--греческий--славянский, а, скажем, еврейский--греческий--сирийский--славянский) или другая, нежели ожидалось, текстологическая база (напр., слав. пер. с греч., но не с тех рукописей, которые были распространены в Византии, а с тех, которые нам теперь известны через определенные группы сирийских переводов).

формулы, основанные на индуктивной логике, не позволяют доказывать какие-либо гипотезы (т.е. не могут заменить нормального исследования, разумеется), но позволяют выбрать из уже доступных гипотез. набор доступных гипотез является открытым множеством, поэтому правильный выбор из любого данного числа гипотез не гарантирует истинности выбранной (возможна ситуация, когда правильная гипотеза вообще не входила в рассмотренную часть этого бесконечного набора).

метод позволяет сравнивать гипотезы только попарно, и поэтому всего удобнее, когда преимущества одной пары гипотез перед всеми остальными можно обосновать без всяких подсчетов. (если же нет, то необходимо рассчитывать сравнительную правдоподобность всех возможных пар и выстраивать рейтинг).

обычно вопрос о том, не было ли в трансмиссии текста некоего неучтенного до сих пор звена, возникает тогда, когда мы натыкаемся на хотя бы один вероятный признак того, что оно было, т.е. делаем первое наблюдение, которое хорошо бы согласовывалось именно с наличием такого звена. (поэтому такие случаи, когда даже одного наблюдения у нас нет, -- скажем, когда нам нужно доказать направление перевода "Од Соломона" -- с сирийского на греч. или наоборот -- ниже не рассматриваются: это редкий случай очень хорошего перевода, когда не удается найти никаких ошибок переводчика. но в подавляющем большинстве переводов переводчик "наследил"). теоретически и практически возможно такое звено трансмиссии, которое не оставило никаких следов ни в одной из рукописей данного текста (здесь и ниже "текст" это некое интенсиональное понятие, которое экземплифицируется в наличных и утраченных рукописях, а не отдельные случаи экземплификации, т.е. не то, что читается в конкретных рукописях; если рассматривается история переводов, то понятие "текста" еще более абстрактно, т.к. каждый перевод, в свою очередь, является лишь его -- интенсиональной! -- экземплификацией, т.е. "текст" логически является классом, объединяющим классы); для таких случаев метод не работает.

но вот мы наткнулись на некоторый признак, который при желании можно истолковать как след того самого "пропавшего звена" трансмиссии текста. что дальше? ведь einmal ist keinmal.

дальше, понятное дело, нужно искать еще. если наш текст небольшой (где-то до тысячи слов), то мы вряд ли найдем еще хоть один столь же явный -- и при этом все равно не вполне явный -- признак. если найдем, то это редкое везение. если не найдем, то простая индуктивная логика нам не поможет, но можно ее усилить методами нечетких логик и таким образом все-таки найти, что там можно посчитать. об этом я отчасти написал уже здесь (см. там же теорию о методах индуктивной логики для сравнения правдоподобия гипотез с опорой на теорему Байеса, включая все формулы), и это другая история.

но, предположим, наш текст достаточно большой, чтобы мы нашли в нем еще несколько признаков, которые теоретически могут быть истолкованы в пользу нашей гипотезы о характере трансмиссии. их, однако, будет не очень много: в лучшем случае, десятки (если у нас совсем большие объемы текста, десятки тысяч слов, еще лучше, если по нескольким или многим рукописям), но не сотни (были бы сотни -- дело было бы очевидным: стандартный пример -- сохранение артикля "аль" и предлога "фи" ("в") перед именами собственными в переводах с арабского на эфиопский или на грузинский, которое всегда бросается в глаза; для таких случаев наши тонкие методы не нужны).

в современной текстологии не существует количественных методов, для которых 5 или 10 результатов наблюдений являлись бы значимыми количествами. для нормального (Гауссова) распределения это не репрезентативно, а кластеризация рукописей (их разбиение по группам) основана на гауссовом распределении случайных разночтений, и это правильно.

числа 5 или 10 становятся большими там, где распределение вероятностей не Гауссово, а степенное, и где эти числа формируют показатели степени регулирующих параметров. это как раз случай сопоставления правдоподобностей двух альтернативных гипотез, основанного на теореме Байеса. и это как раз то, что нужно, чтобы оценивать репрезентативность выборки данных для оценки гипотез о наличии определенного звена трансмиссии текста.

идея следующая. у нас есть n наблюдений, которые могут относиться к делу, т.е. которые следует принимать во внимание, определяя, что там не так со звеньями трансмиссии. из них часть некая, m, согласуется с гипотезой о том, что такое-то звено трансмиссии было на самом деле, хотя каждое из этих наблюдений, в принципе, согласуется и с тем, что такого звена не было. при этом есть некая другая часть наблюдений, в количестве n-m, которая не согласуется с гипотезой о данном звене трансмиссии (может быть, даже и противоречит ему в какой-то мере). поэтому дело темное. как внести свет?

нужно учесть еще два параметра, q и r.

q -- это вероятность появления наблюдений, согласующихся с нашей гипотезой, если она на самом деле неверна. по сути, это вероятность того, что все совпадения случайны. очевидно, что это не очень большая величина, которая заведомо меньше 0.5.

r -- это вероятность того же самого, если наша гипотеза верна. когда речь идет о звене трансмиссии, то разумно предположить, что r должна быть достаточно высокой, чтобы за ее счет объяснялось более половины наличных "возмущений" трансмиссии, т.е. более половины случаев, число которых равно n. это не обязательно должно быть так, но если это не так, то для таких плавных переходов в истории текста метод работать не будет (частный случай такой ситуации -- необычайно хорошего качества перевод, при котором переводчик "не наследил" или наследил, но оооочень мало). поэтому r всегда меньше единицы, но для данного метода всегда больше 0.5 (если меньше, то надо разрабатывать иной метод ad hoc, уходя в нечеткую логику; думаю, впрочем, что в средние века нигде не было возможно выдерживать такое качество работы на какой бы то ни было стадии трансмиссии текста).

несмотря на эти соображения, определение значений параметров q и r на практике представляет неразрешимую проблему. она не решается даже и в том случае, если мы согласимся определять их в виде интервалов, а не конечных величин, т.к. определение границ интервалов -- тоже неразрешимая задача, для которой у нас просто нет данных.

однако оба параметра можно оценивать по заведомо завышенному супремуму, т.е. по некоему максимуму, который заведомо (на порядки) больше их реального максимума, если воспринимать их значения как интервалы.

заведомо завышая r, мы завышаем требования к строгости нашей гипотезы о наличии данного звена трансмиссии, а завышая q, мы заведомо завышаем вероятность того, что "все совпадения случайны". тогда результат расчетов будет a fortiori соответствовать реальному положению дел.

получается, что результаты наших расчетов должны будут в десятки и сотни тысяч раз отличаться от реальных, причем, не в пользу, а против нашей гипотезы. такие расчеты имеют смысл только в том случае, если реальные отношения различались в такие миллионы и миллиарды раз, что потеря нескольких нулей после десятичного знака им нипочем. но это вполне разумное требование, когда значение m больше 5 и особенно если подбирается к 10; таковы особенности степенных зависимостей, где малые вариации регулирующих параметров оборачиваются многими нулями. для гуманитариев тут уместно напомнить, что миллион -- это всего лишь 10^6. для негуманитариев можно пояснить, что единицы, относящиеся к количеству наблюдений в пользу или против выбранной гипотезы, вполне наглядно -- оставаясь единицами и не превращаясь в миллиарды -- сравниваются в логарифмическом масштабе.

конкретные значения q и r (т.е., реально, наших "суперсупремумов" q и r) можно выбирать лишь для конкретных задач и, желательно, по аналогии с какими-нибудь известными случаями, пригодными для калибровки метода.

например: до середины ХХ в. был довольно-таки обсуждаем вопрос о влиянии Вульгаты на древнейший ("Кириллов") славянский перевод Четвероевангелия. ван Вейк (1931) нашел только одно подходящее чтение -- elegerunt (Мф 13,48 "избраша", а не "собраша"), которого нет ни в одной греч. ркп., но которое нашлось в древнейшем слав. переводе (и, кстати, до сих пор удерживается в славянском тексте рецептусе, хотя в древних редакциях много раз правили по греческому). на основании одного этого случая влияние Вульгаты осталось недоказанным (к тому же, такое чтение являлось и остается нормативным и для всей сирийской традиции, восходящей здесь к тому же -- утраченному -- греческому чтению, что и Вульгата). таким образом, это пример случайного совпадения с чтением определенной греч. традиции текста, на которой основан перевод Вульгаты, но которой уже не было в Византии; эта традиция, в принципе, отличалась и от греческих основ всех сирийских переводов, но, в данном случае, совпала еще и с ними.

теперь предположим, что нам нужно оценить вероятность гипотезы о переводе славянского Четвероевангелия с греческого оригинала Вульгаты (или, что для нас то же самое, правки славянского перевода по Вульгате -- гипотеза ван Вейка), а для этого определить q и r. q (вероятность случайного появления отличных от греч. чтений Вульгаты в слав. тексте) пропорциональна общему количеству таких чтений в Вульгате (небольшому) и еще каким-то факторам, которые не очень-то посчитаешь, хотя ясно, что эта вероятность мала. но для нашего "суперсупремума" не жалко увеличить q в тысячу или сто тысяч раз, поэтому можно оценить q иначе -- исходя из оценки r (вероятности появлений чтений Вульгаты, если они неслучайны). как сказано выше, наш метод приложим только для таких r, которые заметно больше 0.5. из этого следует, что достаточно оценить q как "заметно меньше" 0.5. "заметно" -- это хотя бы на порядок, т.е., предположим, 0.05 (это весьма фантастическое предположение о том, что каждое двадцатое случайное отклонение славянского от греческого должно совпадать с особыми чтениями Вульгаты; в действительности, конечно, тут и одной сотой будет слишком много). вот если бы мы при таких q и r получили бы при расчете отношения апостериорных правдоподобий двух гипотез преимущество в сотни, а лучше в тысячи и более раз в пользу неслучайного соответствия Вульгате, то наш метод подтвердил бы ван Вейка. -- этот пример приведен как иллюстрация сенситивности метода: он работает лишь для сравнения таких гипотез, правдоподобности которых отличаются очень резко. грубо говоря, речь должна быть о том, случайно или неслучайно из данной кучи радиодеталей собрался цветной телевизор.

на практике нужно дать несколько расчетов, основанных на разных вариантах выбора значений управляющих параметров (q, r), чтобы оценить степень строгости сделанных на их счет предположений.

Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 2 comments