Основные принципы формализации содержания казахского текста — А. К. Жубанов
Название: | Основные принципы формализации содержания казахского текста |
Автор: | Аскар Кудайбергенулы Жубанов |
Жанр: | Казахское языкознание |
Издательство: | 9965-13-426-Х |
Год: | 2002 |
ISBN: | 9965-13-426-Х |
Язык книги: | Русский |
Страница - 8
Глава вторая. Формальное представление словаря казахского языка
2.1. Индивидуальный словарь носителя языка и его роль в восприятии и понимании текста
В вероятностно-статистических закономерностях проявляются всеобщие связи явлений в природе и обществе, которые, как прави ло, измеряются отношением, частотой или вероятностью. Говоря t частоте лингвистических явлений, можно утверждать, что она отно сится к универсальным лингвистическим категориям. Здесь речь идет о том, что языку объективно присущи количественные признаки [85 с. 11], так как они внутренне связаны с качественными характеристиками языка. Не оспоримым является тот факт, что, как бы разнооб разны ни были естественные языки, при их функционировании на блюдаются повторяющиеся языковые явления. Наблюдая за частотой различных речевых явлений, можно судить о наличии или отсутствии статистических закономерностей в системе языка в целом или в ка ких-то его подсистемах. С этой целью составляются различных частотные словари слов, словоформ, словосочетаний или грамма тических явлений. На материалах частотных словарей решаются многие лингвистические задачи как традиционного характера, так и задачи, относящиеся к прикладным аспектам.
Остановимся на некоторых из них. В традиционном плане частотные словари позволяют глубже исследовать лексическую орга низацию языка, а именно выделить лексику отдельных функциональных стилей, их общую часть, разграничить национальную лекси ку от заимствованной, общеупотребительную от терминологической Частотный словарь позволяет выделить неологизмы, архаизмы и другие группы лексических единиц. Основываясь на статистических характеристиках слов, можно установить роль, место и функции этих слов в общей языковой системе.
Через количественные соотношения слов и словоформ можно говорить о лексическом богатстве и стилевых различиях языка, о способах образования новых слов. Частотные словари помогают и в сопоставительно-типологическом изучении родственных и разноструктурных языков [28, 143, с.З]. По поводу полезности частотных словарей в исследованиях традиционного плана хорошо сказано Л. Н. Засориной: “Материалы частотных словарей исключительно ценны и для собственно лингвистических исследований. Они оказывают влияние на судьбы традиционной лексикографии. Ими пользуются в решении основной проблемы общей лексикологии - выделение словарного фонда активного и периферического словаря; они полезны и при изучении вопросов стилистики, семантики и литературной нормы языка” [113, с.3-4].
Очень велика роль частотных словарей в решении прикладных задач. Особо можно отметить их значение для машинного перевода с одного языка’ на другой, а также при индексировании, аннотировании или реферировании научно-технических текстов. Без таких словарей невозможны автоматизация лингвистических работ, организация эффективного информационного поиска и ряд других прикладных работ. Р. Г. Пиотровский считает, что для машинного перевода особо важно составить частотные словари наиболее часто употребляемых и информационно эффективных слов [230, с.5]. С учетом избыточности естественных языков, материалы частотных словарей могут быть использованы для рациональной организации преподавания языков, а именно при составлении словарей-минимумов, которые необходимы для изучения национальных и иностранных языков. Можно согласиться с утверждением исследователей о том, что “разумная методика обучения языку должна основываться в первую очередь на статистических характеристиках языковых явлений. При составлении учебных пособий, словарей-минимумов, терминологических справочников и словарей главным критерием отбора материала должен стать принцип частотности ...” [8, с.209]. В полной мере это справедливо и при обучении казахскому языку.
Известно, что в каждом языке выделяются функциональные стили или “подъязыки”, которые обладают, по сравнению с языком в целом, ограниченным количеством лингвистических единиц и определенной спецификой их употребления. Выбирая наиболее частые и информационно насыщенные единицы языка, а также типовые контексты их употребления, можно построить такую модель языка (базовый язык), которая будет являться некоторым приближением к реальной системе подъязыка, порождающей тексты узкой тематики [231, с.21-23]. Критерием отбора высокочастотных лингвистических единиц, специфичных для определенного подъязыка, является процент покрываемости такими словами массива текстов этого подъязыка. Для более ясного представления этого понятия (“покрываемость текста”) приведем примеры из статистических исследований тюркских и индоевропейских текстов. Известно, что всякий достаточно протяженный текст, независимо от его характера и языка, обладает следующим свойством: соотношения между числом “самых частых” слов и “длиной” текста, покрываемого этими словами в процентном выражении, имеют близкие значения. Иначе говоря, если по достаточно большому текстовому массиву составить частотный словарь и расположить в нем слова в порядке убывания их частот (по степени активности), то оказывается, что первые 2000 слов словаря занимают примерно 0,8 всего массива, т.е. заполняют около 80% его совокупной длины [85, с.151].
Приведем данные покрываемости текста группой наиболее частых слов по некоторым тюркским языкам. Пока еще не издан частотный словарь казахского языка в целом, но составлены частотные словари по отдельным жанровым разновидностям. В таблице 1 приводятся данные покрываемости текстов группой наиболее частых слов частотных словарей, составленных по различным жанрам (или подъязыкам) казахского языка [1, 15, 21, 29-35, 38, 170]. Как видно из данной таблицы, различные жанры казахского языка, хотя имеют свою специфику, по характеристике покрываемости длины текста высокочастотными словами, все же они колеблятся между некоторой средней величиной. Увеличением процента покрываемости отличается поэтический текст и текст сказок. Средняя величина покрываемости для рассматриваемых шести текстов такова: 1000 наиболее частых слов покрывают 76,58%, 2000 слов - 85,80% и 3000 слов - 88,70% массива текста. В седьмом тексте, т.е. в 20-томном собрании сочинений М. Ауэзова, смешаны тексты разных жанров, несмотря на это, проценты покрываемости текста группой высокочастотных слов отражают картину, свойственную различным казахским текстам.
Можно было бы привести данные и по другим группам тюркских языков, например, согласно данным “Словаря наиболее употребительных слов современного узбекского языка” [147] 1227 лексем из высокочастотной зоны (это 15,2 % длины словника) покрывает 76% всего обследованного текста, т.е. 76811 словоупотреблений. Если сравнить с данными для казахского языка, где 1000 наиболее употребительных слов покрывает 76,58% длины текста, то здесь больших расхождений не наблюдается.
Исходя из приведенных данных, напрашивается естественный вопрос: можно ли сделать вывод о том, что человек, изучающий казахский или узбекский языки и знающий эти 1000 (или 1227) наиболее употребительных слов, сможет понимать около 80% текста современной казахской (или узбекской) художественной прозы? Видимо это не совсем достаточно, так как в их числе немало многозначных лексем, а некоторые из них входят как компоненты устойчивых словосочетаний и фразеологических единиц. Поэтому, пишет И. А. Кис- сен, для понимания 80% слов текстов художественней прозы необходимо хорошо знать примерно 2-3 тысячи слов языка, а остальные 20% лексем текста можно будет понять по догадке или на основе знания правил словообразования [147, с.6-7].
По другим группам языков данные покрываемости в основном сходятся. Например, по словарю М.-Н. О. Османова “Частотный- словарь Унсури” (Унсури - персидско-таджикский поэт XI века, текст “Дивана”) 1863 более частых слова (38,62% длины словника) покрывает 92% текста “Дивана”, общая протяженность которого составляет 46472 словоупотребления [221, с. 10].
Для английского языка (по Торндайку) покрываемость 2000 слов из высокочастотной зоны составляет. 78%, чешского языка (по Тешетыловой) - 75%, русского языка (по “Частотному словарю русского языка” под редакцией Л. Н. Засориной) - 76% [304].
Как замечает Р. М. Фрумкина, частотный словарь в силу ряда методических соображений не может быть использован в качестве словаря-минимума, но он является необходимой и единственно надежной основой для его составления [296, с.20]. Как показывают исследователи [85; 295-297 и др.], критерий частоты необходимо дополнить не только критерием “обиходности”, но также рядом лингвистических и дидактических критериев.
Интересен специальный эксперимент, проведенный Р. М Фрумкиной для проверки на эффективность словаря Э. А. Штейнфельдт. была поставлена такая задача: выяснить, в какой мере данные, полученные по текстам ограниченного объема и жанра, будут верны для других русских литературных текстов, относящихся к иным жанрам и периодам. С этой целью был подсчитан процент по- крываемости текста наиболее частыми словами для 60 различных текстов длиной в 1000 слов. Эксперимент показал, что первые 1300 и тем более первые 2000 слов дают вполне удовлетворительный средний процент покрываемости, колеблясь от средней величины от 0,68 до 0,81 [296, с.21-22].
Покрываемость различных текстов высокочастотными словоформами для отдельных тюркских групп языков подробно изложена в книге К. Б. Бектаева “Статистико-информационная типология тюркского текста” [28, с.37-39]. Отметим только, что покрываемости казахских текстов имеет различия, например, от индоевропейских языков. Если в последнем 100-150 словоформ покрывают 50% обследуемого текста, то в. казахском подъязыке публицистики и в художественном тексте (роман “Абай жолы”) такой процент покрываемости текста соответствует 700-800 словоформам [15, с.553; 91, с.51]. К. Б. Бектаев [28] приводит такие сравнительные данные по покрываемое- ти текстов: в высокочастотной зоне покрываемость 1000 первых казахских словоформ колеблется от 47 до 60%, а для индоевропейских языков - от 62 до 85%. Когда единицей словаря служит не словоформа, а слово, то на 1000 слов высокочастотной зоны словаря покрываемость по казахским текстам варьирует от 63 до 86%, а по текстам индоевропейских языков - от 64 до 89% .
Такое различие в процентах покрываемости казахских словоформ К. Б. Бектаев объясняет тем, что "... в тюркских языках агглютинативная конструкция по своим функциям часто идентична не столько словоформе, сколько словосочетанию в индоевропейских языках” [28, с.39]. Далее, автор расскрывает причину такого несоответствия тем, что в языках агглютинативного строя слова имеют более разнообразные виды формообразования по сравнению с языками флективного строя. Действительно, в казахском языке только у существительных количество формообразующих аффиксов достигает 500, а большинство казахских глаголов имеют до 1000 различных форм [16, 36].
Таким образом, сравнительно небольшая группа наиболее частых слов в сумме составляет огромное число словоупотреблений. Последнее дает возможность, рассматривая незначительную часть инвентаря языка, зафиксированную в частотном словаре, делать выводы о большей части единиц речи.
Подводя итог (вслед за И. А. Киссеном), можно сделать следующий вывод об объеме индивидиуального словаря носителя казахского языка: для понимания 80% казахского текста достаточно хорошо знать значения казахских слов в пределах от 2 тыс. до 3 тыс. слов из высокочастотной зоны частотного словаря, составленного по различным жанрам этого языка. Оставшиеся 20% значений лексем можно узнать по отдельным отраслевым терминологическим словарям или по словарю новых слов. Не исключено, что значения этих слов можно будет понять из соответствующего контекста и по догадке. Последнее, в основном, зависит от уровня знания данного предмета (о котором идет речь в тексте) индивидуальным носителем языка.
В нашей работе будет рассматриваться вопрос об установлении основных принципов формализации содержания казахского текста, в частности статического содержания. Решение такой сложной задачи (особенно для тюркоязычных текстов) основывается нами на принципах частотности лингвистических единиц текста с опорой на высокочастотные эоны словаря и на характеристику равномерной покры- ваемости текстов. Так как задача формализации содержания казахского текста будет решаться в целях использования современных компьютеров, то возникает ряд вопросов. В частности, какой минимальный объем словаря казахского языка необходимо записать в память компьютера? По каким областям знаний (подъязыкам) лучше всего выбрать экспериментальные тексты? Какие слова считать “опорными”, “главными”, вокруг которых сконцентрировано содержание текста? Эти и другие вопросы, касающиеся раскрытия принципов формальной структуры содержания казахских текстов, будут рассмотрены нами детальнее в следующих разделах.
Итак, для более полного охвата различных областей знания были взяты тексты из художественной литературы, публицистики (газетные статьи на одну тематику) и научно-популярной литературы, т. е. эксперименту подвергнуты тексты, относящиеся к трем функ ционально-смысловым типам речи, таким, как описание, повество вание и рассуждение.