Меню Закрыть

Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название:Основные принципы формализации содержания казахского текста
Автор:Аскар Кудайбергенулы Жубанов
Жанр:Казахское языкознание
Издательство:9965-13-426-Х
Год:2002
ISBN:9965-13-426-Х
Язык книги:Русский
VK
Facebook
Telegram
WhatsApp
OK
Twitter

Перейти на страницу:

Страница - 8


Глава вторая. Формальное представление словаря казахского языка

2.1. Индивидуальный словарь носителя языка и его роль в восприятии и понимании текста

В вероятностно-статистических закономерностях проявляются всеобщие связи явлений в природе и обществе, которые, как прави ло, измеряются отношением, частотой или вероятностью. Говоря t частоте лингвистических явлений, можно утверждать, что она отно сится к универсальным лингвистическим категориям. Здесь речь идет о том, что языку объективно присущи количественные признаки [85 с. 11], так как они внутренне связаны с качественными характеристиками языка. Не оспоримым является тот факт, что, как бы разнооб разны ни были естественные языки, при их функционировании на блюдаются повторяющиеся языковые явления. Наблюдая за частотой различных речевых явлений, можно судить о наличии или отсутствии статистических закономерностей в системе языка в целом или в ка ких-то его подсистемах. С этой целью составляются различных частотные словари слов, словоформ, словосочетаний или грамма тических явлений. На материалах частотных словарей решаются многие лингвистические задачи как традиционного характера, так и задачи, относящиеся к прикладным аспектам.

Остановимся на некоторых из них. В традиционном плане частотные словари позволяют глубже исследовать лексическую орга низацию языка, а именно выделить лексику отдельных функцио­нальных стилей, их общую часть, разграничить национальную лекси ку от заимствованной, общеупотребительную от терминологической Частотный словарь позволяет выделить неологизмы, архаизмы и другие группы лексических единиц. Основываясь на статистических характеристиках слов, можно установить роль, место и функции этих слов в общей языковой системе.

Через количественные соотношения слов и словоформ можно говорить о лексическом богатстве и стилевых различиях языка, о способах образования новых слов. Частотные словари помогают и в сопоставительно-типологическом изучении родственных и разноструктурных языков [28, 143, с.З]. По поводу полезности частотных словарей в исследованиях традиционного плана хорошо сказано Л. Н. Засориной: “Материалы частотных словарей исключительно цен­ны и для собственно лингвистических исследований. Они оказывают влияние на судьбы традиционной лексикографии. Ими пользуются в решении основной проблемы общей лексикологии - выделение сло­варного фонда активного и периферического словаря; они полезны и при изучении вопросов стилистики, семантики и литературной нор­мы языка” [113, с.3-4].

Очень велика роль частотных словарей в решении прикладных задач. Особо можно отметить их значение для машинного перевода с одного языка’ на другой, а также при индексировании, аннотирова­нии или реферировании научно-технических текстов. Без таких сло­варей невозможны автоматизация лингвистических работ, организа­ция эффективного информационного поиска и ряд других приклад­ных работ. Р. Г. Пиотровский считает, что для машинного перевода особо важно составить частотные словари наиболее часто употреб­ляемых и информационно эффективных слов [230, с.5]. С учетом из­быточности естественных языков, материалы частотных словарей могут быть использованы для рациональной организации преподава­ния языков, а именно при составлении словарей-минимумов, кото­рые необходимы для изучения национальных и иностранных языков. Можно согласиться с утверждением исследователей о том, что “разумная методика обучения языку должна основываться в первую очередь на статистических характеристиках языковых явлений. При составлении учебных пособий, словарей-минимумов, терминоло­гических справочников и словарей главным критерием отбора мате­риала должен стать принцип частотности ...” [8, с.209]. В полной ме­ре это справедливо и при обучении казахскому языку.

Известно, что в каждом языке выделяются функциональные стили или “подъязыки”, которые обладают, по сравнению с языком в целом, ограниченным количеством лингвистических единиц и опре­деленной спецификой их употребления. Выбирая наиболее частые и информационно насыщенные единицы языка, а также типовые кон­тексты их употребления, можно построить такую модель языка (базовый язык), которая будет являться некоторым приближением к реальной системе подъязыка, порождающей тексты узкой тематики [231, с.21-23]. Критерием отбора высокочастотных лингвистических единиц, специфичных для определенного подъязыка, является про­цент покрываемости такими словами массива текстов этого подъязы­ка. Для более ясного представления этого понятия (“покрываемость текста”) приведем примеры из статистических исследований тюрк­ских и индоевропейских текстов. Известно, что всякий достаточно протяженный текст, независимо от его характера и языка, обладает следующим свойством: соотношения между числом “самых частых” слов и “длиной” текста, покрываемого этими словами в процентном выражении, имеют близкие значения. Иначе говоря, если по доста­точно большому текстовому массиву составить частотный словарь и расположить в нем слова в порядке убывания их частот (по степени активности), то оказывается, что первые 2000 слов словаря занимают примерно 0,8 всего массива, т.е. заполняют около 80% его совокуп­ной длины [85, с.151].

Приведем данные покрываемости текста группой наиболее частых слов по некоторым тюркским языкам. Пока еще не издан частотный словарь казахского языка в целом, но составлены частотные словари по отдельным жанровым разновидностям. В таб­лице 1 приводятся данные покрываемости текстов группой наиболее частых слов частотных словарей, составленных по различным жанрам (или подъязыкам) казахского языка [1, 15, 21, 29-35, 38, 170]. Как видно из данной таблицы, различные жанры казахского языка, хотя имеют свою специфику, по характеристике покрываемости длины текста высокочастотными словами, все же они колеблятся между не­которой средней величиной. Увеличением процента покрываемости отличается поэтический текст и текст сказок. Средняя величина по­крываемости для рассматриваемых шести текстов такова: 1000 наибо­лее частых слов покрывают 76,58%, 2000 слов - 85,80% и 3000 слов - 88,70% массива текста. В седьмом тексте, т.е. в 20-томном собрании сочинений М. Ауэзова, смешаны тексты разных жанров, несмотря на это, проценты покрываемости текста группой высокочастотных слов отражают картину, свойственную различным казахским текстам.

Можно было бы привести данные и по другим группам тюрк­ских языков, например, согласно данным “Словаря наиболее употре­бительных слов современного узбекского языка” [147] 1227 лексем из высокочастотной зоны (это 15,2 % длины словника) покрывает 76% всего обследованного текста, т.е. 76811 словоупотреблений. Если сравнить с данными для казахского языка, где 1000 наиболее употре­бительных слов покрывает 76,58% длины текста, то здесь больших расхождений не наблюдается.

Исходя из приведенных данных, напрашивается естественный вопрос: можно ли сделать вывод о том, что человек, изучающий ка­захский или узбекский языки и знающий эти 1000 (или 1227) наибо­лее употребительных слов, сможет понимать около 80% текста совре­менной казахской (или узбекской) художественной прозы? Видимо это не совсем достаточно, так как в их числе немало многозначных лексем, а некоторые из них входят как компоненты устойчивых сло­восочетаний и фразеологических единиц. Поэтому, пишет И. А. Кис- сен, для понимания 80% слов текстов художественней прозы необхо­димо хорошо знать примерно 2-3 тысячи слов языка, а остальные 20% лексем текста можно будет понять по догадке или на основе знания правил словообразования [147, с.6-7].

По другим группам языков данные покрываемости в основном сходятся. Например, по словарю М.-Н. О. Османова “Частотный- словарь Унсури” (Унсури - персидско-таджикский поэт XI века, текст “Дивана”) 1863 более частых слова (38,62% длины словника) покрывает 92% текста “Дивана”, общая протяженность которого со­ставляет 46472 словоупотребления [221, с. 10].

 Для английского языка (по Торндайку) покрываемость 2000 слов из высокочастотной зоны составляет. 78%, чешского языка (по  Тешетыловой) - 75%, русского языка (по “Частотному словарю рус­ского языка” под редакцией Л. Н. Засориной) - 76% [304].

Как замечает Р. М. Фрумкина, частотный словарь в силу ряда методических соображений не может быть использован в качестве словаря-минимума, но он является необходимой и единственно на­дежной основой для его составления [296, с.20]. Как показывают ис­следователи [85; 295-297 и др.], критерий частоты необходимо допол­нить не только критерием “обиходности”, но также рядом линг­вистических и дидактических критериев.

Интересен специальный эксперимент, проведенный Р. М Фрумкиной для проверки на эффективность словаря Э. А. Штейнфельдт. была поставлена такая задача: выяснить, в какой мере данные, полученные по текстам ограниченного объема и жанра, бу­дут верны для других русских литературных текстов, относящихся к иным жанрам и периодам. С этой целью был подсчитан процент по- крываемости текста наиболее частыми словами для 60 различных текстов длиной в 1000 слов. Эксперимент показал, что первые 1300 и тем более первые 2000 слов дают вполне удовлетворительный сред­ний процент покрываемости, колеблясь от средней величины от 0,68 до 0,81 [296, с.21-22].

Покрываемость различных текстов высокочастотными слово­формами для отдельных тюркских групп языков подробно изложена в книге К. Б. Бектаева “Статистико-информационная типология тюркского текста” [28, с.37-39]. Отметим только, что покрываемости казахских текстов имеет различия, например, от индоевропейских языков. Если в последнем 100-150 словоформ покрывают 50% обсле­дуемого текста, то в. казахском подъязыке публицистики и в художе­ственном тексте (роман “Абай жолы”) такой процент покрываемости текста соответствует 700-800 словоформам [15, с.553; 91, с.51]. К. Б. Бектаев [28] приводит такие сравнительные данные по покрываемое- ти текстов: в высокочастотной зоне покрываемость 1000 первых ка­захских словоформ колеблется от 47 до 60%, а для индоевропейских языков - от 62 до 85%. Когда единицей словаря служит не словофор­ма, а слово, то на 1000 слов высокочастотной зоны словаря покры­ваемость по казахским текстам варьирует от 63 до 86%, а по текстам индоевропейских языков - от 64 до 89% .

Такое различие в процентах покрываемости казахских слово­форм К. Б. Бектаев объясняет тем, что "... в тюркских языках агглю­тинативная конструкция по своим функциям часто идентична не столько словоформе, сколько словосочетанию в индоевропейских языках” [28, с.39]. Далее, автор расскрывает причину такого несоот­ветствия тем, что в языках агглютинативного строя слова имеют более разнообразные виды формообразования по сравнению с языками флективного строя. Действительно, в казахском языке только у су­ществительных количество формообразующих аффиксов достигает 500, а большинство казахских глаголов имеют до 1000 различных форм [16, 36].

Таким образом, сравнительно небольшая группа наиболее частых слов в сумме составляет огромное число словоупотреблений. Последнее дает возможность, рассматривая незначительную часть инвентаря языка, зафиксированную в частотном словаре, делать вы­воды о большей части единиц речи.

Подводя итог (вслед за И. А. Киссеном), можно сделать сле­дующий вывод об объеме индивидиуального словаря носителя казах­ского языка: для понимания 80% казахского текста достаточно хоро­шо знать значения казахских слов в пределах от 2 тыс. до 3 тыс. слов из высокочастотной зоны частотного словаря, составленного по раз­личным жанрам этого языка. Оставшиеся 20% значений лексем мож­но узнать по отдельным отраслевым терминологическим словарям или по словарю новых слов. Не исключено, что значения этих слов можно будет понять из соответствующего контекста и по догадке. Последнее, в основном, зависит от уровня знания данного предмета (о котором идет речь в тексте) индивидуальным носителем языка.

В нашей работе будет рассматриваться вопрос об установлении основных принципов формализации содержания казахского текста, в частности статического содержания. Решение такой сложной задачи (особенно для тюркоязычных текстов) основывается нами на прин­ципах частотности лингвистических единиц текста с опорой на высо­кочастотные эоны словаря и на характеристику равномерной покры- ваемости текстов. Так как задача формализации содержания казах­ского текста будет решаться в целях использования современных компьютеров, то возникает ряд вопросов. В частности, какой мини­мальный объем словаря казахского языка необходимо записать в па­мять компьютера? По каким областям знаний (подъязыкам) лучше всего выбрать экспериментальные тексты? Какие слова считать “опорными”, “главными”, вокруг которых сконцентрировано содер­жание текста? Эти и другие вопросы, касающиеся раскрытия прин­ципов формальной структуры содержания казахских текстов, будут рассмотрены нами детальнее в следующих разделах.

Итак, для более полного охвата различных областей знания бы­ли взяты тексты из художественной литературы, публицистики (газетные статьи на одну тематику) и научно-популярной литературы, т. е. эксперименту подвергнуты тексты, относящиеся к трем функ ционально-смысловым типам речи, таким, как описание, повество вание и рассуждение.


Перейти на страницу: