Меню Закрыть

Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название:Основные принципы формализации содержания казахского текста
Автор:Аскар Кудайбергенулы Жубанов
Жанр:Казахское языкознание
Издательство:9965-13-426-Х
Год:2002
ISBN:9965-13-426-Х
Язык книги:Русский
VK
Facebook
Telegram
WhatsApp
OK
Twitter

Перейти на страницу:

Страница - 22


5.3. Способ выделения опорных слов казахского текста

Как мы отмечали, основными критериями при выделении опорных слов текста являются абсолютная частота употребления слова <с учетом всех возможных замен) и количество абзацев, в кото­рых встретилось слово, кроме этого, такой критерий не должен зави­сеть от общего числа слов в тексте.

Наиболее удобной для нас представляется несколько изменен­ная формула коэффициента статистической устойчивости термина (187, с.87]:

где Ғ - абсолютная частота слова в тексте (в нее входит суммарная частота всех типов синонимов этого слова и местоименных замен); т - число абзацев, в которых встретилось слово; N - общие число слов  в тексте; п - общее число абзацев в тексте.

Назовем этот критерий Кваж коэффициентом важности слова и определим для слов всех анализируемых текстов его критические значения К1важ и К2важ, позволяющие формальным способом отде­лить в массе слов конкретного текста соответственно главные и вто­ростепенные опорные слова.

Эксперименты по выделению опорных и неопорных слов на­ших трех видов текстов, проведенные на текстах самой различной длины (от одного абзаца до 100), дают нам возможность предложить на основе формулы (1) эксприментальным путем составленные нами две формулы-неравенства (2) и (3):

С помощью этих неравенств можно определить левые и правые границы отнесения потенциальных слов к ГОС и ВОС для текстов на казахском языке.

Здесь неравенство (2) служит для определения границ ГОС, а (3) - для ВОС. Значения коэффициентов т1 и т2, участвующих в формулах, зависят от общего числа абзацев в тексте и поэтому они были нами подобраны экспериментальным путем. Значения т1 и т2 будут зависеть от интервалов, в которые попадет значение п - общее число абзацев в тексте. Например, для К1 важ (т.е. для ГОС), если общее число абзацев п более 100 или равно 100, то m, = 42, а если п более 60, но менее 100, то т1 = 30 и т.д. Полный перечень значений для т1 и т2 (для ГОС и ВОС) и соответствующие им формулы нера-  венств для K1 важ и К2важ. приведены в табл. 21 ив табл. 22.

Таким образом, можно предложить следующие критерии:

  • к главным опорным словам (ГОС) текста будем относить те слова, которые удовлетворяют требованиям, определенным в т.5л. 21;
  • к второстепеным опорным словам (ВОС) того же текста относятся те его слова, которые удовлетворяют требованиям, определенным в табл. 22;
  • все оставшиеся слова текста считаем неопорными словами и  будем называть их прочими словами (ПС).

В то же время слова, входящие в каждую из первых двух по­лученных групп, неоднородны по содержанию. В соответствии с предметными свойствами референтов они образуют группы опорных слов - субъектов, объектов, слов-мест и слов-времен [73, с.23; 183, с.15-51; 307, с.105]. Именно они совместно с предикатами выражают взаимосвязи основных, объективно существующих, категорий: мате­рии, движения, времени и пространства [183, с.15-51].

5.4. Выделение опорных слов в трех анализируемых типах текстов

Как видно из предыдущего пункта, для того чтобы выделить опорные слова конкретного текста, необходимо знать общую частоту употребления слова в тексте и распределение этого слова по абзацам текста. Чтобы получить эти данные для каждого текста рассматри­ваемых нами трех функциональных типов текстов, необходимо соста­вить так называемый распределительный алфавитно-частотный сло­варь употреблений слов по абзацам. В этом словаре приводятся ал­фавитные списки всех слов, встретившихся в каждом абзаце, с указа­нием частоты употребления каждого слова в этом абзаце. Далее про­водится объединение словарей абзацев в единый алфавитный словарь текста. При таком объединении суммируются частоты одинаковых слов и подсчитывается число абзацев, в которых встретилось каждое слово. При объединении слов учитываются отмеченные четыре спо­соба замен в тексте: словарный синонимический, контекстуальный синонимический, местоименный и ассоциативный. Все это делается с опорой на содержание каждого текста.

На следующем шаге анализа из полученного алфавитно- часттного словаря отдельно выделяются имена существительные (и именные словосочетаниях) и другие слова, относящиеся к знамена­тельным классам слов казахского языка, имеющие частоту Ғ, равную двум и более, с указанием всех возможных замен в тексте и числа аб­зацев, в которых встретились эти слова. Такие слова располагаются в порядке убывания их абсолютных частот Ғ и образуют потенциаль­ный словарь опорных слов. Этот словарь служит основой для разде­ления опорных слов на главные и второстепенные и выделения внут­ри них различных подгрупп опорных слов.

В нашем эксперименте были рассмотрены три вида текстов по функционально-смыловому типу: 1) научно-популярный стиль - изучены 47 различных по объему (по количеству слов) минитекстов по одной тематике; 2) публицистический стиль (газетные статьи) - 35 газетных статей по одной рубрике (или 35 различных по объему ми­ни-текстов); 3) художественный стиль - 20 минитекстов различного объема (рассказы видных казахских писателей).

По изложенной последвательности на основе специально со­ставленных нами компьютерных программ были получены алфавит­но-частотный распределительный по абзацам словарь по отдельным текстам каждого типа и объединенный словарь по трем типам казах­ских текстов. (Во второй главе мы уже приводили перечень по­лученных на компьютере словарей. Фрагменты этих словарей будут показаны в Приложении.)

Далее из этих распределительных словарей были получены так называемые потенциальные словари, которые являются базовыми словарями для определения ГОС, ВОС и прочих слов рассматри­ваемых текстов. Для отдельного типа текстов и входящих в него ми­ни-текстов по известному общему числу слов в тексте N, общему числу абзацев в каждом мини-тексте п заранее были вычислены пре­делы изменения К1важ и К2важ, которые приведены в табл. 23 для научно-популярных текстов, в табл. 24 - публицистического и в табл. 25 - художественного текста.

Для того чтобы читатель имел некоторое представление о таких словарях, приведем фрагмент (отрывок) потенциального словаря в виде табл. 26, рассматривая XUD-03 (художественный) и слова, от носящихся к классу существительных.

В потенциальных распределительных алфавитно-частотных сло­варях для каждого слова нами вычислены значения Кваж. Сравнени­ем Аваж со значениями К1важ и К2взж из табл. 23, 24, 25 (согласно типу текста), установлена их принадлежность или к ГОС, или к ВОС, или к ПС. Эти сведения записаны в последней графе табл. 26 (фрагмент потенциального словаря по XUD-03).

Поясним (для филологов), как определяется принадлежность слова к опорным словам, согласно предлагаемой нами методике.

Для примера рассмотрим слово “ауыл" (село), из потенциально­го словаря, составленного по тексту XUD-03, N=36], n=11, (табл. 26 и 26).

Индексы в конце слов (после наклонной черты - /), означают принадлежность слова к классу слов. В табл. 26: "ат" сокращение от адам аты (имена людей), жа - жер аты (название местности) и "зт" - зат есім (существительное).


Перейти на страницу: