Основные принципы формализации содержания казахского текста — А. К. Жубанов — Страница 22

Нажмите ESC, чтобы закрыть

Поделиться
VK Telegram WhatsApp Facebook
Ещё
Одноклассники X / Twitter Email
Онлайн-чтение

Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название
Основные принципы формализации содержания казахского текста
Автор
А. К. Жубанов
Жанр
Казахское языкознание
Издательство
9965-13-426-Х
Год
2002
ISBN
9965-13-426-Х
Язык книги
Русский
Страница 22 из 26 85% прочитано
Содержание книги
  1. Предисловие
  2. 1.1. Язык, речь. Основные функции и единицы
  3. Текст как основной объект современной лингвистики
  4. Текст и его единицы как знаки
  5. 1.4. Предложение как речевой знак
  6. 1.5. Сверхфразовое единство и абзац как знаки
  7. 1.6. Текст как знак
  8. 2.1. Индивидуальный словарь носителя языка и его роль в восприятии и понимании текста
  9. 2.2. Лексико-морфологическая характеристика компьютерного словаря казахского языка
  10. 2.3. Автоматический словарь казахского языка(АСКЯ)
  11. 2.3.1. Формальное описание словарной статьи
  12. 2.3.3. Структура автоматического словаря казахского языка
  13. 2.4. Синтез казахских словоформ-существительных для АСКЯ
  14. 2.5. Об алгоритме программы - синтез Именных словоформ казахского языка
  15. 2.6. Синтез казахских глагольных словоформ для АСКЯ
  16. 3.1. Принципы семантической классификации лексики казахского языка
  17. 3.2. Семантическая классификация имен существительных (зат есім)
  18. 3.3. Семантическая классификация глаголов казахского языка (етістік)
  19. 3.3.1. Знаковое значение глагольных лексем
  20. 3.3.2. Тематические и лексико-семантические классы казахских глаголов
  21. 3.4. Семантические классы причастий (есімше) и деепричастий (көсемше) казахского языка
  22. 3.5. Семантические классы прилагательных (сын есім) казахского языка
  23. 3.6. Семантическая классификация наречий (үстеу)
  24. 3.7. Семантическая классификация местоимении (есімдік)
  25. 4.1. Роль и специфика абзацев в общей структуре текста
  26. 4.2. Сверхфразовая стереотипичность и абзац
  27. 4.3. Функционально-смысловая классификация казахского текста
  28. 4.4. Классификация абзацев казахского текста по их предметно-логическому содержанию
  29. 4.5. Особенности абзацев научно-популярного текста по их предметно-логическому содержанию
  30. 4.6. Особенности абзацев публицистического текста по их предметно-логическому содержанию
  31. 4.7. Особенности абзацев художественного текста по их предметно-логическому содержанию
  32. 5.1. Статика и динамика содержания текста
  33. 5.2. Способы выделения опорных и ключевых слов текста
  34. 5.3. Способ выделения опорных слов казахского текста
  35. 5.4. Выделение опорных слов в трех анализируемых типах текстов
  36. 5.5. Построение таблицы основного статического содержания текста
  37. 5.6. Средства связи в предложении, между предложениями в абзаце и между абзацами
  38. 5.7. О семантико-синтаксическом языке для записи формул предложения, абзаца и текста
  39. Заключение
  40. ПРИЛОЖЕНИЯ
Страница 22 из 26

5.3. Способ выделения опорных слов казахского текста

Как мы отмечали, основными критериями при выделении опорных слов текста являются абсолютная частота употребления слова <с учетом всех возможных замен) и количество абзацев, в кото­рых встретилось слово, кроме этого, такой критерий не должен зави­сеть от общего числа слов в тексте.

Наиболее удобной для нас представляется несколько изменен­ная формула коэффициента статистической устойчивости термина (187, с.87]:

где Ғ — абсолютная частота слова в тексте (в нее входит суммарная частота всех типов синонимов этого слова и местоименных замен); т — число абзацев, в которых встретилось слово; N — общие число слов  в тексте; п — общее число абзацев в тексте.

Назовем этот критерий Кваж коэффициентом важности слова и определим для слов всех анализируемых текстов его критические значения К1важ и К2важ, позволяющие формальным способом отде­лить в массе слов конкретного текста соответственно главные и вто­ростепенные опорные слова.

Эксперименты по выделению опорных и неопорных слов на­ших трех видов текстов, проведенные на текстах самой различной длины (от одного абзаца до 100), дают нам возможность предложить на основе формулы (1) эксприментальным путем составленные нами две формулы-неравенства (2) и (3):

С помощью этих неравенств можно определить левые и правые границы отнесения потенциальных слов к ГОС и ВОС для текстов на казахском языке.

Здесь неравенство (2) служит для определения границ ГОС, а (3) — для ВОС. Значения коэффициентов т1 и т2, участвующих в формулах, зависят от общего числа абзацев в тексте и поэтому они были нами подобраны экспериментальным путем. Значения т1 и т2 будут зависеть от интервалов, в которые попадет значение п — общее число абзацев в тексте. Например, для К1 важ (т.е. для ГОС), если общее число абзацев п более 100 или равно 100, то m, = 42, а если п более 60, но менее 100, то т1 = 30 и т.д. Полный перечень значений для т1 и т2 (для ГОС и ВОС) и соответствующие им формулы нера-  венств для K1 важ и К2важ. приведены в табл. 21 ив табл. 22.

Таким образом, можно предложить следующие критерии:

  • к главным опорным словам (ГОС) текста будем относить те слова, которые удовлетворяют требованиям, определенным в т.5л. 21;
  • к второстепеным опорным словам (ВОС) того же текста относятся те его слова, которые удовлетворяют требованиям, определенным в табл. 22;
  • все оставшиеся слова текста считаем неопорными словами и  будем называть их прочими словами (ПС).

В то же время слова, входящие в каждую из первых двух по­лученных групп, неоднородны по содержанию. В соответствии с предметными свойствами референтов они образуют группы опорных слов — субъектов, объектов, слов-мест и слов-времен [73, с.23; 183, с.15-51; 307, с.105]. Именно они совместно с предикатами выражают взаимосвязи основных, объективно существующих, категорий: мате­рии, движения, времени и пространства [183, с.15-51].

5.4. Выделение опорных слов в трех анализируемых типах текстов

Как видно из предыдущего пункта, для того чтобы выделить опорные слова конкретного текста, необходимо знать общую частоту употребления слова в тексте и распределение этого слова по абзацам текста. Чтобы получить эти данные для каждого текста рассматри­ваемых нами трех функциональных типов текстов, необходимо соста­вить так называемый распределительный алфавитно-частотный сло­варь употреблений слов по абзацам. В этом словаре приводятся ал­фавитные списки всех слов, встретившихся в каждом абзаце, с указа­нием частоты употребления каждого слова в этом абзаце. Далее про­водится объединение словарей абзацев в единый алфавитный словарь текста. При таком объединении суммируются частоты одинаковых слов и подсчитывается число абзацев, в которых встретилось каждое слово. При объединении слов учитываются отмеченные четыре спо­соба замен в тексте: словарный синонимический, контекстуальный синонимический, местоименный и ассоциативный. Все это делается с опорой на содержание каждого текста.

На следующем шаге анализа из полученного алфавитно- часттного словаря отдельно выделяются имена существительные (и именные словосочетаниях) и другие слова, относящиеся к знамена­тельным классам слов казахского языка, имеющие частоту Ғ, равную двум и более, с указанием всех возможных замен в тексте и числа аб­зацев, в которых встретились эти слова. Такие слова располагаются в порядке убывания их абсолютных частот Ғ и образуют потенциаль­ный словарь опорных слов. Этот словарь служит основой для разде­ления опорных слов на главные и второстепенные и выделения внут­ри них различных подгрупп опорных слов.

В нашем эксперименте были рассмотрены три вида текстов по функционально-смыловому типу: 1) научно-популярный стиль — изучены 47 различных по объему (по количеству слов) минитекстов по одной тематике; 2) публицистический стиль (газетные статьи) — 35 газетных статей по одной рубрике (или 35 различных по объему ми­ни-текстов); 3) художественный стиль — 20 минитекстов различного объема (рассказы видных казахских писателей).

По изложенной последвательности на основе специально со­ставленных нами компьютерных программ были получены алфавит­но-частотный распределительный по абзацам словарь по отдельным текстам каждого типа и объединенный словарь по трем типам казах­ских текстов. (Во второй главе мы уже приводили перечень по­лученных на компьютере словарей. Фрагменты этих словарей будут показаны в Приложении.)

Далее из этих распределительных словарей были получены так называемые потенциальные словари, которые являются базовыми словарями для определения ГОС, ВОС и прочих слов рассматри­ваемых текстов. Для отдельного типа текстов и входящих в него ми­ни-текстов по известному общему числу слов в тексте N, общему числу абзацев в каждом мини-тексте п заранее были вычислены пре­делы изменения К1важ и К2важ, которые приведены в табл. 23 для научно-популярных текстов, в табл. 24 — публицистического и в табл. 25 — художественного текста.

Для того чтобы читатель имел некоторое представление о таких словарях, приведем фрагмент (отрывок) потенциального словаря в виде табл. 26, рассматривая XUD-03 (художественный) и слова, от носящихся к классу существительных.

В потенциальных распределительных алфавитно-частотных сло­варях для каждого слова нами вычислены значения Кваж. Сравнени­ем Аваж со значениями К1важ и К2взж из табл. 23, 24, 25 (согласно типу текста), установлена их принадлежность или к ГОС, или к ВОС, или к ПС. Эти сведения записаны в последней графе табл. 26 (фрагмент потенциального словаря по XUD-03).

Поясним (для филологов), как определяется принадлежность слова к опорным словам, согласно предлагаемой нами методике.

Для примера рассмотрим слово “ауыл» (село), из потенциально­го словаря, составленного по тексту XUD-03, N=36], n=11, (табл. 26 и 26).

Индексы в конце слов (после наклонной черты — /), означают принадлежность слова к классу слов. В табл. 26: «ат» сокращение от адам аты (имена людей), жа — жер аты (название местности) и «зт» — зат есім (существительное).