Меню Закрыть

Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название:Основные принципы формализации содержания казахского текста
Автор:Аскар Кудайбергенулы Жубанов
Жанр:Казахское языкознание
Издательство:9965-13-426-Х
Год:2002
ISBN:9965-13-426-Х
Язык книги:Русский
VK
Facebook
Telegram
WhatsApp
OK
Twitter

Перейти на страницу:

Страница - 11


2.4. Синтез казахских словоформ-существительных для АСКЯ

В АСКЯ обязательно должны быть даны все аффиксальные сло- воизмения, т.е. всевозможные словоформы от рассматриваемого сло- во-основы. С этой целью можно было бы составить алфавитный сло­варь словоформ по разным текстам и выбрать по ним все словофор­мы, соответствующие данной слово-основе. Данная процедура, во- первых, не гарантирует охват всевозможных вариантов формообразо­вания и, во-вторых, постоянное их присутствие в АСКЯ заняло бы достаточно большой объем памяти в словарной базе. Исходя из это­го, для основных классов слов казахского языка (существительное, глагол, прилагательное) мы воспользовались грамматическими пра­вилами формирования словоформ и разработали алгоритм их порож­дения, т.е. провели синтез казахских словоформ по графическим формальным признакам.

Агглютинативный строй казахскою языка намного облегчает за­дачу формирования словоформ по известной основе слова, .так как любое словоизменение образуется посредством последовательного присоединения к основе слова соответствующих аффиксов, а также путем присоединения в виде цепочек одних аффиксов к другим.

Допустим, что рассматриваемое в АСКЯ слово-основа относит­ся к определенному классу слов, тогда в зоне 6 необходимо форми­ровать всевозможные словоформы, т.е. перечень словоизменений (грамматические значения) с одним лексическим значением.

Рассмотрим случай, когда слово-основа относится к классу су­ществительных. Как известно, существительное в казахским языке, как часть речи, объединяет категорию знаменательных слов-имен, которые обладают общими семантическими и грамматическими признаками [278, с.130]. Кроме того, данная часть речи отдается од­ной из многочисленных и сложных по структуре. Именно за счет су­ществительных пополняется словарный состав любого языка, в том числе, и казахского.

Морфологическая структура аффиксов существительных и их возможные сочетания были исследованы в количественном отноше­нии и ранее (16, с.49-87]. По статистическим данным в разных сти­лях казахского языка, в среднем, около 40% всех слов и 45% всех словоформ относятся только к существительным. Это, видимо, объ­ясняется не только тем, что им присущи различные наименования предметов и явлений, но и их функциями в предложении, в котором они выступают в роли подлежащего, определения, дополнения, об­стоятельства и именного сказуемого и т.д.

' Имени существительному также присущи характерные только для него аффиксы словообразования и словоизменения. Мы здесь будем рассматривать только словоизменительные аффиксы существи­тельных, порождающие словоформы с одним лексическим значением.

Известно, что слово-существительное, вступая в семантико­грамматическую связь с другими словами предложения, изменяется по числам, принимая или не принимая аффиксы множественности, по падежам, принимая аффиксы простого или притяжательного склонения, и наконец, по лицам, принимая местоименные аффиксы. Последние, т.е. местоименные аффиксы (или сказуемости), присое­диняются к существительным только со значениями специальности человека или родственных отношений между людми. Этот факт учитывается и в нашем исследовании.

А. Ахабаев и К. Б. Бектаев исследовали теоретически возмож­ные формы-варианты присоединения аффиксов к основе существи­тельных, а также частоту их встречаемости в газетных и художествен­ных (роман “Абай жолы”) текстах казахского языка. Ими были при­няты следующие условные обозначения: Р - основа слова (корневая и производная); К - аффиксы множественности; С - аффиксы просто­го склонения; Т - аффиксы притяжательности; Ж - местоименные аффиксы (или аффиксы сказуемости). Согласно данным исследова­ния, обозначенные четыре разновидности аффиксов, присоединяясь к основе слова и в рознь, и сочетаясь в определенной последователь­ности, теоретически могут встречаться в 496 формах-вариантах. Здесь, конечно, учитывается количественное разнообразие внутри каждой из четырех разновидностей (К, С, Т, Ж). Из возможных 496 форм-вариантов в газетных текстах были обнаружены только 225 ви­дов (45%), в художественном тексте - 276 видов (56%). В двух стилях слово-основа Р, т.е. основа с нулевым аффиксом, в среднем составляет 40,54% всех существительных, а оставшиеся 59,46% относятся к существительным со словоизменительными аффиксами.

Какие же последовательности аффиксов присущи существи­тельным казахского языка?

Действительно, и наши исследования, и исследования выше названных авторов подтверждают следующий возможный порядок присоединения аффиксов к основе-слову:

I. Р-С, Р-К-С, Р-К-Т-С, Р-Т-С, Р-Т-К-С;

И. Р-Т, Р-К-Т;

P-К, Р-Т-К, Р-К-Ж-К;

P-Ж, Р-Т-Ж, Р-Т-С-Ж, Р-С-Ж, Р-К-Т-Ж, Р-К-Ж.

Как видно из этой записи, аффиксы К, Т, С, Ж могут присое­диняться к основе Р как непосредственно (в рознь), так и сочетаясь в определенном порядке. В данном случае, мы специально сгруппиро­вали их в четыре подгруппы так, чтобы в каждом случае замыкал це­почку один из видов словоизменительных аффиксов. Такой порядок расположения подгрупп соответствует занимаемому месту по частоте встречаемости этих подгрупп среди всех существительных со слово­изменительными аффиксами. Например, на первом месте стоит подгруппа, когда замыкающим цепочку аффиксов является простое склонение - С, которое в суммарном подсчете форм составляет более 70% (в указанных стилях - 73 и 78% ) всех словоформ, далее, на II месте - Т (21 и 17%), на III месте - К (7 и 4%) и на последнем IV месте - Ж (0,01 и 0,3%). Таким образом, при словоизменительной процедуре существительным казахского языка более свойственны в конце словоформы аффиксы простого склонения.

Наше исследование преследут несколько иную цель, а именно для каждой единицы АСКЯ, т.е. для корневых или производных слов-основ, принадлежащих к классу существительных, формальным путем воссоздать всевозможные аффиксальные словоизменения - словоформы. С этой целью мы за основу своего исследования взяли известное в грамматике правило, которое гласит, что для единствен­ного числа слов в зависимости от последнего слога и звука слова- основы простое склонение имен имеет пять фонетических риантов.

В целях удобства составления алгоритма задачи в фонетических вариантах простого склонения нами сделана незначительная пере- группировка конечных звуков (букв) основы. Например, горой фонетический вариант относится к склонению имен, оканчивающихся на гласные у, и, щелевые сонорные р, л, среднеязычный й и неслого­вой у. в составленных нами пяти списках аффиксов щелевой сонорный л перенесен в пятый фонетический вариант, который касается склонения имен, оканчивающихся только на звонкие согласные ж и з. Такая перестановка не согласуется с общепринятой в единственном случае, а именно, когда основа, оканчивающаяся на звонкие соглас­ные ж, з, склоняется в творительно-соединительном падеже, прини­мая падежные окончания -бен/-бенен. Для основ с конечной буквой (звуком) л в этом случае необходимы падежные окончания -мен/- менен, (ел-мен, ел-менен, бал-мен, бал-менен). Это в обязательном порядке должно учитываться в алгоритме задачи синтеза именной словоформы.

Известно, что аффиксы сказуемости присоединяются к су­ществительным, когда они означают понятия, связанные с людьми и их деятельностью, профессией и т.д. По этой причине мы такие су­ществительные решили рассматривать отдельно и списки с обяза­тельным участием аффиксов сказуемости также не смешывать с ра­нее рассмотренными двумя случаями. При составлении таких спи­сков нам пришлось объединить два из пяти фонетических вариантов при простом склонении имен. Точнее, склонение имен, оканчивающихся на сонорные носовые м, н, ң, и склонение имен с конечными звонкими согласными ж, з, а также щелевой сонорный л мы решили сгруппировать в один тип. Естественно, при этом не обошлось без исключений. Когда именная основа в конце имеет звук ж или з, то к основе вместо аффикса -мын следует приписать -бын, а когда конечная буква основы - л, то вместо -бысыз, -бысыздар, - бысын, -бысыңдар нужно пользоваться аффиксами -мысыз, -мысыздар, -мысың, -мысыңдар, соответственно их заменив. Эти исключения имеют силу и для твердых и мягких конечных слогов основы.

Мы в своем эксперименте по составлению списка аффиксов для синтеза словоформ от корневых и производных основ существитель­ных рассматривали следующие четыре случая:

  • орнова оканчивается на мягкий слог (и звук) и среди присое­диняемых аффиксов притсутствие аффиксов сказуемости необяза­тельно;
  • основа оканчивается на мягкий слог (и звук) и среди присое-  диняемых аффиксов участие аффиксов сказуемости обязательно;
  • основа оканчивается на твердый слог (и звук) и среди при­соединяемых аффиксов притсутствие аффиксов сказуемости необяза­тельно;
  • основа оканчивается на твердый слог (и звук) и среди при­соединяемых аффиксов участие аффиксов сказуемости обязательно.

Для случаев 1) и 3), т.е. когда среди присоединяемых аффиксов притсутствие аффиксов сказуемости необязательно, на основе пяти фонетических вариантов простого склонения нами составлены по пять типовых списков аффиксов, присоединение которых к каждой основе порождает именную словоформу.. А для случаев 2) и 4), т.е. когда среди присоединяемых аффиксов участие аффиксов сказуемос­ти обязательно, было составлено уже по четыре типовых списков аф­фиксов, также позволяющих создать соответствующие именные сло­воформы.

Для удобства дальнейшего изложения составленные нами списки аффиксов будем именовать как список 1, список 2, список 3 и список 4. Дадим некоторое разъяснение:

Список 1 - это список аффиксов, который должен использо­ваться для порождения словоформ от корневых и производных основ существительных с конечным мягким слогом (звуком) в реестре АСКЯ. При этом, в сочетании аффиксов могут не участвовать аф­фиксы сказуемости. Список задан в пяти колонках. В первой колон­ке (тип I) дан перечень аффиксов, соответственно типу слов-основ и конечных звуков (букв), т.е. основы, оканчивающиеся на гласные, кроме у, и, как, например, же, келі, мекеме и т.д. В остальных четырех колонках списка (тип 2, тип 3, тип 4, тип 5) даны фоне- тичские варианты (с незначительными перегруппировками, о кото­рых было отмечео выше). В соседних колонках аффиксы и их сочетания, в большинстве случаев, могут повторяться, но среди них есть иногда и специфичные для данной колонки фонетические вари ­анты. Запись списков аффиксов в пяти колонках осуществлена спе­циально с целью избежать многократных проверок конечных слогов и звуков (букв) у именной основы в АСКЯ, чем и достигается эко­номия во времени. О некоторых исключениях, требующих мини­мальных проверок, нами было уже отмечено. В данном случае основ­ной проверкой является отнесение реестрового слова из АСКЯ к од­ному из четырех списков (со списка 1 по 4) и согласно конечному слогу (звуку) именной основы выбор типа колонки по сответствую- щим фонетическим вариантам.

Список 2 отличается от списка 1 тем, что он предназначен для именных основ, которые по своему значению относятся к понятиям, связанным с людьми, т.е. с их родственными отношениями, деятельностью и профессией и т. д. Поэтому в списке 2 в четырех колонках даны специальные для таких случаев аффиксы сказуемости или так называемые личные окончания (в сочетании с другими видами аф­фиксов) для существительных с конечным мягким слогом (звуком) в реестре АСКЯ. Список задан в четырех колонках.           .

Список 3 отличается от предыдущего списка 1 только тем, что он предназначен для именных основ с твердым конечным слогом (звуком) из АСКЯ.

Список 4 в отличие от 2 предназначен для именных основ с конечным твердым слогом (звуком) в реестре АСКЯ. В остальном все перечисленные функции списка 2 присущи и списку 4.

Методика составления всех четырех перечисленных списков почти одинакова, а именно по первому типу, т.е. когда конечный звук (буква) является гласным (кроме у, и), составляется перечень всевозможных вариантов аффиксаций типовых слов, взятых для примера, и полученный словарь аффиксов сортируется по алфавиту. Остальные колонки, т.е. другие фонетические варианты списка, за­полняются анологично первой на основе взятых для примера типо­вых слов. Составленные по такой методике в списках 1 и 3 всевоз­можные случаи аффиксации именной основы по первому фоне­тическому варианту (1 колонка) в нашем эксперименте оказались равны 130, а в остальных колонках (фонетических вариантах) меньше или 130. А в списках 2 и 4 количество аффиксов с обязательным участием аффиксов сказуемости составляло 47. Здесь мы приводим только фрагменты списков 1 и 2, т. е. фрагменты списков, предназ­наченных для основ существительных с конечным мягким слогом (в Приложении эти же списки 7 и 2 приведены полностью).

Известно, что конечный глухой согласный звук корня -к, -к, -п переходит в звонкий, если присоединяемый к нему аффикс начинается с гласного, т.е. к - ғ, к - г, п - б (тарак - тарағы, жүрек - жүрегі, доп - добы). Поэтому в алгоритме задачи синтеза именной словоформы для автоматического словаря казахского языка при при­соединении аффиксов к основе необходимо учесть воздействие по­следующего звука на предыдущий, т.е. учесть законы регрессивной ассимиляции. Здесь мы опускаем возможные варианты присоедине­ния к форме единственного числа слов особых аффиксов, которые также зависят от последнего слога и звука слова в именительном па­деже и осуществляются согласно закону сингармонизма.

Относительно составленных нами списков отметим, что мы да­леки от мысли утверждать об окончательном их варианте как в ко­личественном, так и в качественном отношениях. Также не ис­ключаем, что синтез именных словоформ может быть осуществлен и другими путями. В любом случае предлагаемый нами вариант может послужить началом для осуществления компьютерного АСКЯ.

2.5. Об алгоритме программы - синтез Именных словоформ казахского языка

Алгоритм программы синтеза именных словоформ казахского языка составлен с расчетом на четыре списка, о которых шла речь в предыдущем пункте. Для работы алгоритма обязательным условием является наличие списка 1 и 2, составленных для конечных мягких слогов именных основ, а также списка 3 и 4, рассчитанных для ко­нечных твердых слогов слов из реестра АСКЯ. Мы уже отмечали, что разделение формообразующих списков на четыре разновидности за­думано специально, чтобы довести до минимума процесс анализа структуры именной словоформы. Благодаря наличию указанных спи­сков, работа алгоритма программы доведена до формальной стыков­ки выбранной именной основы из АСКЯ с аффиксами из соответ­ствующих упомянутых списков. Некоторые проверки, имеющиеся в алгоритме, включены преднамерено из-за вынужденных исключений, которые появились при перегруппировке фонетических вариантов при простом склонении. Кроме того, при стыковке именной основы с очередным аффиксом из списка возникала необходимость учета за­конов сингармонизма и правил прогрессивной и регрессивной асси­миляции, которые также требуют небольшого анализа.

Ниже приводим в виде укрепненной блок-схемы 1 алгоритм за­дачи синтеза именных словоформ казахского языка, которая даст общую картину поставленной перед нами задачи и послужит основа­нием для составления компьютерных программ для АСКЯ.

2.6. Синтез казахских глагольных словоформ для АСКЯ

Не все языковеды на должном уровне обращают внимание на количественную сторону образования словоформ от слов-основ опре­деленных классов слов тюркских языков. В этом отношении следует отметить исследования X. Ф. Исхаковой в области формальной мор­фологии тюркских языков. По ее данным, в татарском, турецком и узбекском языках от каждой основы-слова, относящегося к су­ществительному, образуется 202 формы, от одной глагольной основы в татарском языке образуется 17 947 словоформ, в турецком - 11 390 и узбекском - 13 592 словоформ [136, с.7 и 17].

Статистическое исследование казахских глагольных словоформ на структурно-морфологическом уровне с использованием материа­лов частотных словарей по разным стилям казахского языка проведе­но К. Б. Бектаевым и С. Мырзабековым [36, 37]. По статистическим данным, их исследования, от каждой корневой или производной основы глагола аффиксальным путем может образоваться около 1150 глагольных форм, которые относятся к литературной норме казахско­го языка. А если учесть формообразования глаголов с помощью сою­зов и других вариантов, то это число может достичь 1500 и более [37, с. 202-222]. Большая разница в числе словоформ от одной глагольной основы казахского языка по сравнению с такими фактами других тюркских языков объясняется спецификой казахского языка, где многие аффиксальные формы глагола считаются корневыми или производными основами глагола.

Авторы указанных статей обращают внимание и на статистику в отношении количества и порядка присоединения формообразующих аффиксов к глагольной основе. Например, одноаффиксная форма всретилась в 20 вариантах, двухаффиксная форма - 120, трехаффикс- ная - 310, пятиаффиксная - 372, шестиаффиксная - 78 и семиаф- фиксная форма зафиксировна в 24 вариантах [37, с.202].

Слово-основа казахского глагола в АСКЯ является вполне само­стоятельным словом, представляющих собой форму 2-го лица един­ственного числа будущего времени повелительного наклонения. В некоторых случаях к слове-основе присоединяется аффикс у (в виде туйык рай). Глагольные основы в АСКЯ могут отличаться друг от друга и по морфологической структуре, и по количеству слогов. В модели АСКЯ будут фигурировать глагольные основы, главным фор­мальным признаком которых является возможность прибавления от­рицательной частицы: -ма, -м.е, -ба, -бе, -па, -пе по законам сингар­монизма.

Заметим, что возможность образования отрицательной формы глагола с помощью частиц -ма/-ме, -ба/-бе, -па/-пе является как бы особым признаком глагола, отличающим его о других частей речи ка­захского языка [163, с.288; 186, с.79[. В связи с этим, А. Хасенова от­мечает, что указанные отрицательные частицы глагола, являясь фор­мообразующими аффиксами, в то же время служат, средством для определения границ глагольных основ от глагольных форм (грамматических значений) [141, с.55]. Например, для того чтобы уз­нать о том, приписанная к основе глагола морфема образует произ­водную основу или только его форму с новым грамматическим значением, достаточно произнести это слово, добавив в конце соот­ветствующую отрицательную частицу, выбрав ее согласно закону сингармонизма. Если при этом по значению не замечается наруше­ние отрицательной формы глагола, то проверяемое слово (часть слова до отрицательной частицы) считается глагольной основой (корневой или производной), а если происходит искажение отрицательной формы, то искомое слово есть глагольная словоформа.

 Ввиду того, что большинство глагольных основ составляет про­изводные основы, образованные путем аффиксации (синтаксический тип словообразования), то в предлагаемой модели АСКЯ они должны (во время поиска) формироваться для каждой основы глагола по пра­вилам (алгоритму), которые должны быть указаны в зоне 6 словарной статьи.

Необходимо заметить, что аналитический тип словообразова­ния, т.е. так называемые составные и сложные глаголы, состоящие из двух или более слов в модели АСКЯ, не будет рассматриваться (способ их формального формирования в АСКЯ требует отдельного исследования).

Отрицательные основы глагола не включены в АСКЯ, так как они так же, как и грамматические формул глагола, должны формиро­ваться в зоне 6.

Различные глагольные словоформы образуют своеобразную си­стему, которую можно рассматривать как грамматические категории: 1) категория залога (етіс категориясы), 2) категория видов (сипат категориясы); 3) категория положительности (болымдылык) и отрица­тельности (болымсыздық); 4) категория наклонения (рай категориясы); 5) категория времени (шак категориясы); 6) категория спряжения глагола по лицам и числам (етістіктің жіктелуі); 7) категория причастия (есімше); 8) категория деепричастия (косемше); 9) катего­рия степени происхождения действия (амалдың оту сипаты).

Категория залога, выражая отношение действия к объекту и субъекту, считается лексико-семантическим признаком глагола, так как при этом пополняется и расширяется основное значение глагола. Поэтому считают, что при помощи залоговых аффиксов от глаголь­ных корней или основ в казахском языке образуются производные глагольные основы. Ссылаясь на это, мы решили отнести их к сло­варной единице АСКЯ.

Производные глаголы, образованные от именных основ морфо- логичесим способом, т.е. при помощи аффиксов: -ла/-ле, -да/-де, - та/-те, -а, -е, -ай/-ей, -ар/-ер/-р, -ғар/-гер, -кар/-кер и др. (ой+ла, өткір+ле, түн+е, көб+ей, ағ+ар и т.д.), должны быть включены в АСКЯ так же, как и непроиводные глагольные основы.

Мы предлагаем формальный метод формообразования глаголов от глагольных основ (производные и непроизводные) посредством аффиксов, т.е. рассмотренные выше грамматические категории, та­кие, как видовые формы, наклонения, время, спряжения глагола, формы причастия и деепричастия (за исключением залоговых форм) синтезировать (порождать) программным путем, согласно грамма­тическим правилам современного казахского языка. Порождению производных форм алгоритмическим путем (компьютерным) благо­приятствует тот факт, что в казахском языке формообразующие и  словоизменяющиеся аффиксы присоединяются к слову в определенном порядке как, например, глаголы көріспейсің и ойлатпайсыз:

  • непроизводная основа (кор) + аффикс залога (іс) + аффикс  отрицания (пе) + аффикс времени (й)+личный аффикс (сіц);
  • именная основа (ой) + глаголообразуюший аффикс (ла) + аффикс залога (т) + аффикс отрицания (па) + аффикс времени (й) +  личный аффикс (сыз).

Рукодствуясь этими положениями и разработтанной методикой формообразования существительных, мы составили списки аффик­сов, используемых для порождения словоформ от корневых и произ- ' водных основ казахского глагола. При этом нами экспериментально выявлено 700 вариантов формоизменительных аффиксов как для глагольных основ с мягким конечным слогом в отдельности, так и . для случая с твердым слогом. Для полноты охвата всевозможных формообразующих аффиксов казахского глагола мы хотим обратить внимание читателей на исследования К. Бектаева и С. Мырзабекова [36, 37, 200].

Так же, как и формообразующие списки для именных основ, экспериментально составленные нами формообразующие списки для глагольных основ должны постоянно подвергаться качественным и количественным изменениям в связи с нововведениями в структуре АСКЯ.

Приложении книги приведен список аффиксов синтеза слово­форм от корневых и производных глагольных основ с конечным твердым слогом (спис. 3).


Перейти на страницу: