Основные принципы формализации содержания казахского текста — А. К. Жубанов
Название: | Основные принципы формализации содержания казахского текста |
Автор: | Аскар Кудайбергенулы Жубанов |
Жанр: | Казахское языкознание |
Издательство: | 9965-13-426-Х |
Год: | 2002 |
ISBN: | 9965-13-426-Х |
Язык книги: | Русский |
Страница - 11
2.4. Синтез казахских словоформ-существительных для АСКЯ
В АСКЯ обязательно должны быть даны все аффиксальные сло- воизмения, т.е. всевозможные словоформы от рассматриваемого сло- во-основы. С этой целью можно было бы составить алфавитный словарь словоформ по разным текстам и выбрать по ним все словоформы, соответствующие данной слово-основе. Данная процедура, во- первых, не гарантирует охват всевозможных вариантов формообразования и, во-вторых, постоянное их присутствие в АСКЯ заняло бы достаточно большой объем памяти в словарной базе. Исходя из этого, для основных классов слов казахского языка (существительное, глагол, прилагательное) мы воспользовались грамматическими правилами формирования словоформ и разработали алгоритм их порождения, т.е. провели синтез казахских словоформ по графическим формальным признакам.
Агглютинативный строй казахскою языка намного облегчает задачу формирования словоформ по известной основе слова, .так как любое словоизменение образуется посредством последовательного присоединения к основе слова соответствующих аффиксов, а также путем присоединения в виде цепочек одних аффиксов к другим.
Допустим, что рассматриваемое в АСКЯ слово-основа относится к определенному классу слов, тогда в зоне 6 необходимо формировать всевозможные словоформы, т.е. перечень словоизменений (грамматические значения) с одним лексическим значением.
Рассмотрим случай, когда слово-основа относится к классу существительных. Как известно, существительное в казахским языке, как часть речи, объединяет категорию знаменательных слов-имен, которые обладают общими семантическими и грамматическими признаками [278, с.130]. Кроме того, данная часть речи отдается одной из многочисленных и сложных по структуре. Именно за счет существительных пополняется словарный состав любого языка, в том числе, и казахского.
Морфологическая структура аффиксов существительных и их возможные сочетания были исследованы в количественном отношении и ранее (16, с.49-87]. По статистическим данным в разных стилях казахского языка, в среднем, около 40% всех слов и 45% всех словоформ относятся только к существительным. Это, видимо, объясняется не только тем, что им присущи различные наименования предметов и явлений, но и их функциями в предложении, в котором они выступают в роли подлежащего, определения, дополнения, обстоятельства и именного сказуемого и т.д.
' Имени существительному также присущи характерные только для него аффиксы словообразования и словоизменения. Мы здесь будем рассматривать только словоизменительные аффиксы существительных, порождающие словоформы с одним лексическим значением.
Известно, что слово-существительное, вступая в семантикограмматическую связь с другими словами предложения, изменяется по числам, принимая или не принимая аффиксы множественности, по падежам, принимая аффиксы простого или притяжательного склонения, и наконец, по лицам, принимая местоименные аффиксы. Последние, т.е. местоименные аффиксы (или сказуемости), присоединяются к существительным только со значениями специальности человека или родственных отношений между людми. Этот факт учитывается и в нашем исследовании.
А. Ахабаев и К. Б. Бектаев исследовали теоретически возможные формы-варианты присоединения аффиксов к основе существительных, а также частоту их встречаемости в газетных и художественных (роман “Абай жолы”) текстах казахского языка. Ими были приняты следующие условные обозначения: Р - основа слова (корневая и производная); К - аффиксы множественности; С - аффиксы простого склонения; Т - аффиксы притяжательности; Ж - местоименные аффиксы (или аффиксы сказуемости). Согласно данным исследования, обозначенные четыре разновидности аффиксов, присоединяясь к основе слова и в рознь, и сочетаясь в определенной последовательности, теоретически могут встречаться в 496 формах-вариантах. Здесь, конечно, учитывается количественное разнообразие внутри каждой из четырех разновидностей (К, С, Т, Ж). Из возможных 496 форм-вариантов в газетных текстах были обнаружены только 225 видов (45%), в художественном тексте - 276 видов (56%). В двух стилях слово-основа Р, т.е. основа с нулевым аффиксом, в среднем составляет 40,54% всех существительных, а оставшиеся 59,46% относятся к существительным со словоизменительными аффиксами.
Какие же последовательности аффиксов присущи существительным казахского языка?
Действительно, и наши исследования, и исследования выше названных авторов подтверждают следующий возможный порядок присоединения аффиксов к основе-слову:
I. Р-С, Р-К-С, Р-К-Т-С, Р-Т-С, Р-Т-К-С;
И. Р-Т, Р-К-Т;
P-К, Р-Т-К, Р-К-Ж-К;
P-Ж, Р-Т-Ж, Р-Т-С-Ж, Р-С-Ж, Р-К-Т-Ж, Р-К-Ж.
Как видно из этой записи, аффиксы К, Т, С, Ж могут присоединяться к основе Р как непосредственно (в рознь), так и сочетаясь в определенном порядке. В данном случае, мы специально сгруппировали их в четыре подгруппы так, чтобы в каждом случае замыкал цепочку один из видов словоизменительных аффиксов. Такой порядок расположения подгрупп соответствует занимаемому месту по частоте встречаемости этих подгрупп среди всех существительных со словоизменительными аффиксами. Например, на первом месте стоит подгруппа, когда замыкающим цепочку аффиксов является простое склонение - С, которое в суммарном подсчете форм составляет более 70% (в указанных стилях - 73 и 78% ) всех словоформ, далее, на II месте - Т (21 и 17%), на III месте - К (7 и 4%) и на последнем IV месте - Ж (0,01 и 0,3%). Таким образом, при словоизменительной процедуре существительным казахского языка более свойственны в конце словоформы аффиксы простого склонения.
Наше исследование преследут несколько иную цель, а именно для каждой единицы АСКЯ, т.е. для корневых или производных слов-основ, принадлежащих к классу существительных, формальным путем воссоздать всевозможные аффиксальные словоизменения - словоформы. С этой целью мы за основу своего исследования взяли известное в грамматике правило, которое гласит, что для единственного числа слов в зависимости от последнего слога и звука слова- основы простое склонение имен имеет пять фонетических риантов.
В целях удобства составления алгоритма задачи в фонетических вариантах простого склонения нами сделана незначительная пере- группировка конечных звуков (букв) основы. Например, горой фонетический вариант относится к склонению имен, оканчивающихся на гласные у, и, щелевые сонорные р, л, среднеязычный й и неслоговой у. в составленных нами пяти списках аффиксов щелевой сонорный л перенесен в пятый фонетический вариант, который касается склонения имен, оканчивающихся только на звонкие согласные ж и з. Такая перестановка не согласуется с общепринятой в единственном случае, а именно, когда основа, оканчивающаяся на звонкие согласные ж, з, склоняется в творительно-соединительном падеже, принимая падежные окончания -бен/-бенен. Для основ с конечной буквой (звуком) л в этом случае необходимы падежные окончания -мен/- менен, (ел-мен, ел-менен, бал-мен, бал-менен). Это в обязательном порядке должно учитываться в алгоритме задачи синтеза именной словоформы.
Известно, что аффиксы сказуемости присоединяются к существительным, когда они означают понятия, связанные с людьми и их деятельностью, профессией и т.д. По этой причине мы такие существительные решили рассматривать отдельно и списки с обязательным участием аффиксов сказуемости также не смешывать с ранее рассмотренными двумя случаями. При составлении таких списков нам пришлось объединить два из пяти фонетических вариантов при простом склонении имен. Точнее, склонение имен, оканчивающихся на сонорные носовые м, н, ң, и склонение имен с конечными звонкими согласными ж, з, а также щелевой сонорный л мы решили сгруппировать в один тип. Естественно, при этом не обошлось без исключений. Когда именная основа в конце имеет звук ж или з, то к основе вместо аффикса -мын следует приписать -бын, а когда конечная буква основы - л, то вместо -бысыз, -бысыздар, - бысын, -бысыңдар нужно пользоваться аффиксами -мысыз, -мысыздар, -мысың, -мысыңдар, соответственно их заменив. Эти исключения имеют силу и для твердых и мягких конечных слогов основы.
Мы в своем эксперименте по составлению списка аффиксов для синтеза словоформ от корневых и производных основ существительных рассматривали следующие четыре случая:
- орнова оканчивается на мягкий слог (и звук) и среди присоединяемых аффиксов притсутствие аффиксов сказуемости необязательно;
- основа оканчивается на мягкий слог (и звук) и среди присое- диняемых аффиксов участие аффиксов сказуемости обязательно;
- основа оканчивается на твердый слог (и звук) и среди присоединяемых аффиксов притсутствие аффиксов сказуемости необязательно;
- основа оканчивается на твердый слог (и звук) и среди присоединяемых аффиксов участие аффиксов сказуемости обязательно.
Для случаев 1) и 3), т.е. когда среди присоединяемых аффиксов притсутствие аффиксов сказуемости необязательно, на основе пяти фонетических вариантов простого склонения нами составлены по пять типовых списков аффиксов, присоединение которых к каждой основе порождает именную словоформу.. А для случаев 2) и 4), т.е. когда среди присоединяемых аффиксов участие аффиксов сказуемости обязательно, было составлено уже по четыре типовых списков аффиксов, также позволяющих создать соответствующие именные словоформы.
Для удобства дальнейшего изложения составленные нами списки аффиксов будем именовать как список 1, список 2, список 3 и список 4. Дадим некоторое разъяснение:
Список 1 - это список аффиксов, который должен использоваться для порождения словоформ от корневых и производных основ существительных с конечным мягким слогом (звуком) в реестре АСКЯ. При этом, в сочетании аффиксов могут не участвовать аффиксы сказуемости. Список задан в пяти колонках. В первой колонке (тип I) дан перечень аффиксов, соответственно типу слов-основ и конечных звуков (букв), т.е. основы, оканчивающиеся на гласные, кроме у, и, как, например, же, келі, мекеме и т.д. В остальных четырех колонках списка (тип 2, тип 3, тип 4, тип 5) даны фоне- тичские варианты (с незначительными перегруппировками, о которых было отмечео выше). В соседних колонках аффиксы и их сочетания, в большинстве случаев, могут повторяться, но среди них есть иногда и специфичные для данной колонки фонетические вари анты. Запись списков аффиксов в пяти колонках осуществлена специально с целью избежать многократных проверок конечных слогов и звуков (букв) у именной основы в АСКЯ, чем и достигается экономия во времени. О некоторых исключениях, требующих минимальных проверок, нами было уже отмечено. В данном случае основной проверкой является отнесение реестрового слова из АСКЯ к одному из четырех списков (со списка 1 по 4) и согласно конечному слогу (звуку) именной основы выбор типа колонки по сответствую- щим фонетическим вариантам.
Список 2 отличается от списка 1 тем, что он предназначен для именных основ, которые по своему значению относятся к понятиям, связанным с людьми, т.е. с их родственными отношениями, деятельностью и профессией и т. д. Поэтому в списке 2 в четырех колонках даны специальные для таких случаев аффиксы сказуемости или так называемые личные окончания (в сочетании с другими видами аффиксов) для существительных с конечным мягким слогом (звуком) в реестре АСКЯ. Список задан в четырех колонках. .
Список 3 отличается от предыдущего списка 1 только тем, что он предназначен для именных основ с твердым конечным слогом (звуком) из АСКЯ.
Список 4 в отличие от 2 предназначен для именных основ с конечным твердым слогом (звуком) в реестре АСКЯ. В остальном все перечисленные функции списка 2 присущи и списку 4.
Методика составления всех четырех перечисленных списков почти одинакова, а именно по первому типу, т.е. когда конечный звук (буква) является гласным (кроме у, и), составляется перечень всевозможных вариантов аффиксаций типовых слов, взятых для примера, и полученный словарь аффиксов сортируется по алфавиту. Остальные колонки, т.е. другие фонетические варианты списка, заполняются анологично первой на основе взятых для примера типовых слов. Составленные по такой методике в списках 1 и 3 всевозможные случаи аффиксации именной основы по первому фонетическому варианту (1 колонка) в нашем эксперименте оказались равны 130, а в остальных колонках (фонетических вариантах) меньше или 130. А в списках 2 и 4 количество аффиксов с обязательным участием аффиксов сказуемости составляло 47. Здесь мы приводим только фрагменты списков 1 и 2, т. е. фрагменты списков, предназначенных для основ существительных с конечным мягким слогом (в Приложении эти же списки 7 и 2 приведены полностью).
Известно, что конечный глухой согласный звук корня -к, -к, -п переходит в звонкий, если присоединяемый к нему аффикс начинается с гласного, т.е. к - ғ, к - г, п - б (тарак - тарағы, жүрек - жүрегі, доп - добы). Поэтому в алгоритме задачи синтеза именной словоформы для автоматического словаря казахского языка при присоединении аффиксов к основе необходимо учесть воздействие последующего звука на предыдущий, т.е. учесть законы регрессивной ассимиляции. Здесь мы опускаем возможные варианты присоединения к форме единственного числа слов особых аффиксов, которые также зависят от последнего слога и звука слова в именительном падеже и осуществляются согласно закону сингармонизма.
Относительно составленных нами списков отметим, что мы далеки от мысли утверждать об окончательном их варианте как в количественном, так и в качественном отношениях. Также не исключаем, что синтез именных словоформ может быть осуществлен и другими путями. В любом случае предлагаемый нами вариант может послужить началом для осуществления компьютерного АСКЯ.
2.5. Об алгоритме программы - синтез Именных словоформ казахского языка
Алгоритм программы синтеза именных словоформ казахского языка составлен с расчетом на четыре списка, о которых шла речь в предыдущем пункте. Для работы алгоритма обязательным условием является наличие списка 1 и 2, составленных для конечных мягких слогов именных основ, а также списка 3 и 4, рассчитанных для конечных твердых слогов слов из реестра АСКЯ. Мы уже отмечали, что разделение формообразующих списков на четыре разновидности задумано специально, чтобы довести до минимума процесс анализа структуры именной словоформы. Благодаря наличию указанных списков, работа алгоритма программы доведена до формальной стыковки выбранной именной основы из АСКЯ с аффиксами из соответствующих упомянутых списков. Некоторые проверки, имеющиеся в алгоритме, включены преднамерено из-за вынужденных исключений, которые появились при перегруппировке фонетических вариантов при простом склонении. Кроме того, при стыковке именной основы с очередным аффиксом из списка возникала необходимость учета законов сингармонизма и правил прогрессивной и регрессивной ассимиляции, которые также требуют небольшого анализа.
Ниже приводим в виде укрепненной блок-схемы 1 алгоритм задачи синтеза именных словоформ казахского языка, которая даст общую картину поставленной перед нами задачи и послужит основанием для составления компьютерных программ для АСКЯ.
2.6. Синтез казахских глагольных словоформ для АСКЯ
Не все языковеды на должном уровне обращают внимание на количественную сторону образования словоформ от слов-основ определенных классов слов тюркских языков. В этом отношении следует отметить исследования X. Ф. Исхаковой в области формальной морфологии тюркских языков. По ее данным, в татарском, турецком и узбекском языках от каждой основы-слова, относящегося к существительному, образуется 202 формы, от одной глагольной основы в татарском языке образуется 17 947 словоформ, в турецком - 11 390 и узбекском - 13 592 словоформ [136, с.7 и 17].
Статистическое исследование казахских глагольных словоформ на структурно-морфологическом уровне с использованием материалов частотных словарей по разным стилям казахского языка проведено К. Б. Бектаевым и С. Мырзабековым [36, 37]. По статистическим данным, их исследования, от каждой корневой или производной основы глагола аффиксальным путем может образоваться около 1150 глагольных форм, которые относятся к литературной норме казахского языка. А если учесть формообразования глаголов с помощью союзов и других вариантов, то это число может достичь 1500 и более [37, с. 202-222]. Большая разница в числе словоформ от одной глагольной основы казахского языка по сравнению с такими фактами других тюркских языков объясняется спецификой казахского языка, где многие аффиксальные формы глагола считаются корневыми или производными основами глагола.
Авторы указанных статей обращают внимание и на статистику в отношении количества и порядка присоединения формообразующих аффиксов к глагольной основе. Например, одноаффиксная форма всретилась в 20 вариантах, двухаффиксная форма - 120, трехаффикс- ная - 310, пятиаффиксная - 372, шестиаффиксная - 78 и семиаф- фиксная форма зафиксировна в 24 вариантах [37, с.202].
Слово-основа казахского глагола в АСКЯ является вполне самостоятельным словом, представляющих собой форму 2-го лица единственного числа будущего времени повелительного наклонения. В некоторых случаях к слове-основе присоединяется аффикс у (в виде туйык рай). Глагольные основы в АСКЯ могут отличаться друг от друга и по морфологической структуре, и по количеству слогов. В модели АСКЯ будут фигурировать глагольные основы, главным формальным признаком которых является возможность прибавления отрицательной частицы: -ма, -м.е, -ба, -бе, -па, -пе по законам сингармонизма.
Заметим, что возможность образования отрицательной формы глагола с помощью частиц -ма/-ме, -ба/-бе, -па/-пе является как бы особым признаком глагола, отличающим его о других частей речи казахского языка [163, с.288; 186, с.79[. В связи с этим, А. Хасенова отмечает, что указанные отрицательные частицы глагола, являясь формообразующими аффиксами, в то же время служат, средством для определения границ глагольных основ от глагольных форм (грамматических значений) [141, с.55]. Например, для того чтобы узнать о том, приписанная к основе глагола морфема образует производную основу или только его форму с новым грамматическим значением, достаточно произнести это слово, добавив в конце соответствующую отрицательную частицу, выбрав ее согласно закону сингармонизма. Если при этом по значению не замечается нарушение отрицательной формы глагола, то проверяемое слово (часть слова до отрицательной частицы) считается глагольной основой (корневой или производной), а если происходит искажение отрицательной формы, то искомое слово есть глагольная словоформа.
Ввиду того, что большинство глагольных основ составляет производные основы, образованные путем аффиксации (синтаксический тип словообразования), то в предлагаемой модели АСКЯ они должны (во время поиска) формироваться для каждой основы глагола по правилам (алгоритму), которые должны быть указаны в зоне 6 словарной статьи.
Необходимо заметить, что аналитический тип словообразования, т.е. так называемые составные и сложные глаголы, состоящие из двух или более слов в модели АСКЯ, не будет рассматриваться (способ их формального формирования в АСКЯ требует отдельного исследования).
Отрицательные основы глагола не включены в АСКЯ, так как они так же, как и грамматические формул глагола, должны формироваться в зоне 6.
Различные глагольные словоформы образуют своеобразную систему, которую можно рассматривать как грамматические категории: 1) категория залога (етіс категориясы), 2) категория видов (сипат категориясы); 3) категория положительности (болымдылык) и отрицательности (болымсыздық); 4) категория наклонения (рай категориясы); 5) категория времени (шак категориясы); 6) категория спряжения глагола по лицам и числам (етістіктің жіктелуі); 7) категория причастия (есімше); 8) категория деепричастия (косемше); 9) категория степени происхождения действия (амалдың оту сипаты).
Категория залога, выражая отношение действия к объекту и субъекту, считается лексико-семантическим признаком глагола, так как при этом пополняется и расширяется основное значение глагола. Поэтому считают, что при помощи залоговых аффиксов от глагольных корней или основ в казахском языке образуются производные глагольные основы. Ссылаясь на это, мы решили отнести их к словарной единице АСКЯ.
Производные глаголы, образованные от именных основ морфо- логичесим способом, т.е. при помощи аффиксов: -ла/-ле, -да/-де, - та/-те, -а, -е, -ай/-ей, -ар/-ер/-р, -ғар/-гер, -кар/-кер и др. (ой+ла, өткір+ле, түн+е, көб+ей, ағ+ар и т.д.), должны быть включены в АСКЯ так же, как и непроиводные глагольные основы.
Мы предлагаем формальный метод формообразования глаголов от глагольных основ (производные и непроизводные) посредством аффиксов, т.е. рассмотренные выше грамматические категории, такие, как видовые формы, наклонения, время, спряжения глагола, формы причастия и деепричастия (за исключением залоговых форм) синтезировать (порождать) программным путем, согласно грамматическим правилам современного казахского языка. Порождению производных форм алгоритмическим путем (компьютерным) благоприятствует тот факт, что в казахском языке формообразующие и словоизменяющиеся аффиксы присоединяются к слову в определенном порядке как, например, глаголы көріспейсің и ойлатпайсыз:
- непроизводная основа (кор) + аффикс залога (іс) + аффикс отрицания (пе) + аффикс времени (й)+личный аффикс (сіц);
- именная основа (ой) + глаголообразуюший аффикс (ла) + аффикс залога (т) + аффикс отрицания (па) + аффикс времени (й) + личный аффикс (сыз).
Рукодствуясь этими положениями и разработтанной методикой формообразования существительных, мы составили списки аффиксов, используемых для порождения словоформ от корневых и произ- ' водных основ казахского глагола. При этом нами экспериментально выявлено 700 вариантов формоизменительных аффиксов как для глагольных основ с мягким конечным слогом в отдельности, так и . для случая с твердым слогом. Для полноты охвата всевозможных формообразующих аффиксов казахского глагола мы хотим обратить внимание читателей на исследования К. Бектаева и С. Мырзабекова [36, 37, 200].
Так же, как и формообразующие списки для именных основ, экспериментально составленные нами формообразующие списки для глагольных основ должны постоянно подвергаться качественным и количественным изменениям в связи с нововведениями в структуре АСКЯ.
Приложении книги приведен список аффиксов синтеза словоформ от корневых и производных глагольных основ с конечным твердым слогом (спис. 3).