Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название:	Основные принципы формализации содержания казахского текста
Автор:	Аскар Кудайбергенулы Жубанов
Жанр:	Казахское языкознание
Издательство:	9965-13-426-Х
Год:	2002
ISBN:	9965-13-426-Х
Язык книги:	Русский

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН НАЦИОНАЛЬНАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ЯЗЫКОЗНАНИЯ ИМ. А.БАЙТУРСЫНОВА

Книга посвящена новой области языкознания - лингвистике текста. Рассмотрены такие проблемные вопросы казахского языкознания, как текст и его конструктивные элементы с точки зрения формальной и содержательной структуры его формирования. Исследование преследует цель - получение семантического представления казахского текста и установление основных формальных принципов его генерации, т.е.. решение вопросов построения и/или порождения казахского текста.

Монография рассчитана на научных работников в области структурной, прикладной и математической лингвистики, а также преподавателей, студентов и аспирантов филологических и математических специальностей высших учебных заведений.

Разработанный автором способ статического и динамического представления содержания казахского текста может быть применен При составлении учебников и учебных пособий.

Ответственный редактор доктор филологических наук 3. М. Базарбаева

Рецензенты:

доктор филологических наук профессор 3. К. Ахметжанова; доктор филологических наук профессор С. М. Мырзабеков.

Монография рекомендована к изданию Ученым советом Института языкознания им. А. Байтурсынова Министерства образования и науки Республики Казахстан.

Предисловие

Преклоняясь перед гениальностью и мужественностью

Отца Кудайбергена Куановича Жубанова -

филолога-мыслителя, классика казахского языкознания,

ставшего жертвой репрессий 1937 года, посвящаю . . .

С провозглашением казахского языка как государственного возрастает его роль в управлении народным хозяйством, обучении и воспитании, культурной жизни и информационном обеспечении суверенной республики.

Являясь высокоразвитой республикой, Казахстан не может остаться в стороне от нового этапа научно-технической революции, связанного с широким внедрением во все аспекты жизни республики компьютерной техники. Если в промышленности такая техника используется достаточно успешно, то информационные технологии на базе казахского языка применяются еще очень слабо.

Эффективное развитие всех областей науки в республике невозможно без создания автоматизированных систем управления народным хозяйством. Основой таких систем в новых условиях должен стать казахский язык. Широкому распространении казахской художественной и научной литературы будет в значительной степени способствовать создание автоматизированных поисковых систем в библиотеках, на предприятиях, в вузах, школах. Естественно, что та» е системы должны функционировать на базе казахского языка. Значительно может ускорить процесс активного внедрения в практику казахского языка создание автоматизированных систем обучения в школах и вузах. Как новое средство обучения компьютер вызывает большой интерес, дает значительный эффект при обучении...

Одной из основных причин недостаточного использования компьютеров в информационных технологиях на базе казахского Языка и в его обучении является отсутствие формальных описаний казахского языка, которые могли бы быть восприняты электронной

машиной. Существующие грамматики казахского языка создавались в свое время для их использования человеком. Правила таких грамматик не формализуемы или плохо формализуемы, так как в основном обращены к интуиции носителя языка, его лингвистическим и экстралингвистическим знаниям. Такими свойствами современные компьютеры не обладают, поэтому необходимо создавать описания языков, в том числе и казахского, которые были бы им понятны.

Создание подобных описаний наталкивается на ряд особенностей, специфичных для казахского языка. К таким особенностям относятся сложность, неоднокодность, недетерминированность и нечеткость языка [143, с.3-4]. Сложность казахского языка заключается в наличии в нем большого числа разнородных единиц (морфем, слов и т.д.), способных вступать в огромное число разнообразных отношений. Суть неоднозначности языка в том, что при любом способе классификации этих единиц число таких классов достаточно велико и разброс количества единиц, входящих в эти классы, также достаточно широк. Недетерминированность казахского языка здесь выражается в том, что отношения между формой единицы и ее содержанием (словом и его значением, предложением и его смыслом, текстом и его содержанием) многозначны. Наконец, недетерминированность казахского языка заключается в нечеткости областей значений слов и выражений, в нечеткости границ синтаксической правильности выражений этого языка.

Эти особенности казахского языка и создают значительные трудности при построении формальных описании для его использования в системах автоматического анализа и синтеза казахского текста, а также в автоматизированных системах обучения языку и гуманитарным дисциплинам на базе казахского языка.

В плане традиционного метода исследования грамматического строя казахского языка ученые не ставили перед собой цель применения его в , автоматизированных системах, поэтому непосредственное использование в нашей работе имеющихся фактов не всегда представляется возможным. Все же некоторые данные, полученные казахстанскими учеными, брались нами за основу.

Казахстанские ученые при изучении грамматического строя казахского языка сталкиваются с различными проблемами. Следует отметить, что подобное изучение казахского языка, хотя в той или иной мере затрагивалось в первых учебниках и отдельных публикациях, только с 30-40-х годов оно стало приобретать научно-исследовательский характер. В эти годы вышла в свет работа Н. Т. Сауранбаева (249], посвященная сложным предложениям. Некоторые вопросы сложного предложения, а именно классификации придаточных предложений, были проанализированы С. Жиенбаевым [104].

В синтаксической системе любого языка особое место занимает структура простого предложения, ибо общие закономерности, присущие синтаксису, в основном вытекают из природы простого предложения. Эта область синтаксиса была подробно изучена М. Балакаевым. Благодаря его исследованиям, в казахском языкознании появился совершенно новый труд, посвященный синтаксису словосочетаний казахского языка. В этом и в других своих исследованиях ученый сумел доказать, что типы словосочетаний представляют собой особую отрасль синтаксиса языка [24, 25].

Исследователи казахского языка впоследствии стали выдвигать много интересных проблем, связанных со словосочетаниями и предложениями. В последние годы различные виды предложений исследовались К. Есеновым, согласно данным которого, в предложении конструируются такие главные закономерности, присущие синтаксису, как сочетаемость слов, синтагматические группы, синтаксические группы, синтаксические обороты, связь с другими предложениями и т.д. [102, 103]. .

Ученые в области синтаксиса тюркских языков, изучая актуальные проблемы сложных предложений, стали предлагать включить в парадигму сложных предложений также текст, в составе которого обычно рассматривается и сложное синтаксическое целое, и абзац, и текст с прямой и косвенной речью [115].

Текст - сложная единица, содержащая основные единицы языка: морфемы, слова, словосочетания, предложения. В связи с этим, невозможно построить модель, позволяющую компьютеру понять содержание текста без разработки правил формализации значений этих основных языковых единиц.

Цель нашей поиск основных принципов формализации содержания казахского текста как общепринятой единицы общения людей. Такая постановка вопроса относительно казахского языка ставится на повестку дня впервые. Объектом данного исследования являются казахские письменные тексты. В их число входят:

рассказы из художественных текстов известных казахских писателей [166, с.3-154]; они охватывают 20 минитекстов, включающих 500 абзацев;
тексты научно-популярного стиля [148, 167]; общее число абзацев этих текстов составило также 500;
публицистические тексты [68]; в сумме исследовано 35 газетных статей - 502 абзаца. Все газетные материалы одной тематики, идущие под рубрикой “Алты жасарлар мектепке барады” (“Шестилетние идут в школу”) и касающиеся новой школьной программы.

Таким образом, по текстам трех стилей рассматривались структуры около 1500 абзацев. Выбор именно этих текстов объясняется тем, что они представляют три наиболее употребительных функционально-смысловых типа речи (повествование, рассуждение, описание), без детального изучения которых невозможно построить универсальную модель казахского текста, позволяющую распрзнать его содержание. Исходя из этого, в работе в рамках единой теории текстообразования последовательно рассматриваются проблемы лингвистики текста как основного вопроса современной лингвистики. Решаются задачи формального представления словаря казахского языка и абзаца как основной семантически значимой текстовой единицы. В главе, в которой приведена семантическая классификация знаменательных классов слов казахского языка, по существу, представлена модель лексикона человека, являющегося основой для порождения любого казахского текста. В последующих главах представлены результаты классификационного и статистического исследования конкретных казахских текстов по их функционально-смысловому и предметнологическому содержанию в структуре абзацев.

В заключительных главах книги речь идет о статическом содержании текста, т.е. о, так называемых, опорных словах текста и способах их определения, поскольку вокруг этих слов сконцентрировано основное статическое содержание текста. Кроме того, в последней главе даны некоторые возможные случаи наиболее вероятных формул казахского текста и вводные понятия о семантико-синтаксическом языке СЕМСИНТ. Здесь, в основном, речь идет о некоторых теоретических сторонах этого вопроса, практическая реализация которых будет иметь продолжение.

Итак, исходной идеей исследования явилось положение о том, что в процессе речевой деятельности человека происходит сложное переплетение детерминированных и вероятностных процессов как на лексическом, так и на синтаксическом уровнях. Этот факт связан с социальным характером языка и его постоянным развитием [252, C.118J. Задача нашего исследования состояла в выделении тех семантически значимых единиц казахского текста и правил их комбинирования, которые могли быть основой детерминированной (алгоритми-ческой) информации и тех единиц и правил, которые можно варьировать по определенным вероятностным законам. Полагаем, что рассмотренные в работе основные принципы формализации содержания казахского текста и другие материалы исследования помогут решению задач по автоматическому анализу и синтезу казахских текстов в информационных, исследовательских и учебных целях.