Основные принципы формализации содержания казахского текста — А. К. Жубанов
Название: | Основные принципы формализации содержания казахского текста |
Автор: | Аскар Кудайбергенулы Жубанов |
Жанр: | Казахское языкознание |
Издательство: | 9965-13-426-Х |
Год: | 2002 |
ISBN: | 9965-13-426-Х |
Язык книги: | Русский |
Страница - 25
5.7. О семантико-синтаксическом языке для записи формул предложения, абзаца и текста
Абзац - это некоторый синтаксический шаблон, фиксирующий логику мысли автора при выражении отношений между некоторыми составляющими фрагмента психической ситуации, отраженного в абзаце. Поэтому, изучая проблему организации текстов из элементов разных уровней, мы должны найти способ фиксации в абзацах реальных текстов всех его компенентов. Возникает необходимость создания исскусственного языка, который мог бы служить некоторой моделью естественного языка (ЕЯ).
Известны три основных подхода к такому моделированию. Мы остановимся только на том случае, когда моделирование ЕЯ сводится к статистическому выбору из текстов наиболее употребительной лексики и грамматических правил, относящихся к узкой предметной области.
В отличие от существующих искусственных языков, основанных на базе ЕЯ, предлагаямая версия должна иметь средства экспликации различного рода повторов, опущенных частей смысла, средств связи между предложениями и абзацами и ряд других возможностей [173, с.21-29].
Вкратце остановимся на структуре и составе предлагаемого семантико-синтаксического языка (СЕМСИНТ). Мы будем придерживаться общих положений, разработанных А. В. Зубовым в книге “Проблемы порождения текста” [127; 128, с.26-38].
В нашем представлении такой искусственный язык (ИЯ) должен иметь возможность описать абзац текста как некоторую семантико-синтаксическую единицу, учитывающую статический и динамический аспекты, т.е. ИЯ может строить некоторую формулу абзаца. Если любой абзац состоит из цепочки взаимосвязанных предложений, то искомый язык должен содержать правила, позволяющие, учитывать семантические и синтаксические отношения между членами предложения, т.е. он должен строить семантикосинтаксическую формулу предложения. В нем также должны участвовать элементы, отражающие логико-смысловые связи между предложениями одного абзаца и между абзацами. И наконец, для описания содержания всего текста через содержание отдельных абзацев в ИЯ должны быть средства для создания из формул абзацев некоторой формулы текста.
Следуя положениям А. В. Зубова [128, с.26-38|, мы для описания содержания текста в ИЯ СЕМСИНТ также включили следующие . составляющие:
- алфавит языка СЕМСИНТ;
- набор элементов для записи семантических отношений между ченами предложения;
- набор Элементов для записи синтаксических отношений между членами предложений;
- набор элементов для фиксации логико-семантических отношений между предложениями одного абзаца;
- набор элементов для связи в абзаце статической и динамической составляющих текста;
- семантико-синтаксическую формулу абзаца (СЕСФА);
- набор элементов для фиксаций связей между абзацами одного текста;
- семантико-синтаксическую формулу текста (СЕСФТА).
Точка зрения о том, что предложение - это знак, имеющий план выражения (линейная цепочка имен) и план содержания (смысл), поддерживается многими учеными. Принимая эту точку зрения, следует выяснить, как смысл предложения образуется из значений входящих в него слов, с одной стороны, и как этот смысл проявляется, выражается конкретными синтаксическими схемами с другой.
Не вдаваясь в подробности этого вопроса, отметим, что наиболее распространена теория, трактующая процесс порождения предложения от семантики к синтаксису. Одним из представителей этой теории явился Ч. Филлмор. В своих работах семантическую структуру предложения он называет глубинной структурой [291, 292]. Наиболее близка этому направлению теория В. Г. Гака. Глубинную структуру он определяет как лексико-синтаксическую структуру, изоморфную ситуацию и называет прямой номинацией ситуации, а поверхностную структуру - косвенной номинацией [73].
Процесс перехода от семантический структуры к синтаксической сильно отличается в разных моделях и затрудняет их разъяснение, но общим для всех моделей является то, что процесс построения предложения начинается в них с организации его синтаксической структуры. Одной из таких наиболее распространенных моделей является модель Н. Хомского [300]. Согласно этой теории, предложение проходит в процессе порождения три этапа: категориальный, субкатегориальный и лексемный.
Анализируя приведенные подходы к проблеме организации смысла предложения, следует отметить их общие недостатки: они опираются почти полностью на автосемантичные предложения, т. е.на предложения, имеющие смысл вне текста. Кроме этого, большинство рассмотренных теорий касается вопроса организации лишь простых предложений.
В нашем исследовании предложение рассматривается как несамостоятельная часть абзаца, которая отражает какую-то часть фермента ситуации, представленной в описании абзаца. Необходимо предположить, что за каждым словом предложения стоит некоторый предмет, факт, явление объективной действительности. Кроме того, мы не считаем, что “глагол” является основным элементом семантико-синтаксической структуры предложения. В нашем случае, это опорные Слова - существительные, к которым “подбираются” уже глаголы. Они и есть основное семантико-синтаксическое содержание абзаца и каждого его предложения.
В целом; предлагаемая модель является развитием комбинаторного подхода, учитывающего семантический подход Ч. Филлмора в его модернизированном виде [291], теорий Ю. Д. Апресяна и В. В. Богданова [12, 43], а также синтаксических идей В. М. Солнцева [261].
Семантическая формула предложения, как считают многие исследователи, должна отражать семантико-синтаксические роли конкретных участников реальной (или вображаемой) ситуации, отобро- жаемой предложением. Такие участники ситуации в тексте задаются опорными и иными словами и именными словосочетаниями.
При анализе предложения в абзацах исследуемых текстов можно выделить семантические роли участников ситуации (или семантические функции), отображенной в предложении. Кроме того, для написания семантико-синтаксической формулы предложения нам необходимы специальные коды, по значениям которых узнаются содержание каждой семантической функции, а также их синтаксические значения в СЕМСИНТ (табл. 33). В целях увеличения точности отражения формулой элементов ситуации может о ввести условнее обозначения семантических подклассов знаменительных классов слов, конкретные значения которых даны в таблице “Семантические классы знаменительных классов слов казахского языка” (см. табл. 3 по-10). Коды, соответствующие названиям частей речи (их скрашения) и семантическим подклассам слов казахского языка, приведены в табл. 32.
Выделяемые нами роли участников ситуации будут относиться к группам слов, включающим имена существительные (именные словосочетания) и все относящиеся к ним определители, выраженные именами прилагательными, причастями, порядковыми числительными и местоимениями. В дальнейшем такую группу слов мы будем называть аргументной группой. В формуле предложения она должна состоять из цепочки кодов семантических подклассов определителей и существительных, соединяемых знаками (звездочка), ограниченных слева знаком < (меньше) и справа знаком > (больше).
Для обозначения места глагола-сказуемого в формуле предложения можно использовать какой-либо код, например R, за которым необходимо поставить цифру, указывающую семантическую валентность глагола. Уточнение типа глагола осуществляется путем указания вслед за кодом ЕТ семантического подкласса через индексы ijk (ijk=101, 102, 103, ..., 999), которые указывают на номер семантического подкласса (см. табл. 4).
Заметим, что в формуле предложения наречия будут представляться в виде третьего составного элемента после аргументной группы и глагола, а все входящие в формулу элементы, т.е. семантические функции, глагол и наречия, соединяются между собой знаком + (плюс) в строгом соответствии с порядком следования слов в предложении.
Учитывая результаты исследования Ч. Филлмора, Ю. Ю Апресяна, В. В. Богданова, а также анализа трех разновидностей казахских текстов, мы выделили семантические роли (семантические функции) участников ситуации (табл. 33).
Искусственный язык, принятый на основе ЕЯ, разработанный А. В. Зубовым и названный семантико-синтаксическим языком, вполне может удовлетворять требовании, которые ставятся при формализованной записи содержания казахского текста.
По А. В. Зубову, алфавит языка СЕМСИНТ представляется в следующем виде:
- все русские буквы алфавита (кроме ё);
- все латинские буквы;
- десятичные цифры: 0, 1,2, ..., 9;
- орфографические знаки: .(точка), :(двоеточие), ?(знак вопроса), ‘(апостроф), “,’’(кавычки), (, )(левая и правая круглые скобки), [, ](левая и правая квадратные скобки), ...(многоточие), - (черточка);
- знаки арифметических действий: +(сложёние), /(деление), • (умножение), - (вычитание), •• (возведение в степень);
- знаки логических действий: - (отрицание), & (конъюнкция), (дизъюнкция), > (больше), < (меньше), = (равно).
Некоторые формальные средства связи, которые приняты нами для записи формулы предложения таковы:
- синтаксическая связь слов в субстантивно-субстантивных словосочетаниях в формуле-предложении обозначается знаком наклонной черты (/);
- однородные члены предложения, так же. как и аргументные группы, в формуле-предложении соединяются логическим знаком & (конъюнкция);
- знаком I (вертикальная черта) обозначаются союзы не, неме- се, не болмаса, когда они употребляются внутри аргументной группы или соединяют две (или более) аргументные группы;
г) знак = (равно), стоящий после слова, показывает, что слово до знака “равно” восстановлено из предыдущего контекста и при на
Практическое написание формул предложений, абзаца и кон кретного казахского текста вполне возможно, если воспользоваться материалами нашего исследования. А для их реализации на компью тере необходимы дополнительные исследования специалистов по инженерной лигвистике.
В заключение предлагаем принципиальный алгоритм (укрепненную блок-схему) перехода от естественного казахского текста к его формальному представлению, сопровождая его конкрет ным казахским предложением.
- Покажем работу принципиального алгоритма на примере.
Блок А.
Пусть вводится в память компьютера следующий .текст: "Үлкен жук тасыйтын машина кешкі сағат алтыда теміржол көпірінен өтті. Ол Алматыға азық-түлік жеткізеді”. (“Большая грузовая ма • шина в шесть часов вечера переехала железнодорожный мост. Она до ставит продовольствие в Алматы”).
Блок Б.
Читаем очередное предложение: "Үлкен жук тасыйтын машина кешкі сағат алтыда теміржол көпірінен өтті. ”
БлокВ.
Заменяем все слова этого предложения лексико-грамматической и семантической информацией из автоматического словаря казахского языка (АСКЯ). В словаре может быть указано больше параметров, чем количество формальных признаков в замене. В этом случае условимся указать только некоторые, например, принадлежность данного слова к определенному классу - существительное (ЗТ), глагол (ЕТ) и т.д., а также код семантического подкласса:
1) Рассмотрим первое слово предложения: улкен - прилагательное - (СН), качественное прилагательное - (CCijk) и по семантической классификации (см. табл. 7) относится к “прилагательным, означающим объем предмета”, код которого “СС23”, данное слово в именительном падеже, т.е. условный код падежа - (АС) от “атау септік” таким образом, в формуле предложения слово улкен будет заменено: (СН)(АС)(СС23).
Аналогично этому слову производим замену и для остальных слов предложения;
- жүк - существительное (ЗТ), именительный падеж (АС), нарицательное (ЖЕ), неодушевленное (ЖЗ), семантический класс - предметы-артефакты, используемые человеком - 3'1'315 (см. табл. 3) и др.; вместо слова “жук”:
(ЗТ)(АС)(ЗТ315);
- тасыйтын - глагол (ЕТ) в форме причастия, прошедшее время (ӨШ), по семантическому подклассу как причастие означает физическое действие, свойственое живому и неживому в природе - ЕШ081 (см. табл. 5) и др., т.е. “тасыйтын” -
- (ЕТ)(ӨШ)(ЕШ081);
- машина - существительное (ЗТ), единственное число (АС), нарицательное (ЖЕ), неодушевленное (ЖЗ), семантический подкласс 3T308; согласно табл. 3, это слово относится к подклассу: объект, используемый для рередвижения человеком; итак, слово “машина” -
(ЗТ)(АС)(ЗТЗО8);
- кешкі - прилагательное (СН), именительный падеж (АС); семантический подкласс как относительного прилагательного, согласно табл. Охарактеризует объект по его отношению ко времени (ҚС031). Таким образом слово “кешкі” - (СН)(АС)(ҚС031);
- сағат - существительное (ЗТ), именительный падеж (АС), нарицательное (ЖЕ), как существительное, означающее временное поняие по табл. 3, - (ЗТ601); само слово в кодах запишется:
(ЗТ)(АС)(ЗТ601);
- алтыда - числительное (СА),- местный падеж (ЖС), количественное (есептік сан есім) (ЕК), т е. все слово -
(СА)(ЖС)(ЕК);
- 8) теміржол - существительное (ЗТ), единственное число (АС), нарицательное (ЖЕ), по семантической классификации это слово можно отнести к подклассу наука: “понятия, связанные с устройством отдельного механического объекта” и его код ЗТ117 (см. табл. 3); итак, ст >во “теміржол” - . (ЗТ>(АС)(ЗТ117);
- квпірінен - существительное,(ЗТ), исходный падеж (ШС), по семантике как и в предыдущем пункте - ЗТ117, а само слово:
(ЗТ)(ШС)(ЗТ117);
өтті - глагол (ЕТ), прошедшее время (ӨШ), по семантическому подклассу относится к глаголам со значением каузации движения, а именно к пункту: “обозначающие преодоление преграды в движении” - ЕТ941, то слово -
(ЕТ)(ӨШ)(ЕТ94І).
Теперь, заменив каждое слово в этом предложении соответствующими кодами, будем иметь:
(СН)(АС)(СС23) (ЗТ)(АС)(ЗТ315) (ЕТ)(ӨШ)(ЕШ081)
(ЗТ)(АС)(ЗТЗО8) (СН)(АС)(ҚС031) (ЗТ)(АС)(ЗТ601)
(СА)(ЖС)(ЕК) (ЗТ)(АС)(ЗТ117) (ЗТ)(ШС)(ЗТ117)
(ЕТ)(ӨШ)(ЕТ941).
Принятые в этой записи наборы кодов абсолютно условные, которые зависят от того, как был составлен автоматический словарь казахского языка (АСКЯ).
Блок Г.
Проведем сегментацию предложения на группы или на так называемые аргументные группы. Рассматриваемое предложение можно разбить на следующие четыре аргументные группы:
- үлкен жук таситын машина - именная группа;
- кешкі сағат алтыда - обстоятельственная группа;
- теміржол көпірінен - именная группа;
- өтті - глагольная группа.
Блок Д.
Зная тип группы (именная, глагольная, обстоятельственная) и падежи существительных, входящих в группы и их семантические характеристики, присваеваем этим группам наименования семантических функций (субъект, предмет, понятия и т.д.) согласно табл. 33:
- именная группа: “улкен жук таситын машина" - имя существительное в именительном падеже, неодушевленное; значит по значению семантической функции - “Предмет” вместе с признаками: цкен и жук тасыйтын; по данным табл. 33 код “Предмет” - АН1. Теперь запишем предмет АН1, отбирая индекс класса и семантический подкласс:
АНК(СН)(АС)(СС23)*(ЗТ)(АС)(ЗТ315)*(ЕТ)(ӨШ)(ЕШ081)* (ЗТ)(АС)(ЗТЗО8)> ;
- обстоятельственная группа: “кешкі сағат алтыда”, рассматриваем аналогично по табл. 33 и узнаем код функции - ATM, который равен:
АТМ<(СН)(АС)(ҚС031) * (ЗТ)(АС)(ЗТ601) * (СА)(ЖС)(ЕК)>;
- именная группа: “теміржол көпірінен” - неодушевленный объект некоторого события, который имеет код АН, тогда:
АН<(ЗТ)(АС)(ЗТ117) * (ЗТ)(ШС)(.ЗТ117)>;
Эту схему можно прочитать так: нечто (АН1) неодушевленное (3T308), имеющее признак (СС23) и с определенным предназначением (ЕШ081), совершает физическое действие (ЕТ941) во время ATM, связанное с некоторым объектом (АН), обладающим свойством (СН/ЗТ117).
Таким образом, можно было бы проанализировать и второе предложение, взятое для примера, и перейти от естественной его формы к формальному виду, так же, как и в случае с первым предложением.
Рассмотрев вкратце работу принципиального алгоритма, перехода от естественного казахского текста к его формальному представлению, можно отметить, что формализация содержания абзаца и всего текста осуществляется таким же образом. Для этого необходимо воспользоваться основными принципами формализации содержания казахского текста и другими данными, имеющими в предлагаемом исследовании, а для отдельных частных случаев, возможно, понадобятся дополнительные исследования.