Меню Закрыть

Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название:Основные принципы формализации содержания казахского текста
Автор:Аскар Кудайбергенулы Жубанов
Жанр:Казахское языкознание
Издательство:9965-13-426-Х
Год:2002
ISBN:9965-13-426-Х
Язык книги:Русский
VK
Facebook
Telegram
WhatsApp
OK
Twitter

Перейти на страницу:

Страница - 25


5.7. О семантико-синтаксическом языке для записи формул предложения, абзаца и текста

Абзац - это некоторый синтаксический шаблон, фиксирующий логику мысли автора при выражении отношений между некоторыми составляющими фрагмента психической ситуации, отраженного в аб­заце. Поэтому, изучая проблему организации текстов из элементов разных уровней, мы должны найти способ фиксации в абзацах ре­альных текстов всех его компенентов. Возникает необходимость соз­дания исскусственного языка, который мог бы служить некоторой моделью естественного языка (ЕЯ).

Известны три основных подхода к такому моделированию. Мы остановимся только на том случае, когда моделирование ЕЯ сводит­ся к статистическому выбору из текстов наиболее употребительной лексики и грамматических правил, относящихся к узкой предметной области.

В отличие от существующих искусственных языков, основан­ных на базе ЕЯ, предлагаямая версия должна иметь средства экспли­кации различного рода повторов, опущенных частей смысла, средств связи между предложениями и абзацами и ряд других возможностей [173, с.21-29].

Вкратце остановимся на структуре и составе предлагаемого се­мантико-синтаксического языка (СЕМСИНТ). Мы будем придержи­ваться общих положений, разработанных А. В. Зубовым в книге “Проблемы порождения текста” [127; 128, с.26-38].

В нашем представлении такой искусственный язык (ИЯ) дол­жен иметь возможность описать абзац текста как некоторую семан­тико-синтаксическую единицу, учитывающую статический и дина­мический аспекты, т.е. ИЯ может строить некоторую формулу абза­ца. Если любой абзац состоит из цепочки взаимосвязанных предло­жений, то искомый язык должен содержать правила, позволяющие, учитывать семантические и синтаксические отношения между членами предложения, т.е. он должен строить семантико­синтаксическую формулу предложения. В нем также должны участвовать элементы, отражающие логико-смысловые связи между предложениями одного абзаца и между абзацами. И наконец, для описания содержания всего текста через содержание отдельных абза­цев в ИЯ должны быть средства для создания из формул абзацев не­которой формулы текста.

Следуя положениям А. В. Зубова [128, с.26-38|, мы для описа­ния содержания текста в ИЯ СЕМСИНТ также включили следующие . составляющие:

  • алфавит языка СЕМСИНТ;
  • набор элементов для записи семантических отношений между ченами предложения;
  • набор Элементов для записи синтаксических отношений меж­ду членами предложений;
  • набор элементов для фиксации логико-семантических отно­шений между предложениями одного абзаца;
  • набор элементов для связи в абзаце статической и дина­мической составляющих текста;
  • семантико-синтаксическую формулу абзаца (СЕСФА);
  • набор элементов для фиксаций связей между абзацами одно­го текста;
  • семантико-синтаксическую формулу текста (СЕСФТА).

Точка зрения о том, что предложение - это знак, имеющий план выражения (линейная цепочка имен) и план содержания (смысл), поддерживается многими учеными. Принимая эту точку зрения, следует выяснить, как смысл предложения образуется из значений входящих в него слов, с одной стороны, и как этот смысл проявляется, выражается конкретными синтаксическими схемами с другой.

Не вдаваясь в подробности этого вопроса, отметим, что наибо­лее распространена теория, трактующая процесс порождения пред­ложения от семантики к синтаксису. Одним из представителей этой теории явился Ч. Филлмор. В своих работах семантическую структу­ру предложения он называет глубинной структурой [291, 292]. Наи­более близка этому направлению теория В. Г. Гака. Глубинную структуру он определяет как лексико-синтаксическую структуру, изоморфную ситуацию и называет прямой номинацией ситуации, а поверхностную структуру - косвенной номинацией [73].

Процесс перехода от семантический структуры к синтак­сической сильно отличается в разных моделях и затрудняет их разъ­яснение, но общим для всех моделей является то, что процесс по­строения предложения начинается в них с организации его синтак­сической структуры. Одной из таких наиболее распространенных мо­делей является модель Н. Хомского [300]. Согласно этой теории, предложение проходит в процессе порождения три этапа: категори­альный, субкатегориальный и лексемный.

Анализируя приведенные подходы к проблеме организации смысла предложения, следует отметить их общие недостатки: они опираются почти полностью на автосемантичные предложения, т. е.­на предложения, имеющие смысл вне текста. Кроме этого, большин­ство рассмотренных теорий касается вопроса организации лишь простых предложений.

В нашем исследовании предложение рассматривается как неса­мостоятельная часть абзаца, которая отражает какую-то часть фермента ситуации, представленной в описании абзаца. Необходимо предположить, что за каждым словом предложения стоит некоторый предмет, факт, явление объективной действительности. Кроме того, мы не считаем, что “глагол” является основным элементом семанти­ко-синтаксической структуры предложения. В нашем случае, это опорные Слова - существительные, к которым “подбираются” уже глаголы. Они и есть основное семантико-синтаксическое содержание абзаца и каждого его предложения.

В целом; предлагаемая модель является развитием комбинатор­ного подхода, учитывающего семантический подход Ч. Филлмора в его модернизированном виде [291], теорий Ю. Д. Апресяна и В. В. Богданова [12, 43], а также синтаксических идей В. М. Солнцева [261].

Семантическая формула предложения, как считают многие ис­следователи, должна отражать семантико-синтаксические роли кон­кретных участников реальной (или вображаемой) ситуации, отобро- жаемой предложением. Такие участники ситуации в тексте задаются опорными и иными словами и именными словосочетаниями.

При анализе предложения в абзацах исследуемых текстов можно выделить семантические роли участников ситуации (или семан­тические функции), отображенной в предложении. Кроме того, для написания семантико-синтаксической формулы предложения нам необходимы специальные коды, по значениям которых узнаются со­держание каждой семантической функции, а также их синтак­сические значения в СЕМСИНТ (табл. 33). В целях увеличения точности отражения формулой элементов ситуации может о ввести условнее обозначения семантических подклассов знаменительных классов слов, конкретные значения которых даны в таблице “Семантические классы знаменительных классов слов казахского языка” (см. табл. 3 по-10). Коды, соответствующие названиям частей речи (их скрашения) и семантическим подклассам слов казахского языка, приведены в табл. 32.

Выделяемые нами роли участников ситуации будут относиться к группам слов, включающим имена существительные (именные слово­сочетания) и все относящиеся к ним определители, выраженные именами прилагательными, причастями, порядковыми числительными и местоимениями. В дальнейшем такую группу слов мы будем называть аргументной группой. В формуле предложения она должна состоять из цепочки кодов семантических подклассов определителей и существительных, соединяемых знаками (звездочка), ограниченных слева знаком < (меньше) и справа знаком > (больше).

Для обозначения места глагола-сказуемого в формуле предло­жения можно использовать какой-либо код, например R, за которым необходимо поставить цифру, указывающую семантическую валент­ность глагола. Уточнение типа глагола осуществляется путем указа­ния вслед за кодом ЕТ семантического подкласса через индексы ijk (ijk=101, 102, 103, ..., 999), которые указывают на номер семан­тического подкласса (см. табл. 4).

Заметим, что в формуле предложения наречия будут представ­ляться в виде третьего составного элемента после аргументной груп­пы и глагола, а все входящие в формулу элементы, т.е. семан­тические функции, глагол и наречия, соединяются между собой зна­ком + (плюс) в строгом соответствии с порядком следования слов в предложении.

Учитывая результаты исследования Ч. Филлмора, Ю. Ю Апресяна, В. В. Богданова, а также анализа трех разновидностей ка­захских текстов, мы выделили семантические роли (семантические функции) участников ситуации (табл. 33).

Искусственный язык, принятый на основе ЕЯ, разработанный А. В. Зубовым и названный семантико-синтаксическим языком, вполне может удовлетворять требовании, которые ставятся при формализованной записи содержания казахского текста.

По А. В. Зубову, алфавит языка СЕМСИНТ представляется в следующем виде:

  • все русские буквы алфавита (кроме ё);
  • все латинские буквы;
  • десятичные цифры: 0, 1,2, ..., 9;
  • орфографические знаки: .(точка), :(двоеточие), ?(знак вопро­са), ‘(апостроф), “,’’(кавычки), (, )(левая и правая круглые скобки), [, ](левая и правая квадратные скобки), ...(многоточие), - (черточка);
  • знаки арифметических действий: +(сложёние), /(деление), • (умножение), - (вычитание), •• (возведение в степень);
  • знаки логических действий: - (отрицание), & (конъюнкция),  (дизъюнкция), > (больше), < (меньше), = (равно).

Некоторые формальные средства связи, которые приняты нами для записи формулы предложения таковы:

  1. синтаксическая связь слов в субстантивно-субстантивных словосочетаниях в формуле-предложении обозначается знаком на­клонной черты (/);
  2. однородные члены предложения, так же. как и аргументные группы, в формуле-предложении соединяются логическим знаком & (конъюнкция);
  3. знаком I (вертикальная черта) обозначаются союзы не, неме- се, не болмаса, когда они употребляются внутри аргументной группы или соединяют две (или более) аргументные группы;

 г) знак = (равно), стоящий после слова, показывает, что слово до знака “равно” восстановлено из предыдущего контекста и при на

Практическое написание формул предложений, абзаца и кон кретного казахского текста вполне возможно, если воспользоваться материалами нашего исследования. А для их реализации на компью тере необходимы дополнительные исследования специалистов по инженерной лигвистике.

В заключение предлагаем принципиальный алгоритм (укрепненную блок-схему) перехода от естественного казахского текста к его формальному представлению, сопровождая его конкрет ным казахским предложением.

- Покажем работу принципиального алгоритма на примере.

Блок А.

Пусть вводится в память компьютера следующий .текст: "Үлкен жук тасыйтын машина кешкі сағат алтыда теміржол көпірінен өтті. Ол Алматыға азық-түлік жеткізеді”. (“Большая грузовая ма шина в шесть часов вечера переехала железнодорожный мост. Она до ставит продовольствие в Алматы”).

Блок Б.

Читаем очередное предложение: "Үлкен жук тасыйтын машина кешкі сағат алтыда теміржол көпірінен өтті. ”

БлокВ.

Заменяем все слова этого предложения лексико-грамматической и семантической информацией из автоматического словаря казахско­го языка (АСКЯ). В словаре может быть указано больше параметров, чем количество формальных признаков в замене. В этом случае усло­вимся указать только некоторые, например, принадлежность данного слова к определенному классу - существительное (ЗТ), глагол (ЕТ) и т.д., а также код семантического подкласса:

1) Рассмотрим первое слово предложения: улкен - прилагатель­ное - (СН), качественное прилагательное - (CCijk) и по семан­тической классификации (см. табл. 7) относится к “прилагательным, означающим объем предмета”, код которого “СС23”, данное слово в именительном падеже, т.е. условный код падежа - (АС) от “атау септік” таким образом, в формуле предложения слово улкен будет заменено: (СН)(АС)(СС23).

Аналогично этому слову производим замену и для остальных слов предложения;

  • жүк - существительное (ЗТ), именительный падеж (АС), на­рицательное (ЖЕ), неодушевленное (ЖЗ), семантический класс - предметы-артефакты, используемые человеком - 3'1'315 (см. табл. 3) и др.; вместо слова “жук”:

(ЗТ)(АС)(ЗТ315);

  • тасыйтын - глагол (ЕТ) в форме причастия, прошедшее вре­мя (ӨШ), по семантическому подклассу как причастие означает фи­зическое действие, свойственое живому и неживому в природе - ЕШ081 (см. табл. 5) и др., т.е. “тасыйтын” -

- (ЕТ)(ӨШ)(ЕШ081);

  • машина - существительное (ЗТ), единственное число (АС), нарицательное (ЖЕ), неодушевленное (ЖЗ), семантический подкласс 3T308; согласно табл. 3, это слово относится к подклассу: объект, используемый для рередвижения человеком; итак, слово “машина” -

(ЗТ)(АС)(ЗТЗО8);

  • кешкі - прилагательное (СН), именительный падеж (АС); се­мантический подкласс как относительного прилагательного, согласно табл. Охарактеризует объект по его отношению ко времени (ҚС031). Таким образом слово “кешкі” - (СН)(АС)(ҚС031);
  • сағат - существительное (ЗТ), именительный падеж (АС), нарицательное (ЖЕ), как существительное, означающее временное поняие по табл. 3, - (ЗТ601); само слово в кодах запишется:

(ЗТ)(АС)(ЗТ601);

  • алтыда - числительное (СА),- местный падеж (ЖС), ко­личественное (есептік сан есім) (ЕК), т е. все слово -

(СА)(ЖС)(ЕК);

- 8) теміржол - существительное (ЗТ), единственное число (АС), нарицательное (ЖЕ), по семантической классификации это слово можно отнести к подклассу наука: “понятия, связанные с устрой­ством отдельного механического объекта” и его код ЗТ117 (см. табл. 3); итак, ст >во “теміржол” - .         (ЗТ>(АС)(ЗТ117);

  • квпірінен - существительное,(ЗТ), исходный падеж (ШС), по семантике как и в предыдущем пункте - ЗТ117, а само слово:

(ЗТ)(ШС)(ЗТ117);

өтті - глагол (ЕТ), прошедшее время (ӨШ), по семан­тическому подклассу относится к глаголам со значением каузации движения, а именно к пункту: “обозначающие преодоление преграды в движении” - ЕТ941, то слово -

(ЕТ)(ӨШ)(ЕТ94І).

Теперь, заменив каждое слово в этом предложении соответ­ствующими кодами, будем иметь:

(СН)(АС)(СС23) (ЗТ)(АС)(ЗТ315) (ЕТ)(ӨШ)(ЕШ081)

(ЗТ)(АС)(ЗТЗО8) (СН)(АС)(ҚС031) (ЗТ)(АС)(ЗТ601)

(СА)(ЖС)(ЕК) (ЗТ)(АС)(ЗТ117) (ЗТ)(ШС)(ЗТ117)

(ЕТ)(ӨШ)(ЕТ941).

Принятые в этой записи наборы кодов абсолютно условные, ко­торые зависят от того, как был составлен автоматический словарь ка­захского языка (АСКЯ).

Блок Г.

Проведем сегментацию предложения на группы или на так на­зываемые аргументные группы. Рассматриваемое предложение можно разбить на следующие четыре аргументные группы:

  • үлкен жук таситын машина - именная группа;
  • кешкі сағат алтыда - обстоятельственная группа;
  • теміржол көпірінен - именная группа;
  • өтті - глагольная группа.

Блок Д.

Зная тип группы (именная, глагольная, обстоятельственная) и падежи существительных, входящих в группы и их семантические ха­рактеристики, присваеваем этим группам наименования семан­тических функций (субъект, предмет, понятия и т.д.) согласно табл. 33:

  • именная группа: “улкен жук таситын машина" - имя суще­ствительное в именительном падеже, неодушевленное; значит по значению семантической функции - “Предмет” вместе с признаками: цкен и жук тасыйтын; по данным табл. 33 код “Предмет” - АН1. Теперь запишем предмет АН1, отбирая индекс класса и семан­тический подкласс:

АНК(СН)(АС)(СС23)*(ЗТ)(АС)(ЗТ315)*(ЕТ)(ӨШ)(ЕШ081)* (ЗТ)(АС)(ЗТЗО8)> ;

  • обстоятельственная группа: “кешкі сағат алтыда”, рассмат­риваем аналогично по табл. 33 и узнаем код функции - ATM, кото­рый равен:

АТМ<(СН)(АС)(ҚС031) * (ЗТ)(АС)(ЗТ601) * (СА)(ЖС)(ЕК)>;

  • именная группа: “теміржол көпірінен” - неодушевленный объект некоторого события, который имеет код АН, тогда:

АН<(ЗТ)(АС)(ЗТ117) * (ЗТ)(ШС)(.ЗТ117)>;

Эту схему можно прочитать так: нечто (АН1) неодушевленное (3T308), имеющее признак (СС23) и с определенным предназ­начением (ЕШ081), совершает физическое действие (ЕТ941) во время ATM, связанное с некоторым объектом (АН), обладающим свойством (СН/ЗТ117).

Таким образом, можно было бы проанализировать и второе предложение, взятое для примера, и перейти от естественной его формы к формальному виду, так же, как и в случае с первым пред­ложением.

Рассмотрев вкратце работу принципиального алгоритма, перехо­да от естественного казахского текста к его формальному представлению, можно отметить, что формализация содержания абзаца и всего текста осуществляется таким же образом. Для этого необходимо вос­пользоваться основными принципами формализации содержания ка­захского текста и другими данными, имеющими в предлагаемом исследовании, а для отдельных частных случаев, возможно, понадобят­ся дополнительные исследования.


Перейти на страницу: