Основные принципы формализации содержания казахского текста — А. К. Жубанов — Страница 25

Нажмите ESC, чтобы закрыть

Поделиться
VK Telegram WhatsApp Facebook
Ещё
Одноклассники X / Twitter Email
Онлайн-чтение

Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название
Основные принципы формализации содержания казахского текста
Автор
А. К. Жубанов
Жанр
Казахское языкознание
Издательство
9965-13-426-Х
Год
2002
ISBN
9965-13-426-Х
Язык книги
Русский
Страница 25 из 26 96% прочитано
Содержание книги
  1. Предисловие
  2. 1.1. Язык, речь. Основные функции и единицы
  3. Текст как основной объект современной лингвистики
  4. Текст и его единицы как знаки
  5. 1.4. Предложение как речевой знак
  6. 1.5. Сверхфразовое единство и абзац как знаки
  7. 1.6. Текст как знак
  8. 2.1. Индивидуальный словарь носителя языка и его роль в восприятии и понимании текста
  9. 2.2. Лексико-морфологическая характеристика компьютерного словаря казахского языка
  10. 2.3. Автоматический словарь казахского языка(АСКЯ)
  11. 2.3.1. Формальное описание словарной статьи
  12. 2.3.3. Структура автоматического словаря казахского языка
  13. 2.4. Синтез казахских словоформ-существительных для АСКЯ
  14. 2.5. Об алгоритме программы - синтез Именных словоформ казахского языка
  15. 2.6. Синтез казахских глагольных словоформ для АСКЯ
  16. 3.1. Принципы семантической классификации лексики казахского языка
  17. 3.2. Семантическая классификация имен существительных (зат есім)
  18. 3.3. Семантическая классификация глаголов казахского языка (етістік)
  19. 3.3.1. Знаковое значение глагольных лексем
  20. 3.3.2. Тематические и лексико-семантические классы казахских глаголов
  21. 3.4. Семантические классы причастий (есімше) и деепричастий (көсемше) казахского языка
  22. 3.5. Семантические классы прилагательных (сын есім) казахского языка
  23. 3.6. Семантическая классификация наречий (үстеу)
  24. 3.7. Семантическая классификация местоимении (есімдік)
  25. 4.1. Роль и специфика абзацев в общей структуре текста
  26. 4.2. Сверхфразовая стереотипичность и абзац
  27. 4.3. Функционально-смысловая классификация казахского текста
  28. 4.4. Классификация абзацев казахского текста по их предметно-логическому содержанию
  29. 4.5. Особенности абзацев научно-популярного текста по их предметно-логическому содержанию
  30. 4.6. Особенности абзацев публицистического текста по их предметно-логическому содержанию
  31. 4.7. Особенности абзацев художественного текста по их предметно-логическому содержанию
  32. 5.1. Статика и динамика содержания текста
  33. 5.2. Способы выделения опорных и ключевых слов текста
  34. 5.3. Способ выделения опорных слов казахского текста
  35. 5.4. Выделение опорных слов в трех анализируемых типах текстов
  36. 5.5. Построение таблицы основного статического содержания текста
  37. 5.6. Средства связи в предложении, между предложениями в абзаце и между абзацами
  38. 5.7. О семантико-синтаксическом языке для записи формул предложения, абзаца и текста
  39. Заключение
  40. ПРИЛОЖЕНИЯ
Страница 25 из 26

5.7. О семантико-синтаксическом языке для записи формул предложения, абзаца и текста

Абзац — это некоторый синтаксический шаблон, фиксирующий логику мысли автора при выражении отношений между некоторыми составляющими фрагмента психической ситуации, отраженного в аб­заце. Поэтому, изучая проблему организации текстов из элементов разных уровней, мы должны найти способ фиксации в абзацах ре­альных текстов всех его компенентов. Возникает необходимость соз­дания исскусственного языка, который мог бы служить некоторой моделью естественного языка (ЕЯ).

Известны три основных подхода к такому моделированию. Мы остановимся только на том случае, когда моделирование ЕЯ сводит­ся к статистическому выбору из текстов наиболее употребительной лексики и грамматических правил, относящихся к узкой предметной области.

В отличие от существующих искусственных языков, основан­ных на базе ЕЯ, предлагаямая версия должна иметь средства экспли­кации различного рода повторов, опущенных частей смысла, средств связи между предложениями и абзацами и ряд других возможностей [173, с.21-29].

Вкратце остановимся на структуре и составе предлагаемого се­мантико-синтаксического языка (СЕМСИНТ). Мы будем придержи­ваться общих положений, разработанных А. В. Зубовым в книге “Проблемы порождения текста” [127; 128, с.26-38].

В нашем представлении такой искусственный язык (ИЯ) дол­жен иметь возможность описать абзац текста как некоторую семан­тико-синтаксическую единицу, учитывающую статический и дина­мический аспекты, т.е. ИЯ может строить некоторую формулу абза­ца. Если любой абзац состоит из цепочки взаимосвязанных предло­жений, то искомый язык должен содержать правила, позволяющие, учитывать семантические и синтаксические отношения между членами предложения, т.е. он должен строить семантико­синтаксическую формулу предложения. В нем также должны участвовать элементы, отражающие логико-смысловые связи между предложениями одного абзаца и между абзацами. И наконец, для описания содержания всего текста через содержание отдельных абза­цев в ИЯ должны быть средства для создания из формул абзацев не­которой формулы текста.

Следуя положениям А. В. Зубова [128, с.26-38|, мы для описа­ния содержания текста в ИЯ СЕМСИНТ также включили следующие . составляющие:

  • алфавит языка СЕМСИНТ;
  • набор элементов для записи семантических отношений между ченами предложения;
  • набор Элементов для записи синтаксических отношений меж­ду членами предложений;
  • набор элементов для фиксации логико-семантических отно­шений между предложениями одного абзаца;
  • набор элементов для связи в абзаце статической и дина­мической составляющих текста;
  • семантико-синтаксическую формулу абзаца (СЕСФА);
  • набор элементов для фиксаций связей между абзацами одно­го текста;
  • семантико-синтаксическую формулу текста (СЕСФТА).

Точка зрения о том, что предложение — это знак, имеющий план выражения (линейная цепочка имен) и план содержания (смысл), поддерживается многими учеными. Принимая эту точку зрения, следует выяснить, как смысл предложения образуется из значений входящих в него слов, с одной стороны, и как этот смысл проявляется, выражается конкретными синтаксическими схемами с другой.

Не вдаваясь в подробности этого вопроса, отметим, что наибо­лее распространена теория, трактующая процесс порождения пред­ложения от семантики к синтаксису. Одним из представителей этой теории явился Ч. Филлмор. В своих работах семантическую структу­ру предложения он называет глубинной структурой [291, 292]. Наи­более близка этому направлению теория В. Г. Гака. Глубинную структуру он определяет как лексико-синтаксическую структуру, изоморфную ситуацию и называет прямой номинацией ситуации, а поверхностную структуру — косвенной номинацией [73].

Процесс перехода от семантический структуры к синтак­сической сильно отличается в разных моделях и затрудняет их разъ­яснение, но общим для всех моделей является то, что процесс по­строения предложения начинается в них с организации его синтак­сической структуры. Одной из таких наиболее распространенных мо­делей является модель Н. Хомского [300]. Согласно этой теории, предложение проходит в процессе порождения три этапа: категори­альный, субкатегориальный и лексемный.

Анализируя приведенные подходы к проблеме организации смысла предложения, следует отметить их общие недостатки: они опираются почти полностью на автосемантичные предложения, т. е.­на предложения, имеющие смысл вне текста. Кроме этого, большин­ство рассмотренных теорий касается вопроса организации лишь простых предложений.

В нашем исследовании предложение рассматривается как неса­мостоятельная часть абзаца, которая отражает какую-то часть фермента ситуации, представленной в описании абзаца. Необходимо предположить, что за каждым словом предложения стоит некоторый предмет, факт, явление объективной действительности. Кроме того, мы не считаем, что “глагол” является основным элементом семанти­ко-синтаксической структуры предложения. В нашем случае, это опорные Слова — существительные, к которым “подбираются” уже глаголы. Они и есть основное семантико-синтаксическое содержание абзаца и каждого его предложения.

В целом; предлагаемая модель является развитием комбинатор­ного подхода, учитывающего семантический подход Ч. Филлмора в его модернизированном виде [291], теорий Ю. Д. Апресяна и В. В. Богданова [12, 43], а также синтаксических идей В. М. Солнцева [261].

Семантическая формула предложения, как считают многие ис­следователи, должна отражать семантико-синтаксические роли кон­кретных участников реальной (или вображаемой) ситуации, отобро- жаемой предложением. Такие участники ситуации в тексте задаются опорными и иными словами и именными словосочетаниями.

При анализе предложения в абзацах исследуемых текстов можно выделить семантические роли участников ситуации (или семан­тические функции), отображенной в предложении. Кроме того, для написания семантико-синтаксической формулы предложения нам необходимы специальные коды, по значениям которых узнаются со­держание каждой семантической функции, а также их синтак­сические значения в СЕМСИНТ (табл. 33). В целях увеличения точности отражения формулой элементов ситуации может о ввести условнее обозначения семантических подклассов знаменительных классов слов, конкретные значения которых даны в таблице “Семантические классы знаменительных классов слов казахского языка” (см. табл. 3 по-10). Коды, соответствующие названиям частей речи (их скрашения) и семантическим подклассам слов казахского языка, приведены в табл. 32.

Выделяемые нами роли участников ситуации будут относиться к группам слов, включающим имена существительные (именные слово­сочетания) и все относящиеся к ним определители, выраженные именами прилагательными, причастями, порядковыми числительными и местоимениями. В дальнейшем такую группу слов мы будем называть аргументной группой. В формуле предложения она должна состоять из цепочки кодов семантических подклассов определителей и существительных, соединяемых знаками (звездочка), ограниченных слева знаком < (меньше) и справа знаком > (больше).

Для обозначения места глагола-сказуемого в формуле предло­жения можно использовать какой-либо код, например R, за которым необходимо поставить цифру, указывающую семантическую валент­ность глагола. Уточнение типа глагола осуществляется путем указа­ния вслед за кодом ЕТ семантического подкласса через индексы ijk (ijk=101, 102, 103, …, 999), которые указывают на номер семан­тического подкласса (см. табл. 4).

Заметим, что в формуле предложения наречия будут представ­ляться в виде третьего составного элемента после аргументной груп­пы и глагола, а все входящие в формулу элементы, т.е. семан­тические функции, глагол и наречия, соединяются между собой зна­ком + (плюс) в строгом соответствии с порядком следования слов в предложении.

Учитывая результаты исследования Ч. Филлмора, Ю. Ю Апресяна, В. В. Богданова, а также анализа трех разновидностей ка­захских текстов, мы выделили семантические роли (семантические функции) участников ситуации (табл. 33).

Искусственный язык, принятый на основе ЕЯ, разработанный А. В. Зубовым и названный семантико-синтаксическим языком, вполне может удовлетворять требовании, которые ставятся при формализованной записи содержания казахского текста.

По А. В. Зубову, алфавит языка СЕМСИНТ представляется в следующем виде:

  • все русские буквы алфавита (кроме ё);
  • все латинские буквы;
  • десятичные цифры: 0, 1,2, …, 9;
  • орфографические знаки: .(точка), :(двоеточие), ?(знак вопро­са), ‘(апостроф), “,’’(кавычки), (, )(левая и правая круглые скобки), [, ](левая и правая квадратные скобки), …(многоточие), — (черточка);
  • знаки арифметических действий: +(сложёние), /(деление), • (умножение), — (вычитание), •• (возведение в степень);
  • знаки логических действий: — (отрицание), & (конъюнкция),  (дизъюнкция), > (больше), < (меньше), = (равно).

Некоторые формальные средства связи, которые приняты нами для записи формулы предложения таковы:

  1. синтаксическая связь слов в субстантивно-субстантивных словосочетаниях в формуле-предложении обозначается знаком на­клонной черты (/);
  2. однородные члены предложения, так же. как и аргументные группы, в формуле-предложении соединяются логическим знаком & (конъюнкция);
  3. знаком I (вертикальная черта) обозначаются союзы не, неме- се, не болмаса, когда они употребляются внутри аргументной группы или соединяют две (или более) аргументные группы;

 г) знак = (равно), стоящий после слова, показывает, что слово до знака “равно” восстановлено из предыдущего контекста и при на

Практическое написание формул предложений, абзаца и кон кретного казахского текста вполне возможно, если воспользоваться материалами нашего исследования. А для их реализации на компью тере необходимы дополнительные исследования специалистов по инженерной лигвистике.

В заключение предлагаем принципиальный алгоритм (укрепненную блок-схему) перехода от естественного казахского текста к его формальному представлению, сопровождая его конкрет ным казахским предложением.

— Покажем работу принципиального алгоритма на примере.

Блок А.

Пусть вводится в память компьютера следующий .текст: «Үлкен жук тасыйтын машина кешкі сағат алтыда теміржол көпірінен өтті. Ол Алматыға азық-түлік жеткізеді”. (“Большая грузовая ма шина в шесть часов вечера переехала железнодорожный мост. Она до ставит продовольствие в Алматы”).

Блок Б.

Читаем очередное предложение: «Үлкен жук тасыйтын машина кешкі сағат алтыда теміржол көпірінен өтті. ”

БлокВ.

Заменяем все слова этого предложения лексико-грамматической и семантической информацией из автоматического словаря казахско­го языка (АСКЯ). В словаре может быть указано больше параметров, чем количество формальных признаков в замене. В этом случае усло­вимся указать только некоторые, например, принадлежность данного слова к определенному классу — существительное (ЗТ), глагол (ЕТ) и т.д., а также код семантического подкласса:

1) Рассмотрим первое слово предложения: улкен — прилагатель­ное — (СН), качественное прилагательное — (CCijk) и по семан­тической классификации (см. табл. 7) относится к “прилагательным, означающим объем предмета”, код которого “СС23”, данное слово в именительном падеже, т.е. условный код падежа — (АС) от “атау септік” таким образом, в формуле предложения слово улкен будет заменено: (СН)(АС)(СС23).

Аналогично этому слову производим замену и для остальных слов предложения;

  • жүк — существительное (ЗТ), именительный падеж (АС), на­рицательное (ЖЕ), неодушевленное (ЖЗ), семантический класс — предметы-артефакты, используемые человеком — 3’1’315 (см. табл. 3) и др.; вместо слова “жук”:

(ЗТ)(АС)(ЗТ315);

  • тасыйтын — глагол (ЕТ) в форме причастия, прошедшее вре­мя (ӨШ), по семантическому подклассу как причастие означает фи­зическое действие, свойственое живому и неживому в природе — ЕШ081 (см. табл. 5) и др., т.е. “тасыйтын” —

— (ЕТ)(ӨШ)(ЕШ081);

  • машина — существительное (ЗТ), единственное число (АС), нарицательное (ЖЕ), неодушевленное (ЖЗ), семантический подкласс 3T308; согласно табл. 3, это слово относится к подклассу: объект, используемый для рередвижения человеком; итак, слово “машина” —

(ЗТ)(АС)(ЗТЗО8);

  • кешкі — прилагательное (СН), именительный падеж (АС); се­мантический подкласс как относительного прилагательного, согласно табл. Охарактеризует объект по его отношению ко времени (ҚС031). Таким образом слово “кешкі” — (СН)(АС)(ҚС031);
  • сағат — существительное (ЗТ), именительный падеж (АС), нарицательное (ЖЕ), как существительное, означающее временное поняие по табл. 3, — (ЗТ601); само слово в кодах запишется:

(ЗТ)(АС)(ЗТ601);

  • алтыда — числительное (СА),- местный падеж (ЖС), ко­личественное (есептік сан есім) (ЕК), т е. все слово —

(СА)(ЖС)(ЕК);

— 8) теміржол существительное (ЗТ), единственное число (АС), нарицательное (ЖЕ), по семантической классификации это слово можно отнести к подклассу наука: “понятия, связанные с устрой­ством отдельного механического объекта” и его код ЗТ117 (см. табл. 3); итак, ст >во “теміржол” .         (ЗТ>(АС)(ЗТ117);

  • квпірінен — существительное,(ЗТ), исходный падеж (ШС), по семантике как и в предыдущем пункте — ЗТ117, а само слово:

(ЗТ)(ШС)(ЗТ117);

өтті глагол (ЕТ), прошедшее время (ӨШ), по семан­тическому подклассу относится к глаголам со значением каузации движения, а именно к пункту: “обозначающие преодоление преграды в движении” — ЕТ941, то слово —

(ЕТ)(ӨШ)(ЕТ94І).

Теперь, заменив каждое слово в этом предложении соответ­ствующими кодами, будем иметь:

(СН)(АС)(СС23) (ЗТ)(АС)(ЗТ315) (ЕТ)(ӨШ)(ЕШ081)

(ЗТ)(АС)(ЗТЗО8) (СН)(АС)(ҚС031) (ЗТ)(АС)(ЗТ601)

(СА)(ЖС)(ЕК) (ЗТ)(АС)(ЗТ117) (ЗТ)(ШС)(ЗТ117)

(ЕТ)(ӨШ)(ЕТ941).

Принятые в этой записи наборы кодов абсолютно условные, ко­торые зависят от того, как был составлен автоматический словарь ка­захского языка (АСКЯ).

Блок Г.

Проведем сегментацию предложения на группы или на так на­зываемые аргументные группы. Рассматриваемое предложение можно разбить на следующие четыре аргументные группы:

  • үлкен жук таситын машина — именная группа;
  • кешкі сағат алтыда — обстоятельственная группа;
  • теміржол көпірінен именная группа;
  • өтті — глагольная группа.

Блок Д.

Зная тип группы (именная, глагольная, обстоятельственная) и падежи существительных, входящих в группы и их семантические ха­рактеристики, присваеваем этим группам наименования семан­тических функций (субъект, предмет, понятия и т.д.) согласно табл. 33:

  • именная группа: “улкен жук таситын машина» — имя суще­ствительное в именительном падеже, неодушевленное; значит по значению семантической функции — “Предмет” вместе с признаками: цкен и жук тасыйтын; по данным табл. 33 код “Предмет” — АН1. Теперь запишем предмет АН1, отбирая индекс класса и семан­тический подкласс:

АНК(СН)(АС)(СС23)*(ЗТ)(АС)(ЗТ315)*(ЕТ)(ӨШ)(ЕШ081)* (ЗТ)(АС)(ЗТЗО8)> ;

  • обстоятельственная группа: “кешкі сағат алтыда”, рассмат­риваем аналогично по табл. 33 и узнаем код функции — ATM, кото­рый равен:

АТМ<(СН)(АС)(ҚС031) * (ЗТ)(АС)(ЗТ601) * (СА)(ЖС)(ЕК)>;

  • именная группа: “теміржол көпірінен” — неодушевленный объект некоторого события, который имеет код АН, тогда:

АН<(ЗТ)(АС)(ЗТ117) * (ЗТ)(ШС)(.ЗТ117)>;

Эту схему можно прочитать так: нечто (АН1) неодушевленное (3T308), имеющее признак (СС23) и с определенным предназ­начением (ЕШ081), совершает физическое действие (ЕТ941) во время ATM, связанное с некоторым объектом (АН), обладающим свойством (СН/ЗТ117).

Таким образом, можно было бы проанализировать и второе предложение, взятое для примера, и перейти от естественной его формы к формальному виду, так же, как и в случае с первым пред­ложением.

Рассмотрев вкратце работу принципиального алгоритма, перехо­да от естественного казахского текста к его формальному представлению, можно отметить, что формализация содержания абзаца и всего текста осуществляется таким же образом. Для этого необходимо вос­пользоваться основными принципами формализации содержания ка­захского текста и другими данными, имеющими в предлагаемом исследовании, а для отдельных частных случаев, возможно, понадобят­ся дополнительные исследования.