Меню Закрыть

Основные принципы формализации содержания казахского текста — А. К. Жубанов

Название:Основные принципы формализации содержания казахского текста
Автор:Аскар Кудайбергенулы Жубанов
Жанр:Казахское языкознание
Издательство:9965-13-426-Х
Год:2002
ISBN:9965-13-426-Х
Язык книги:Русский
VK
Facebook
Telegram
WhatsApp
OK
Twitter

Перейти на страницу:

Страница - 26


Заключение

Поиски новых способов представления значения, смысла и со­держания текстовых единиц в памяти лингвистических автоматов идут в самых разных направлениях [3, 191, 203, 228, 234].

Одно из них связано с последними достижениями науки о лингвистике текста, а именно с тем, что основной единицей письменной коммуникации является не предложение, а текст.

В этой связи, процессуальный, динамический подход к изучению языка, подход через изучение процессов, лежащих в основе порождения и понимания высказываний, позволит выявить ту роль, которую играют при формировании содержания текста линг­вистические и энциклопедические, детерминированные правила и случайные факторы, языковые и логические структуры мышления [117, с.256; 154, с.51).

Ссылаясь на точки зрения лингвистов, психолингвистов и дру­гих специалистов на структуру текста, а именно на его составляющие, связь текста с языком, мыслью к реальной действительностью, можно выделить характерные черты текста, такие как наличие в нем единого содержания, определенных его единиц. Эти единицы текста связаны между собой как семантически, грамматически, так и ло- гически. Причем, замечается неоднозначность таких связей между основными единицами данного текста.

Содержание текста следует понимать как отражение в сознании человека отношения линейной цепочки имен текста к трансформи­рованной автором, в соответствии с замыслом, целями и условиями коммуникации, психической ситуации. Причем, релевантными для организации содержания текста являются две группы абзацев, выде­ленные по функционально-смысловому критерию и месту в структу­ре текста (начальные, медиальные и конечные).

Проанализировав высказывания ученых разных направлений и специальностей с роли вероятности в общей теории познания, про­цессах функционирования языка и организации различных текстов, мы можем сделать следующие выводы:

  • все связи в реальном мире носят объективный характер, что проявляется в массе однородных явлений;
  • язык, являясь саморегулирующей системой, при порождении речи функционирует, используя как детерминированные правила, так и случайные факторы;
  • текст как результат речевой деятельности также содержит де­терминированные и вероятностные составляющие;
  • абзацы как “кванты” содержания и “застывшие” синтак­сические шаблоны организуются в единое целое по вероятностно­алгоритмическому принципу.

Анализ конкретного материала, содержащего 102 минитекста в трех жанровых разновидностях позволил нам предложить формаль­ный критерий - коэффициент важности , позволяющий отде­лить опорные слова казахского текста от остальных его слов. При этом удалось дифференцировать К важ на два критерия - К1 важ и К2 важ позволяющие выделить главные и второстепенною опорные слова в трех функционально-смысловых типах казахского текста. Следует от­метить, что значения коэффициентов этого критерия отличаются от соответствующих коэффициентов критерия важности, использован­ных для определения опорных слов в русскоязычных текстах (128, с.18-19].

Выделенные по указанному критерию опорные слова казахского текста (ГОС, ВОС), сыграли определенную роль в разработке по­строения “Таблицы основного статического содержания” в рассмат­риваемых нами 102 минитекстах.

Таким образом, подход к абзацу как к минимальной семантико­синтаксической единице текста позволил нам выделить в трех ис­следованных текстах определенные типы абзацев по их функцио­нально-смысловому содержанию, структурному положению в тексте (начальный, медиальный, конечный), а также по предметно­логическому содержанию.. Выделенные типы во всех указанных раз­новидностях текстов исследованы статистически.

Приступая к построению алгоритма порождения текста, разумно проявить некоторую осторожность и принять ряд ограничений |118, с. 14]. Одним из таких ограничений исследования является выбор текстов конкретных авторов, представляющих три различных функ­ционально-смысловых типа речи: рассуждение, повествование и опи­сание. Следующее допущение, принятое нами, заключается в том, что тексты одного и того же автора могут быть представлены в виде ограниченного кванта содержания, в качестве которого мы приняли предметно-логическое содержание абзаца как основной единицы письменного текста. Анализ, с этой точки зрения, трех нами рас­смотренных функционально.-смысловых типов позволил выявить в них ограниченное число абзацев, из комбинации которых построены исследуемые тексты. Таким образом, установлено количество общих типов абзацев для всех исследованных текстов. В эту монографию не вошли данные, полученные на основе изучения вероятностей следо­вания абзацев, которые также необходимы для составления алгорит­мов порождения казахских текстов. На наш взгляд, такой вопрос требует особого рассмотрения для тюркоязычных текстов.

Важным моментом нашего исследования явилась семантическая [классификация знаменательных классов слов казахского языка (см. табл. 3-10) и их кодификация, которая позволяет передавать некото- рую жизненную ситуацию, описываемую в тексте.

Говоря об алгоритмах и программах порождения текста, нельзя не упомянуть известного ученого К. Шеннона, так как с его исследо­ваниями связан алгоритм порождения цепочек слов, в котором учитываются вероятности употребления отдельных букв, пар букв, троек, четверок букв и т.д.- [312]. Он показал, что чем на большую длину буквенных последовательностей учитывались связи, тем более [осмысленными получались слова.

Достаточно большое число алгоритмов и программ было разра­ботано исследователями для подтверждения тех или иных синтак­сических и семантических моделей предложений. Но в них нет еди­ного замысла, нет смысловых опорных точек, отсутствуют строгие смысловые критерии отбора синтаксических и лексических единиц [128].

Следует отметить, что формального построения правильных и осмысленных предложений можно достичь только при комбинирова­нии детерминированных и случайных процессов порождения текста [129, с.182].

Интересны эксперименты, проведенные по составлению алго­ритмов сочинения различных сказок на ЭВМ [72]. В основе всех по­пыток сочинения сказок формализованным путем лежат исследова­ния структуры сказок, проведенные В. Проппом [238]. В частности, в одном из алгоритмов порождения сказки в качестве исходной ин­формации приняты следующие данные: перечень типов действующих лиц, перечень типовых характеристик персонажей, список возмож­ных поступков каждого действующего лица, список возможных типов встреч и т. д. В итоге получается некоторая общая формула сказки [72, с.223]. Для более ясного представления об этом запишем не­большой отрывок из казахской сказки “Әділ жаза” (“Справедливое наказание’’) [165, с.73-79], основываясь на принципах этой формулы: "Ерте-ерте ертеде, ешкі кұйрығы келтеде, бір “А ” болыпты. “А ”-нын }’«< баласы бар екен. Ен үлкенінің аты - “Б”, ортаншысының аты - “В”, ал кенже баласынын аты - “С”екен. “С"ате <а>, <В>, әрі <ү>, <р> бала болып өседі. “А” уйыктап жатып <d> кареді, <d>-da бір ғажайып <е> көреді. <е> күлсе, аузынан буда-буда <g> түседі, жы.іа- са, козінен <z> пгүседі. Міне, “А” осы <е>-ге ынтық болады. Дереу ор- нынан түрькымен “Б” мен “B’’-ны шақырып алып көрген <d> -ны ай- тып береді... ”.

Участвующие в сказке условно принятые обозначения на самом деле означают: “А” - патша (царь), “Б” - Асан (имя старшего сына), “В” - Үсен (имя среднего сына), “С” - Хасан (имя младшего сына) <а> - сүлу (красивый), </?> - ақылды (умный), <у> - батыр (смелый), <р> - ак көңілді (веселый), <d> - түс (сон царя), <е> - кр (волшебная птица), <g> - гул (цветы), <z> - мониіак-мдншақ маржаі (бусы из драгоценных камней) и т. д.

Теперь А, Б, В, С и <а, р, у, р, d, е, g, z> и т. д., заменив дру­гими действующими лицами вместе с их характеристиками, поступ­ками и т. д., можно получить сколько угодно вариантов казахских сказок, созданных по этой формуле.

Стоит заметить, что общение с компьютером (ЭВМ) на есте­ственном языке еще далеко от совершенства. В искусственных язы­ках, понятных для машин, множество элементов формируется отно­шением эквивалентности, в естественном же языке, например казах­ском, такое объединение единиц проводится на основе толерант­ности или сходства.

Известно также, что основная особенность языковых множеств - наличие в нем нечетких, размытых границ, причиной которых яв­ляется несовпадение структур естественного и искусственных языков. Такое несовпадение Р. Г. Пиотровский [228] считал следствием из­вестных антиномий языка и речи, дискретности и непрерывности, синхронии и диахронии, языка и диалекта, предложенных еще Ф. де Соссюром [260].

Как мы полагаем, в использовании современной компьютерной техники в Республике Казахстан значительная роль должна отводить­ся созданию лингвистических процессоров, основанных на примене­нии знаний, заложенных на естественном казахском языке. Благода­ря этому, современные компьютеры не просто будут осуществлять накопление и поиск информации на национальном языке, но и будут понимать смысл запроса, а также выдавать результаты в виде текста и речи на казахском языке. Однако, создание таких лингвистических процессоров будет опираться на ограниченные языки определенных предметных областей (подъязыки).

Известно, что в каждом языке выделяются функциональные стили или “подъязыки”, которые обладают, по сравнению с языком в целом, ограниченным количеством лингвистических единиц и опре­деленной спецификой их употребления. Выбирая наиболее частые и информационно насыщенные единицы языка, а также типовые кон­тексты их употребления, мы можем построить такую модель языка (базовый язык), которая будет являться некоторым приближением к реальной системе подъязыка, порождающей тексты узкой тематики [231, с.21-23].

Особую ценность в республике в настоящее время представляет так называемая “деловая проза”, написанная на казахском языке, а также армейские документы (“военная деловая проза”) и националь­ный военный лексикон, который только начинает зарождаться в ар­мейской жизни.

Таким образом, научные исследования в этом направлении, т.е. анализ и синтез текстов указанных документов, являются неотлож­ной задачей ученых-казаховедов и специалистов по инженерной лингвистике.

Дальнейшее изучение проблемы порождения казахского текста требует более глубокого рассмотрения всех вопросов, касающихся семантико-синтаксических формул предложения, абзаца и текста в целом. И, конечно же, необходим практический анализ больших объ­емов текстов самых различных типов с помощью предложенного ис­кусственного языка СЕМСИНТ для. выявления и написания раз­личных семантико-синтаксических формул этих текстов.

ПРИЛОЖЕНИЯ

Фрагмент 6

В пятой главе книги на основе осмысления содержании и анализа статистических данных следующих минитскстов были составлены: 1) XUD-03: табл. 26 — фрагмент потенциального алфавитно-частотного распределительного словаря, табл. 28 таблица основного статического содержания (ТОСС); 2) PUB-06 табл. 29 — таблица основного статического содержания; 3) NAU-15 табл. 30 таблица основного статического содержания.

Ниже приводим эти минитексты, относящиеся к трем функционально-смысловым типам как повествование, описание и рассуждение:

XUD-03:

Сейсенбаев ояздык аткару комитетінін нүскауіиысы еді. Ояздық атқару комитеттен Борлыкөл елінің болыстык атқару комитетінің бір шатақ жүмыстарына барған. Қайтып келе жатып, Шиелі поселкесінін ар жағында 10—15 іиақырымдай жердегі, бүрын би болған, белгілі, ақсак Ақан дегендікіне қоныпты. Іңірде ас пісіп, Сейсенбаев, ақсак Ақан және үш-төрт ауыл кісілері табақты жаба алдарына алып, еттiң буын бұркыратып турай бергенде, үйге сол ауданда жүрген белгілі банды Кудря кіріп келіпті. Кудря жұрттың айтуынша жэне істеп жүргендеріне карағанда, өзі балуан, жасаулы мылтыктан тайсалу дегенді білмейтін, талайларды өлтірген. Міне, сол Кудря қасында ешкім жок, алтыатарын қолына үстап, үйге кіріп келіп тура калыпты:

— Кәне, мынау отырған исполкомның нүскаушысы болса, тысқа шыксын! — депті.

Сейсенбаев жылап коя беріп, ақсақ Аканның артына тығылып, күшактап жалыныпты. Сол жерде аксак Акан араға түсіп, Кудрины тоқтатып, Сейсенбаевты аман алып калыпты. Сейсенбаевка білдірмей, біреу политбюроҒа мүны қүпиялап баяндапты...

Міне, енді, Кудряның ізін, кімдермен байланыс қылатынын астыріпын жансыз жүріп біліп, үспгауға әрекет қылуға политбюро Хймитті жүмсап отыр. Кудряның шарлап жүрген ізінің үиіығын казак арасынан оцайырак табуға мүмкін ғой деп ойласып, Хамиттін баруын макүлдады.

Хамит кешікпей керек-жарак саймандарының бэрін түгелддеп алып, бес орыс жолдаспен жүріп кетті.

Акмо. іға баратын үлкен жолмен жүріп келіп, Шиелі поселкесіне таянғанда Хамит жолдастарымен жүріс-түрыстын, байланысып, хабарласып отырудың жобасын эбден акылдасып, жасасып алып, жолдастарын қоя беріп, өзі бұрылып казак аулына кетті.

Хамит — үзынша бойлы, жауырынды, тіп-тік, сүр жігіт. Қырша мүрынды, шүціректеу кара кер тобылғы квзді, кыркып жүретін сакалы, мүрты бар. Жасы 25-26 шамасында. Сом, сүлу денесі ылғи сіңірмен шиырылған күіиті 'көк ет еді. Бар денесі серіппелі көк темірден күйып жасағандай. Түйіліп жазылған киғаштау касы мен шұнғылдау квзі Хамитте зор кайрат, үлкен кайсарлык бар екеніц көрсетеді. Бет-аузы бүркіттің бетіндей. Қыран бүркіттің түрпілі


Перейти на страницу: