Основные принципы формализации содержания казахского текста — А. К. Жубанов
Название: | Основные принципы формализации содержания казахского текста |
Автор: | Аскар Кудайбергенулы Жубанов |
Жанр: | Казахское языкознание |
Издательство: | 9965-13-426-Х |
Год: | 2002 |
ISBN: | 9965-13-426-Х |
Язык книги: | Русский |
Страница - 9
2.2. Лексико-морфологическая характеристика компьютерного словаря казахского языка
Для того чтобы построить лингвистическую модель, которая да ла бы возможность порождать тексты заранее заданного содержания необходимо выявить такие статические и динамические составляю щие, из которых состоят тексты рассматриваемых типов. Можно по лагать, что существуют определенные правила развертывания текст из заранее заданного содержания в виде последовательности некото рых предложений. Как мы уже отмечали ранее, особенность порож дения текстов заключается в определенном соотношении детермини рованных и вероятностных правил, действующих в данном процессе. По этой причине в лингвистической модели порождения текста должны быть учтены лингвистические единицы, специфичные для различных типов текстов. Для выявления таких правил и единиц со держания были рассмотрены три типа казахских текстов: художественный, публицистический и научно-популярный.
На первом (предкомпьютерном) этапе в указанных текстах и каждой словоформе нами были проставлены индексы, обозначающих класс слов казахского языка. Далее каждая словоформа текста была прербразована в лексему путем отделения аффиксов от слова (лемматизация). На следующем этапе экспериментальные тексты бы ли введены в память компьютера с указанием номеров страниц для книжных текстов и номеров выпуска для газетных статей. Дополнительно были указаны порядковые номера абзацев для каждого текста
Далее следовал этап компьютерной обработки текстов с по мощью специально составленных программ на языке ТУРБА- ПАСКАЛЬ. В процессе такой обработки были получены:
Алфавитно-частотный словарь-словоуказатель для каждого типа текстов.
В словаре указаны порядковый номер лексемы (колонка 1); Ғ1- абсолютная частота лексемы в исследуемом тексте (2); Ғ2 - количество текстов, в которых встретилась данная лексема (3); лексема с соответствущим индексом, указывающем на класс слова (4); Пij-kl где П - тип признак текста (П - публицистический текст, X - худо жественный текст, Н - научно-популярный текст), а индексы (ij-kl)
a) ij - порядковый номер текста; б) kl - порядковый номер абзаца, в которых встретилась лексема (5).
- Алфавитно-частотный словарь лексем в целом по каждому стилю с указанием абсолютной частоты слова и количества текстов данного стиля. .
- Алфавитно-частотный словарь для отдельно взятого номера текстов (ij) для каждого типа текстов (П - признак типа текстов).
- Частотно-алфавитный словарь по отдельно рассматриваемым типам текстов (для каждого стиля). В этом словаре лексемы расположены по порядку убывания их абсолютных частот. 'Кроме этого, в словаре даются накопленная абсолютная и относительные частоты для каждой лексемы.
- Обратный алфавитно-частотный словарь для каждого стиля. В словаре лексемы расположены строго по алфавиту, начиная с конечных букв в слове. Здесь также указываются абсолютная частота (F1), ее абсолютная накопленная (f2) и относительная накопленная (f3) частоты лексемы. .
Фрагменты этих словарей представлены в “Приложении”.
На следующем этапе эти словари были исследованы с точки зрения употребительности в них различных классов слов. Результаты исследования по рассматриваемым трем стилям показаны в таблице 2. В ней также приводятся данные по совокупности всех трех типов текстов.
Рассмотрим подробнее статистические данные по трем стилям казахского языка и единому словарю, который получен в результате слияния текстов трех рассматриваемых стилей. Данные табл. 2 подтверждают известные теории о специфичности стилей казахского языка. Так, существительные в публицистике и научно-популяной литературе употребляются гораздо чаще, чем в художественной литературе. Относительно глагольных слов казахского языка можно отметить обратное, т.е. глаголы здесь употребляются на 13-14% чаще, чем в текстах двух других стилей.
Эти факты вполне объяснимы: в художественных текстах вдет некоторое повествование, развитие действий, выражаемых глаголами. Для текстов научных и публицистических характерны рассуждение, объяснение, которые чаще выражаются существительными. Однако, необходимость напоминания о небольшом числе главных действующих лиц в художественном тексте приводит к возрастанию в них числа имен собственных и местоимений.
Прилагательные - основные единицы языка, которые помогаю активно рассуждать и объяснять. Поэтому их число в текстах научно популярных и публицистических больше, чем в текстах художествен ных.
Для классов слов, относящихся к наречиям и служебным сло вам, характерно, что эти части речи во всех трех типах текстов имею почти одинаковую частоту.
Вполне объясним и факт отсутствия междометий и подража тельных слов в публицистических и научно-популярных стилях.
В связи со спецификой тематики публицистического текста выбранного для исследования (“Шестилетние идут в школу”) за мечается некоторое преобладание числительных, чем в остальны рассматриваемых текстах.
В едином словаре, полученном в результате объединения дан ных всех трех словарей, можно отметить некоторые особенности свойственные казахскому языку. В частности, соотношение ко личества глаголов и существтительных в едином словаре составляв (0,2556/0,4099)=0,62, что ближе к тексту научно-популярному, объ единяещему черты художественного и научного текста. В научно популярном стиле указанное соотношение равні (0,2311/0,4354)-=0,55, в то время как в художественном и публн цистическом соотношение глаголов и прилагательных составляет со ответственно (0,3575/0,3103)= 1,1 и (0,2199/0,4430)=0,49.
П очти совпадают соотношения прилагательных и существитель ных в едином словаре (0,29) и в текстах трех других стиле! (соответственно 0,283; 0,297; 0,294).
Отношения наречия к глаголу в едином словаре - 0,184, а в художественном тексте - 0,115, в публицистическом - 0,191 и в научна популярном - 0,235, т. е. они почти совпадают, колеблясь около 0,2 Некоторое отклонение от этого значения отмечается в художествен ном стиле текстов (0,1).
2.3. Автоматический словарь казахского языка
(АСКЯ)
2.3.1. Формальное описание словарной статьи
Известно, что словарь модели лингвистической информации о слове строится по машинным основам изменяющихся слов. Такие основы для русского языка, например, выделяются путем отсечения от словоформ окончаний и суффиксов в соответствии с разработанными для данной модели типами формообразований различных классов слов [123]. Для казахского же языка, который по своей типологии и морфологической структуре относится к группе агглютинативных языков, нет особой необходимости выделять такие машинные основы путем формального отсечения, так как сам строй данного языка благоприятствует решению этого вопроса. Разработка этой проблемы помогла бы поставить на повестку дня исследовательской практики более важную проблему - создание теории формальной грамматики казахского языка, которая дала бы ощутимые результаты в компьютерной обработке современных письменных текстов. Известно, что имеющиеся академические грамматики казахского языка преследуют во многих случаях иную цель, поэтому создание формальной грамматики казахского языка, понятной компьютерных языкам, должно быть, на наш взгляд, одной из неотложных, задач ученых-казаховедов. При этом, как нам кажется, узловой единицей стержнем вокруг которого будет группироваться языковая информация, должно стать слово, как наиболее естественная единица языка Такая постановка вопроса обосновывается, по нашему мнению, в он лу того, что слово можно структурировать и в глубину - на морфемы фонемы, слоги, буквы, значения, и во вне - как член словоизмени тельных, словообразовательных, синтаксических, грамматических, ассоциативных и концептуальных рядов [139]. Кроме того, в каждом слове амальгамирована его история, которая связана с историей на рода и его культуры. Поэтому-то “слово” является объектом изучения и лексикологии, и семасиологии, и морфологии, и синтаксиса словосочетаний, а также объектом стилистики и других областей языкознания. Все это свидетельствует о том, что формальное описание словарной статьи “Автоматического словаря казахского языка должно быть организовано так, чтобы всю соответствующую информацию, сконцентрированную вокруг данного слова, в любой момент можно было бы извлечь, а амальгаму - соответствующим образом
расшифровать. В основе способа хранения такой информации должно лежать своеобразное “досье” на каждое слово, представленное как подробно структурированная область базы данных, содержащая какое-то число потенциальных сегментов, которые отражают всю систему фонетических, морфологических, синтаксических, семантических, семасиологических, стилистических, ‘историкоэтимологических, диалектологических, контекстуальных и т.п. параметров, т.е. всех возможных сведений о слове.
Такие автоматические словари, как АСКЯ и формальная грамматика, могут быть жизнеспособными и эффективными, если они опираются на общую филологическую традицую и культуру, на глубокое изучение казахского языка и учет информации о нем во всех формах его существования. Создание модели лингвистической и энциклопедической информации о казахском слове позволит практически осуществить конкретное моделирование лексикосемантической, словообразовательной, формообразавательной и других структур казахского языка.
Мы разработали лишь обобщенную схему такой области, содержащую некоторую лингвистическую информацию о казахском слове. Составлением же принципиальной схемы автоматического формирования “досье” и ее реализацией на современных компьютерах должны заняться специалисты по созданию автоматизированной базы лингвистических данных.