АОТ   Автоматическая Обработка Текста

главная о нас продукты скачать  демо технологии^

Синтаксический анализ

Синтаксический анализ в системе РМЛ

Клауза

Морфологический вариант клаузы

Синтаксическая группа

Синтаксическое правило

Алгоритм работы

Синтаксические правила

 

Синтаксический анализ в системе РМЛ ^

Цель синтаксического анализа – построение синтаксических групп на одном морфологическом варианте одной клаузы. Группы строятся с помощью синтаксических правил ("форматок"). Эти понятия будут объяснены  ниже.

 

Клауза ^

Клауза (фрагмент) – это простое предложение в составе сложного. Полное определение клаузы можно найти в описании фрагментационного анализа. Клауза может вкладываться в другую клаузу. Тогда она является подклаузой.  С клаузой всегда связан некоторый набор вариантов вершины клаузы, где вершина клаузы - это некоторый омоним возможного слова данной клаузы. Для нас важно, что в нашей системе синтаксического анализа подклаузы могут входить в синтаксические группы наравне с простыми словами.

 

Морфологический вариант клаузы ^

Морфологический вариант – это набор юнитов, идущих друг за другом в данной клаузе. Юнит – это либо морфологический омоним одного слова, либо вариант подклаузы данной клаузы. Например, для фразы

 Дом, который построил Джек, развалился

В главной клаузе, совпадающей со всем предложением, есть подклауза "который построил Джек". Морфологический вариант главной клаузы всегда будет состоять из четырех юнитов:

  1. "Дом";
  2. ", который построил Джек";
  3. ",";
  4. "развалился".

Количество морфологических вариантов данной клаузы равно P1*P2*...*Pn, где n – число юнитов, а Pi – число разных вариантов юнита с номером i.

В дальнейшем описании мы будем часто использовать термин "слово", подразумевая "юнит". Только там, где может идти речь о подклаузе, вошедшей в синтаксическую группу, будет использован термин "юнит".

 

Синтаксическая группа ^

Синтаксическая группа определяется следующими параметрами:

  1. номер первого и последнего юнита;
  2. тип группы (строка);
  3. главная подгруппа
  4. граммемы группы;

В частном случае группа – один юнит, тогда номер первого и последнего юнита совпадают. Такую группу называют атомарной. Неатомарные группы подчиняются принципу проективности:

Из того, что две группы пересекаются, следует, что одна лежит в другой (т.е. является ее подотрезком).

Тип групп - это строковая константа (ПРИЛ_СУЩ, ПГ и т.д.). Обычно одно синтаксическое правило строит один тип групп, но бывают исключения. Тип групп определяет во многом внутреннее устройство группы. Например, в группе "ПГ" главная подгруппа – предлог и т.д.

Главная подгруппа – это группа, которая является главной в данной группе. "Главность" – это понятие используется так же, как в теории HPSG (Head-Driven Phrase Structure Grammar). Например, для ПРИЛ-СУЩ главная группа – существительное. Рекурсивно определяется понятие главного слова группы:

  1. Главное слово атомарной группы – само это единственное слово;
  2. Главное слово группы - это главное слово главное подгруппы.

С помощью понятия "главной группы", например, определяется "именная группа": именная группа – это группа, у которой главное слово существительное.

Граммемы группы, или т.н. "внешние" граммемы группы, - это морфологические характеристики, которые должны определять поведение и сочетаемость группы во "внешнем" для нее мире, т.е. в группах, куда она сама входит.  Внешние граммемы противопоставляются "внутренним" граммемам группы. "Внутренние" граммемы – это граммемы главного слова группы. Например, во внешних граммемах группы "Петя и Вася" есть множественное число, а во внутренних его нет (главная группа однородного ряда – первая подгруппа, т.е. "Петя"). Например, в группе "два мальчика" внешние граммемы содержат именительный падеж, а главным словом является словоформа "мальчика" (без им. падежа).

 

Синтаксическое правило ^

Синтаксическое правило получает на входе номер слова. От этого слова правило пытается построить новую группу определенного типа, соблюдая принцип проективности. На данный момент все правила пытаются объединить входную группу только с группами, находящимися от нее справа; в нашей записи правил (см. ниже) входная группа - это первая группа цепочки. Все правила упорядочены (см. список ниже), поэтому в данной версии синтаксическая омонимия игнорируется, т.е. строится всегда только один вариант. Классический пример древние стены города наш анализатор разберет следующим образом: генит_иг( прил_сущ(древние, стены ), города ). Это происходит из-за того, что правило соединения прилагательного, согласованного с существительным, идет до правила, которое собирает генитивные цепочки.

Синтаксическое правило оперирует ограниченным числом объектов. Можно сказать, что они написаны на определенном подъязыке С++. Основными объектами являются:

  1. Уже построенный набор групп, к которому нужно добавить новую группу.
  2. Характеристики отдельных слов – омонимов входного отрезка текста.

Таким образом, синтаксические правила находятся выше омонимии, точнее омонимия находится вне этих правил.

Рабочее название синтаксического правила – форматка.

 

Алгоритм работы ^

На вход алгоритма подается морфологический вариант клаузы. В программе задан некоторый порядок применения правил. Этот порядок соответствует порядку построения групп: от меньших к большим. Например, сначала надо построить группы МОДИФ-ПРИЛ, а потом ПРИЛ-СУЩ, чтобы построить структуру на отрезку "очень красивый человек":

ПРИЛ-СУЩ (МОДИФ-ПРИЛ (очень красивый), человек )

Каждое правило применяется к каждому слову входного отрезка слева направо. Каждое правило для вновь построенной группы указывает ее главную группу, список граммем (обычно берется из списка граммем главного слова), тип.

 

Синтаксические правила ^

Структура записи правил.

Запись правила состоит из следующих полей:

Что
в этом поле указывается цепочка групп (в частном случае слов), которая объединяется в новую синтаксическую группу.
Условие
в этом поле указываются условия, которые накладываются на компоненты новой группы.
Главная группа
главная группа, тип и граммемы
Тип
новой синтаксической
Граммемы
группы.

В скобках идет сокращенное название этого правила, которое совпадает с названием группы, если в результате работы правила построилась группа.

 

Правила для построения групп числительных (КОЛИЧ и СЛОЖ_ЧИСЛ)

  Правила для построения групп с нецелыми числами (цифровой комплекс (ЦК) - знак препинания – ЦК)

Правила для слов, управляющих числительными (СУЩ_ЧИСЛ) .

Правила для модификаторов прилагательных (МОДИФ_ПРИЛ)

Правила для построения ФИО (ФИО).

Правила для построения групп наречие + прилагательное (НАР-ПРИЛ).

Правила для построения групп однородных прилагательных (ОДНОР_ПРИЛ).

Правила для построения групп однородных наречий (ОДНОР_НАР).

Правила для построения групп однородных инфинитивов (ОДНОР_ИНФ).

Правила для построения групп дат (ДАТА).

Правила для наречий сравнительной степени (СРАВН_СТЕПЕНЬ).

  Правила для построения групп наречие + глагол(НАРЕЧ_ГЛАГОЛ).

Правила для построения именных групп(ПРИЛ-СУЩ) .

Правила для построения именных групп с наречным числительным(НАР-ЧИСЛ-СУЩ).

Правила для элективных групп(ЭЛЕКТ_ИГ) .

Правила для построения групп числительное + ИГ (ЧИСЛ-СУЩ) 

Правила для построения генитивных цепочек(ГЕНИТ_ИГ).

  Правила для построения отсравнительной группы (ОТСРАВН)

Правила для построения групп предлог + ИГ(ПГ).

Правила для построения групп однородных ИГ(ОДНОР_ИГ).

Правила для построения групп отрицание + глагол (ОТР_ФОРМА).

Правила для построения групп глагол + прямое дополнение (ПРЯМ_ДОП).

Правила для построения групп ГГ + инфинитив (ПЕР_ГЛАГ_ИНФ).

Правило для построения необособленных прилагательных в постпозиции (ПРИЛ_ПОСТПОС)

Правило для случаев обособленной постпозиции прилагательных (СУЩ_ОБС_ПРИЛ).

Правило для построения групп однородных членов предложения, сочиненных повторяющимися или разрывными союзами(Р_С_*) .

Правило для построения группы сущ + причастие (ПРИЧ_СУЩ).

Правило для построения группы сущ + придаточное определительное(ПРИДАТ_ОПР).

Правила для построения групп наречие + предикатив(НАР_ПРЕДИК).

Правило для построения группы "сравнительная конструкция" (АНАТ-СРАВН)

Правило анализа приложения (ПРИЛОЖЕНИЕ)

Правило для "склеивания" глагола + "-ка" в одну словоформу.

Правило о двух предикатах внутри одного морфологического варианта.

Правило построения аналитической формы глагола.

Правило взвешивания морфологических вариантов в пределах одной клаузы.

Правило построения подлежащего и сказуемого

Правило обработки оборотов

Правило работы с тезаурусами

Правило об ОДНОР_ИГ с тремя или более элементами

 

Правила для построения групп числительных (КОЛИЧ и СЛОЖ_ЧИСЛ) ^

Что: Цепочка числительных (количественных или порядковых).

Главная группа: последнее слово.

Примеры: двадцать восемь; одна тысяча пятьсот девяносто шесть.

В случае, когда мы имеем комплексы типа "20 тысяч", мы поступаем следующим образом.

Сначала введем обозначения. Пусть Хn – слово из массива {тысяча, миллион, миллиард}, а n – принятое в Морфологии обозначение граммем. МЧ - малое числительное из массива {два, три, четыре}, БЧ – большое числительное – любое числительное за исключением "один" и МЧ.

 Имеем варианты:

  1. ЦК + Хрд (3 тысяч) => Группа получает падежи им, вн, рд
  2. МЧим + Хрд,ед (две тысячи) => Группа получает граммемы им,вн,мн
  3. БЧим + Хрд,мн (двадцати тысяч) => Группа получает граммемы им,вн,мн
  4. Если имеем "один" в одном из падежей + Хрд (одной тысячи) => Группу рассматриваем как ПРИЛ_СУЩ

 

Правила для построения групп с нецелыми числами (цифровой комплекс (ЦК) - знак препинания – ЦК) ^

Что: Цепочка: ЦК-знак препинания-ЦК.

Главная группа: первое слово (т.е. первый ЦК).

Тип: Последовательность чисел вперемешку со знаками препинания.

Название СЛОЖ_ЧИСЛ

Примеры: 12,2; 123,555.

 

Правила для групп со словами, управляющими числительными (СУЩ-ЧИСЛ) ^

Что: Группа, главное слово которой – существительное, - группа, главное слово которой – числительное или ЦК.

Условие: Главное слово первой группы – слово из файла существительных, определением к которым может быть число или числительное (например, глава, статья, параграф или сокращенные п., с., кв. и др.).

Главная группа: группа существительного.

Граммемы: граммемы главного слова главной группы (т.е. существительного из списка).

Тип: Группа существительное + идентификатор;

+ (глава 11)

Примеры: статья 123, пункт 13.

 

Правила для модификаторов прилагательных (МОДИФ_ПРИЛ) ^

Это правило ищет два контактно стоящих слова С1 и С2, где С1 – это "такой" или "самый", а С2 – полное прилагательное, согласованное с С1 по роду, числу и падежу.

Главная группа: С2

Примеры: такой красивый.

 

Правила для построения (ФИО) ^

Это правило собирает группу по графематическим пометам ФИ1-ФИ2, которые выставляет МАPost и графематика.

Главная группа: последнее слово группы.

Примеры: Иван Глебов; Глебов Иван.

 

Правила для построения групп наречие + прилагательное (НАР_ПРИЛ) ^

Что: Цепочка: группа с главным словом наречием– группа, главное слово которой - прилагательное (полное или краткое).

Условие: У главного слова первой группы есть помета, сообщающая, что этим словом может управлять прилагательное (эта информация берется из РОССа)

Главная группа – группа прилагательного.

Тип – Слова степени (типа "очень") с группой прилагательного или причастия.

- (весьма живой)

Примеры: очень красивый, весьма полезный, особенно хорош.

 

Правила для построения групп однородных прилагательных (ОДНОР_ПРИЛ) ^

Что: Цепочки:

  1. n групп, главное слово которых - прилагательное в полной форме;
  2. n групп, главное слово которых – прилагательное в краткой форме.
  3. n групп, главное слово которых – прилагательное сравн. степени.

Условие: 1) Первые n-1 групп разделены запятыми, а перед последней стоит сочинительный союз без запятой,

Если цепочка полных форм прилагательных – все они согласуются по падежу (т.е. множества возможных падежей каждого главного слова имеют непустое пересечение) (1 случай),

Если цепочка полных или кратких форм в единственном числе - все главные слова согласуются по роду (1 случай).

- (белый и черный)

Примеры: хороший, плохой и злой; первой и единственной.

 

Правила для построения групп однородных наречий (ОДНОР_НАР) ^

Название: однор_нар

Условие: Два или более наречий, разделенных запятыми или соч. союзам

Дополнительное условие: если в группе нет запятых и количество сочинительных союзов больше двух, то группа не строится.

Примеры: плохо и хорошо

 

Правила для построения групп однородных инфинитивов (ОДНОР_ИНФ) ^

Условие: Два или более инфинитива, разделенных запятыми или соч. союзам

Примеры: пить или курить

 

Правила для построения групп дат (ДАТА) ^

Построение дат из графематике.

Что: Цепочка, первое слово которой имеет помету ДТ1, а последнее – ДТ2.

Построение дат вида месяц – год.

Что: Цепочка: слово с пометой month (название месяца) – число из промежутка 10..2010 - словоформа лексемы "год", "г." или ничего.

Построение дат вида число – месяц – год.

(Аналогично пункту 2))

+ (1 мая)

Примеры: август 1968 года. 1 сентября 1939 года . 12 июня 99 г.

 

Правила для наречий сравнительной степени (СРАВН-СТЕПЕНЬ) ^

Что: Цепочки - слово, которым может управлять наречие или прилагательное сравнительной степени (ср. правило 5)-наречие или прилагательное сравнительной степени/соч. группа наречий или прилагательных сравнительной степени.

Тип: Аналитическая форма сравнительной степени прил. или наречия

- (гораздо круче)

Примеры: гораздо сильнее; значительно больше и умнее.

 

Правила для построения групп наречие + глагол (НАРЕЧ_ГЛАГОЛ) ^

Что: Цепочки: одиночное наречие - одиночный глагол; соч. группа наречий/группа, построенная по правилу – одиночный глагол; одиночное наречие – соч. группа инфинитивов. Если в предыдущей версии группа строилась лишь в случае неомонимиченого наречия, то в настоящей версии если у наречия есть омонимы, то группа строится в том случае, если глагол стоит в личной форме (хорошо знаю)

Главная группа: группа глагола.

Тип: Одиночное наречие с одиночным глаголом; группа наречий с одиночным глаголом; одиночное наречие с группой инфинитивов.

+ (злостно нарушать)

Примеры: злостно нарушать ; тяжело жить.

 

Правило для элективных групп (ЭЛЕКТ_ИГ) ^

Группа ЭЛЕКТ_ИГ может начинаться только со следующих элементов:

  1. лемма КАКОЙ, ОДИН, ЛЮБОЙ;
    // одной из великих реформ
  2. лемма МНОГИЕ, НЕКОТОРЫЕ (только множ. число);
    // многие из этих людей
  3. лемма КАЖДЫЙ (только ед. число);
    // каждого из этих людей
  4. прилагательное, которое заканчивается на "ШИЙ" (синт. превосходная степень);
    //  красивейший из нас
  5. группа МОДИФ_ПРИЛ, которая начинается со слова "самый" (анал. превосх. степень.);
    // самый красивый из нас
  6. порядковое числительное ;
    // второй из нас
  7. Одиночное числительное из класса "двое", "трое";
    // двое из нас

После начального элемента должна идти ПГ с предлогом "из". Первый элемент и предложная группа объединятся в группу ЭЛЕКТ_ИГ. Главное слово ЭЛЕКТ_ИГ приравнивается главному слову начального элемента.

 

Правила для построения именных групп (ПРИЛ-СУЩ) ^

I) Стандартное правило

Что: Цепочка: несколько групп, главное слово которых – прилагательное в полной форме – группа, главное слово которой – существительное.

Условие: все главные слова прилагательные согласуются с главным словом последней группы по роду, числу и падежу.

Главная группа: группа существительного.

Тип: ИГ, согласованная по роду, числу и падежу.

+ (длинная унылая дорога)

Примеры: длинная унылая дорога; единственному настоящему другу.

II) Обособление в препозиции к личному местоимение [1].

Что: цепочка ((зпт-к или начало предложения)-(одиночное прилагательное\причастие или группа с вершиной – прилагательным\причастием или группа сочиненных прилагательных) – зпт-к+i –( личное местоимение или имя собственное)

Условия: согласование прилагательных\причастий с личным местоимением \ именем собственным по роду, числу и падежу.

Строится: группа прил_сущ с главным словом – личным местоимением\именем собственным.

+

Примеры:  Вернувшись поздно, усталый и очень недовольный, он мгновенно уснул.

III) Случай, когда нет согласования по числу при сочинении прилагательных.

Что: цепочка (группа сочиненных прилагательных или групп с главным словом - прилагательным) – существительным.

Условия: прилагательные – в ед. числе, существительное – во мн. числе и прилагальные согласуются с существительным по падежу.

Строится: группа прил_сущ. с главным словом – существительным

+ (с красной и синей бабами)

Примеры: с красной и синей ракетками

IV). Случай, когда при сочинении существительных нет согласования с прилагательным по числу.

Что: Цепочка (прил. или группа с гл. словом – прил).– группа соч. сущ.

Условия:. Прил. – во мн. ч., первое из соч. сущ – в ед.ч. и прил. согласуются с сущ. по падежу.

Строится: группа прил._сущ с главным словом сущ.

- (усталым дяде и тете)

Примеры: усталым папе и маме

 

Правила для построения именных групп с наречным числительным (НАР-ЧИСЛ-СУЩ) ^

Что: Цепочка из двух элементов:

  1. группа с главным словом - наречное числительное (числительное из файла L\DICTS\Syntax\num_pr.dat– много, несколько и др.);
  2. группа с главным словом – существительное.

Условие: существительное стоит во множественном числе, родительном падеже.

Внутри группы не убиваются омонимы.

Главная группа: существительное

Тип: Группа наречное числительное + ИГ (рд мн) .

Примеры: много очень простых ребят; мало красивых женщин.

 

Правила для построения групп числительное + ИГ (ЧИСЛ-СУЩ) ^

Отдельно строятся группы с "маленькими" числительными один, два, три и четыре (small_number_group) и отдельно со всеми остальными.

Правило для "немаленьких" числительных.

Что: Цепочка: – группа, главное слово которой - числительное или ЦК, - группа, главное слово которой – существительное.

Условие: Существительное стоит во множественном числе и в том же падеже, что и числительное.

Главная группа: группа подлежащего;

Тип: Группа числительное + ИГ (мн рд).

Название: сущ-числ.

+ (сорок восемь попугаев)

Примеры: сорок восемь попугаев; улица двадцати шести бакинских комиссаров.

 

Правила для построения генитивных пар (ГЕНИТ_ИГ) ^

Что: Цепочка: две группы, у которых главное слово – существительное.

Условие:

  1. Главное слово второй группы стоит в родительном падеже,
  2. Перед первой группой нет группы с главным словом – существительное.

Главная группа: первая из двух группа.

Граммемы – граммемы первого слова главной группы.

Тип: ИГ, связанная родительным падежом.

+ (труженики моря)

Примеры: в стране непуганых идиотов; рука Москвы.

 

Правила для построения отсравнительной группы (ОТСРАВН) ^

Что: Цепочка: две группы, у первой группы главное слово - сравнительное прилагательное, у второй группы главное слово – синтаксическое существительное

Условие: 1) Главное слово второй группы стоит в родительном падеже,

Главная группа: первая из двух группа.

Примеры: краше тебя, краше твоего дома

 

Правила для построения групп предлог + ИГ (ПГ) ^

Что: Цепочка: предлог – ИГ.

Условие: Возможные падежи ИГ имеют непустое пересечение с множеством падежей, которыми управляет предлог. Если предлог однословный – эта информация берется из результатов морфологического анализа, иначе – из словаря оборотов. Процедура выделения оборота. Цепочка, первое слово которой имеет графематическую помету ОБ1, а последнее – ОБ2, ищется в словаре оборотов. В случае успеха она считается оборотом.

Тип: Предложная группа.

Главная группа: предлог.

Название: пг.

+ (на волке)

Примеры: на холм;: в краю степей; в большом просторном доме;

 

Правила для построения групп однородных ИГ (ОДНОР_ИГ) ^

Что: Цепочка именных групп.

Условие:

  1. Эти именные группы согласованы друг с другом по падежу.
  2. Перед последней группой стоит сочинительный союз без запятой, а остальные разделены запятыми.
  3. Нет такой цепочки согласованных по падежу именных групп, что хотя бы в одной из них содержалась какая-нибудь из групп входной цепочки.
  4. Если есть неличное местоимение и нет одиночного сочинительного союза, то группа не строится ("то утро, то вечер")

Главная группа:

Тип:

Все группы цепочки кроме первой обязательно первого уровня.

Вновь построенная группа занимает старое место первой группы цепочки

Проиллюстрируем данное правило на примере.

Это было сказано руководителям отдела и всего проекта.

Перед началом работы правила об однородных именных группах это предложение будет иметь следующую структуру:

Это было сказано генит_иг(руководителям отдела) и генит_иг(всего проекта).

Это правило сначала сравнит группы (руководителям отдела) и (всего проекта) - граммемы падежа главных слов этих групп не пересекаются, поэтому затем правило будет сравнивать группы отдела и  (всего проекта), объявит их одной группой (однородный ряд ИГ), которая займет старое место слова отдела. После чего у предложения будет структура:

Это было сказано генит_иг(руководителям однор_иг(отдела и всего проекта)).

Дополнительные условия:

Группа не строится в следующих случаях.

  1. если запятых нет и количество сочинительных союзов больше двух ("Пришли Маша и Петя и лектор начал лекцию"
  2. если нет сочинительного союза и один из членов пришел из морфологического словаря "Имя", а другой нет ( "Маша, однокурсница не пришла")
  3. если нет сочинительного союза и один из членов местоимение не в Именительном падеже ("его, отца не было"

+ (охраннику прачечной и всего банка)

 

Правила для построения групп отрицание + глагол (ОТР_ФОРМА) ^

Что: Цепочки: "НЕ" - глагольная форма.

Главная группа: глагол.

Тип: Частица "НЕ", справа которой стоит глагольная форма.

- (не стою)

Примеры: не любить.

 

Правила для построения групп глагол + прямое дополнение (ПРЯМ_ДОП ^

Что: Цепочки: группа, главное слово которой – глагол, - именная группа.

Условие: Среди возможных падежей ИГ есть винительный.

Главная группа: группа глагола.

Тип: ГГ + ИГ в винительном падеже.

Название: прям_доп.

- (есть кашу)

Примеры: рубить дрова; есть кашу; не любить маму.

 

Правила для построения групп ГГ + инфинитив (ПЕР_ГЛАГ_ИНФ) ^

Что: Цепочки: группа, главное слово которой – глагол, - группа, главное слово которой – инфинитив.

Главная группа: первая из двух групп.

Тип: ГГ + инфинитив.

+

Примеры: пойти выпить; позвать гулять.

 

Правило для построения необособленных прилагательных в постпозиции (ПРИЛ_ПОСТПОС) ^

Правило для построения необособленных прилагательных в постпозиции (ПРИЛ_ПОСТПОС)

Что: цепочка (существительное или группа с вершиной-существительным или местоименное существительное) – (прилагательное или группа с вершиной – прилагательным или группа однородных прилагательных)

Условия: Существительное согласуется с прилагательным по роду,числу,падежу.

Строится: группа прил_постпос с главным словом - существительным.

+ (баба глупая)

Примеры: Зрелище это производило впечатление необычное, пугающее и очень неприятное. Представьте себе жизнь скучную, одинокую, когда существование ваше никого постороннего не может интересовать.

Правило для построения именных групп, управляющим группой обособленных однородных прилагательных в постпозиции (СУЩ_ОБС_ПРИЛ) [2].

I) Случай однородных прилагательных

Что: цепочка (существительное или прил_сущ)+(зпт-к)+ (группа однородных прилагательных) +зпт-к+i

Условия:

  1. прилагательные согласуются с существительными по числу и падежу, в ед.ч. - по роду; или
  2. существительное - во мн.ч., прилагательные – в ед.ч., и прилагательные согласованы с существительным по падежу и по роду

Строится: группа сущ_обс_прил с вершиной – существительным и фрагмент между зпт-к и зпт-к+i вложен во фрагмент с существительным

- (главам, большим и серьезным)

Примеры: он этим вопросом, очень скучным и глупым, не интересовался.. ...мальчикам, большому и маленькому,....

II) Случай однородных существительных

Что: цепочка (группа однородных существительных в ед.ч.) + зпт-к + (прилагательное или группа с вершиной-прилагательным или группа однородных прилагательных во мн.ч.) + зпт-к+i

Условия: существитеьные и прилагательные согласуются по падежу.

Строится: группа существительные+ прилагательное или группа однородных прилагательных с вершиной - группой однородных существительных.

+ (мужик и баба, совсем глупые)

Примеры: ...брат и сестра, совсем больные,...

 

Правило для построения групп однородных членов предложения и фрагментов, сочиненных повторяющимися или разрывными союзами (Р_С_ОДНОР_ПРИЧ, Р_С_ОДНОР_СУЩ, Р_С_ОДНОР_МС, Р_С_ОДНОР_ИНФ, Р_С_ОДНОР_ДЕЕПР). ^

Рассматривает группу союзов : 

разрывные союзы двусоставные: не...,а\но; не только...,но (и)...; как..., так и...; хотя...,зато...; пусть...,но...; хотя (и)..., но\а\да...; не то что\ чтобы..., но\а...; если (не)..., то\так... , образующие группу из двух элементов (... не только вчера, но и сегодня.., ... хотя и очень больной, но довольно сильный... , ...если не писать, так читать... , ...как лежащие под столом книги, так и спрятанные в шкаф папки... и т.п.)

Работает в предложении слева направо, строит сочиненные слова и группы, где после каждой группы или слова, входящих цепочку сочиненных, стоит ли+зпт.

Для разрывного союза процедура – однократная, для цепочкек с повторяющимися союзами процедуру повторяем, перемещаясь слева направо по цепочке на один союз.

Дополнительное условие: группа разрывного союза строится в том случае, когда на фрагментации срабатывает правило объединения ПУСТЫХ, то есть группа никогда не строится, когда мы имеем два предиката (глагол, предикатив, краткое прилагательное, ...).

Пример:

"то днем, то вечером" - собирается

"не светало, а темнело" – не собирается.

Что: ли+зпт-k...ли+зпт-k+i

Условия для б):

+ (не очень красивая, но умная баба)

Примеры: не очень красивая, но умная девушка.

каждая из которых позволяет вам как посылать, так и получать письма

 

Правило для построения группы сущ + причастие (ПРИЧ_СУЩ) ^

Что: Цепочка: группа, главное слово которой – существительное - юнит-фрагмент с типом причастие (ПРЧ).

Условие: вершина юнит-фрагмента согласуются с главным словом последней группы по роду, числу и падежу.

Главная группа: группа существительного.

Тип: ИГ, согласованная по роду, числу и падежу.

- (Иванов, найденный на холме)

Примеры: дом, построенный на холме, постепенно разрушался.

 

Правило для построения группы сущ + придаточное определительное (ПРИДАТ_ОПР) ^

Что: Цепочка: группа, главное слово которой – существительное - юнит-фрагмент с союзным словом "который", "чей".

Условие: союзное слово согласуются с главным словом последней группы по роду и числу.

Главная группа: группа существительного.

Тип: ИГ, согласованная по роду, числу и падежу.

- (баба, которая много пьет)

Примеры: дом, кторый построили на холме, постепенно разрушался.

 

Правила для построения групп наречие + предикатив (НАР_ПРЕДИК) ^

Что: Цепочки: одиночное наречие - одиночный предикат;

Главная группа: предикатив.

Название: нар_предик.

- (очень интересно)

Примеры:  очень интересно.

 

Правило для построения групп "сравнительная конструкция" (АНАТ_СРАВН) ^

Что: 2 цепочки из двух слов:

  1. более + ПРИЛ
  2. менее + ПРИЛ

Прилагательное может быть и кратким.

- (более интересно)

Примеры: более сильный, менее привлекателен

 

Правило анализа приложения (ПРИЛОЖЕНИЕ) [3] ^

Работает после анализа всех видов согласованного определения, выраженного прилагательным\причастием, обособленного и необособленного, в препозиции и постпозиции, с вложениями и без вложений.

Что: 

  1. (СУЩ: существительное или личное местоимение или существительное- местоимение или или группа прил-сущ или НСО) +зпт-к+ (П: существительное или существительное- местоимение или или группа прил-сущ или НСО)+ зпт-k+i или
  2. (зпт-k или начало предложения + П + зпт-k+i + СУЩ)

Условия:

  1. П и СУЩ согласуются по числу и падежу.
  2. (фрагмент П - первый в предложении) или (слева и справа от П в любых комбинациях: фрагмент-пустыха, фрагменты с глаголом или предикатом или кратким прилагательным\причастием ) или (Ситуация 1 и контактно справа от зпт-k+i и\или)

Строим: группу приложение: вершина СУЩ - хозяин П и фрагмент П вложен во фрагмент с СУЩ.

+ (баба Маша, очень обидчивая женщина, ушла нахмуря брови)

Примеры:

Его отца, очень обидчивого человека, эта реплика вывела из себя.

Для них, людей очень активных и молодых, это не было сложно.

Инженер, очень застенчивый человек, избегал любых контактов с окружающими.

 

Правило для "склеивания" глагола + "-ка" в одну словоформу ^

ЧТО: цепочки "глагол"-ка"

УСЛОВИЕ: глагол имеет форму

  1.  мн.прош. 
  2.  1л.пвл.
  3.  2л.пвл.

Цепочка приобретает морфологические характеристики глагола

+ (строй-ка)

ПРИМЕРЫ: пойдем-ка, давайте-ка, давай-ка  

 

Правило о двух предикатах внутри одного морфологического варианта ^

Список глаголов ГС = {давать, становиться, оказаться}

Список значений частей речи, которые могут принимать предикаты ПС = {VERB (гл. в личн. форме), ADVERB_PARTICIPLE (деепричастие), ADJ_SHORT (кр. прил.), PARTICIPLE_SHORT (кр. прич.), PREDK (предикатив)}

Внутри морфологического варианта клаузы, полученного декартовым произведением омонимов, не может находиться два омонима Є ПС & !Є ГС. В случаях, когда возникает такая ситуация, данный морфологический вариант не строится. Исключением является случай со словами "мало" и "много", - в этом случае омоним "ПРЕДК" у этих слов не убивается. Данное правило работает сразу после порождения очередного морфологического варианта до запуска синтаксических правил (аналитические формы глагола уже построены). Правило не работает при порождении морфологических вариантов объединенных или вложенных клауз. Пример: "нет мыла" : вариант, где нет – предикатив, а мыла – глагол не строится.

 

Правило построения аналитической формы глагола ^

Построение аналитических форм глагола проводится внутри фрагмента до построения морфологических вариантов по декартовому произведению. Аналитическая форма глагола собирается с глаголами "быть' и "стать' (первая компонента) + словоформа (вторая компонента), в которой хотя бы один омоним Î ПС = {VERB (гл. в личн. форме), ADVERB_PARTICIPLE (деепричастие), ADJ_SHORT (кр. прил.), PARTICIPLE_SHORT (кр. прич.), PREDK (предикатив)(кроме "мало" и "много"), COMPARATIVE (сравнительная степень прил.)}, остальные омонимы удаляются. 

 В случае инфинитива аналитическая форма глагола линейно занимает место первой компоненты, иначе место второй компоненты. При построении формы проверяется согласование (для формы с предикативом первая компонента должна иметь ср.р.). На гипотезах словоформ клаузы, которые могут быть второй компонентой аналитической формы глагола, установлен порядок: первыми рассматриваются словоформы с наименьшим количеством омонимов, последними всегда рассматриваются гипотезы с сравнительной степенью прил. При построении аналитической формы с "будем" или "станем" убираем в этих формах омоним императива.

Запрещается собирать аналитическую форму с инфинитивом совершенного вида.

Если в лице третьей компоненты мы имеем следующие глаголы несовершенного вида:

светать, темнеть, холодать, теплеть, смеркаться, - то есть те, которые могут образовывать безличные предложения, типа "Смеркается.", то при собирании аналитической формы к нему присоединяется первая компонента, то есть в примере "утром рано будет светать" свяжется "будет-светать".

 

Примечание 1 (Сокирко А.)

Один случай со сравнительной степенью:

Разбираем случай "он был больше учителем, чем шофером", где не надо строить аналитическую форму со сравн. степенью, поскольку нельзя сказать "он больше учителем, чем шофером", т.е. здесь "был" - полнозначный глагол.

Формально:

Если у нас только одна гипотеза для аналитической формы ("сравн. степени"), если после этой сравн. степени стоит существительное в творительном падеже, тогда анал. форму строить не надо.

Примечание 2 (Шалимов О.)

Правило собирания аналитической формы в случаях ПРЕДК с омонимом,"будет" и ИНФ нс.

Предикат должен быть омонимичен с потенциально не придикатной частью речи.

  1. Если мы имеем: "будет", ПРЕДК (имеющий омоним), ИНФ нс,не разделенные знаками препинания, но, возможно, разделенные частицами или наречиями (возможно омонимичными), -и если непосредственно слева от этой конструкции нет С дт,МС дт, МС-ПРИЛ дт, то мы имеем не ПРЕДК. ("Вася, возможно, когда-нибудь будеткрасиво улыбаться.")
  2. Во всех остальных порядках мы должны выбрать ПРЕДК ("Трудно здесь будет работать", "жить здесь будет невозможно"), - да он и так выберется, потому что в иерархии ПРЕДК стоит выше других частей речи.

  3. Если мы имеем другой порядок, как, например, в прдложении "Жить плохо будет здесь", то мы такой случай не разбираем ввиду крайней его редкости, но если уж вдруг такое встретится, то мы будем рассматривать ПРЕДК как именно предикат.
  4. Если мы встретим одновременно "будет", ИНФ нс, ПРИЛ кр в любом порядке, то мы присоединяем ПРИЛ кр к ИНФ нс.("Программа будет незавиимо работать")

 

Правило взвешивания морфологических вариантов в пределах одной клаузы ^

Суммируются веса следующих элементов:

  • вес максимальной группы – разность номера последнего и первого слова в группе, умноженная на коэффициент 5;
  • вес оборота – разность номера последнего и первого слова в обороте, умноженная на коэффициент 5; 
  • разрывная группа подлежащего и сказуемого получает вес 6;
  • вес подчинительного или сочинительного союза, не являющегося оборотом, равен 1.

 

Правило построение подлежащего ^

Определение

Синтаксическим существительным считается любое слово следующих классов:

  1. Морфологическое существительное (C);
  2. Субстантивное местоимение (МС);
  3. Местоимения-прилагательные КАЖДЫЙ, ОДИН, ДРУГОЙ, ТОТ, КОТОРЫЙ.

Правило GenderNumber

Два набора граммем согласованы по роду и числу, если выполняется следующее:

  1. Наборы имеют общую граммему числа;
  2. Если общая граммема числа – ед, тогда наборы должны иметь общую граммему рода.

Правило PersonNumber

Два набора граммем согласованы по лицу и числу, если выполняется следующее:

  1. Наборы имеют общую граммему числа;
  2. Наборы имеют общую граммему лица;

Правило GleicheSubjectPredicate

Пусть subj – граммемы потенциального подлежащего (имеющего номинатив), verb – граммемы потенциального сказуемого. GleicheSubjectPredicate возвращает истину, если

  1. verb имеет граммемы прш или кр, и выполняется одно из двух:
    1. subj имеет граммемы первого или второго лица. Тогда либо они оба стоят во множественном, либо verb имеет граммему женского или мужского рода (но не среднего!);
      // ты вышел
      // я вышел
      // ты был
      // мы пришли
    2. или subj согласован с verb по роду и числу (правило GenderNumber).
      // он вышел
      // поезд ушел
      // девочка красива
      // девочки красивы
      // мальчик красив
  2. verb имеет граммемы буд или нст, и выполняется одно из двух:
    1. subj или verb имеет граммемы первого или второго лица и subj согласован с verb по лицу и числу (правило PersonNumber);
      // я выйду
      // ты выедешь
    2. или subj и verb имеют общую граммему числа.
      // они выйдут
  3. verb имеет граммемы пвл и подлежащее имеет граммему второго лица и согласовано по числу.
    // иди ты!

Правило GleicheSubjPredForNumeralAndSimilar

Пусть subj – группа в номинативе, а verb – потенциальное сказуемое. Если subj – группа НАР-ЧИСЛ-СУЩ, ЧИСЛ-СУЩ, АППРОКС_ИГ, тогда должно выполняться одно из четырех:

  1. verb имеет граммемы ед, ср, прш
    // "несколько мальчиков пришло"
  2. verb имеет граммемы мн, прш
    // "несколько мальчиков пришли"
  3. verb имеет граммемы нст или буд и ед 3
    // "несколько мальчиков приходит"
  4. verb имеет граммемы нст или буд и мн 3
    // "несколько мальчиков приходят"

Если subj – группа ОДНОР_ИГ, тогда verb должен иметь граммему мн.

Основное правило

Вложенный фрагмент не может выступать как сказуемое или подлежащие. Последовательность поиска подлежащего и сказуемого:

  1. Поиск подлежащего и сказуемого в предложении с тире. Поиск начинается при условии, что фрагмент имеет вершину "ТИРЕ". Если в левой части предложения от тире стоит одиночное существительное в номинативе или существительное в номинативе, которое является вершиной группы, или инфинитив, то данное существительное или инфинитив объявляется потенциальным подлежащим. В случае, когда найдены одновременно и существительное в номинативе и инфинитив, то приоритет отдается инфинитиву. Если в правой части предложения от тире стоит одиночное существительное в номинативе или существительное в номинативе, которое является вершиной группы, или инфинитив, то данное существительное или инфинитив объявляется потенциальным сказуемым. В случае, когда найдены одновременно и существительное в номинативе и инфинитив, то приоритет отдается инфинитиву. Группа подлежащего и сказуемого строится только тогда, когда найдены и потенциальное подлежащее и потенциальное сказуемое.
  2. Поиск подлежащего для краткой формы причастия или прилагательного и для глагола в личной форме. Поиск начинается при условии, что фрагмент имеет вершину "КР_ПРЧ" или "КР_ПРИЛ" или "ГЛ_ЛИЧН". Сказуемым объявляется вершина фрагмента. Обозначим сказуемое через P.
    1. Если Р - глагол в личной форме
      1. Если P является словом "казаться", "следовать" в "3л ед" или "ср", и перед ним есть ИГ в дательном падеже и без именительного, тогда не строим группу подлежащего

        Например:
        "Вам следует уйти" – не строится;
        "Пете кажется, что он прав"– не строится;
        "Леди следует в Париж"
        - (не подпадает под это правило , поскольку у слова "леди" все падежи

      2. Потенциальным подлежащим S может быть любая словоформа в номинативе следующих классов (в порядке приоритета):
        1. словоформа "кто";
        2. личное местоимение в номинативе;
        3. синтаксические существительные только с падежной омонимией номинатива-аккузатива и не "что";
        4. синтаксические существительные только с падежной омонимией номинатива-аккузатива и не "что";
        5. числительное "оба" в номинативе, не входящее в группу;
        6. синтаксические существительные, имеющие номинатив и не являющиеся "что";
        7. словоформа "что", если сказуемое является нетранзитивным глаголом или со сказуемым была построена группа ПРЯМ-ДОП.

          Например:
          "я знаю, что пришло ко мне"
          "я знаю, что сделало тебя дураком" – в этих случая "что" станет подлежащим.

        8. Одиночное числительное из класса "ОБА", "ДВОЕ", "ТРОЕ", "ЧЕТВЕРО"..., любое порядковое числительное или прилагательное, если оно имеет номинатив;
        9. Главное слово следующих групп в номинативе:
          • МОДИФ_ПРИЛ
            // "очень красивый"
          • НАР-ЧИСЛ-СУЩ
            // "несколько человек"
          • ЧИСЛ-СУЩ
            // "два человека"
          • АППРОКС_ИГ
            // "человека два"

Если потенциальное подлежащее входит в группу, то проверяются граммемы группы, а не конкретного омонима словоформы. Это срабатывает в предложении "пять мальчиков пришли", где у всей группы "пять мальчиков" есть номинатив.

Эти классы перебираются от a) до i). Близость потенциального подлежащего к сказуемому (если нашлось сразу две гипотезы в одном классе) в целом не учитывается, однако потенциальные подлежащие, которые стоят за две группы после(!) сказуемого не рассматриваются.

После обнаружения гипотеза проверяется на согласование со сказуемым:

  1. Согласование одиночных числительных из класса "оба" со сказуемым такое же, как и личного местоимения "они";
  2. Согласование других лемм идет в зависимости от части речи сказуемого.

Если сказуемое – глагол в личной форме, тогда:

  1. Либо выполняется правило GleicheSubjectPredicate
  2. Либо подлежащее входит в группу, и сказуемое не имеет граммем первого, второго лица и императива, и выполняется правило GleicheSubjPredForNumeralAndSimilar.

Если сказуемое – сравнительное прилагательное, тогда подлежащее должно стоять до него, никакого согласования не требуется.

Если сказуемое – краткое прилагательное или краткое причастие, тогда должно выполняться одно из трех:

  1. подлежащее имеет граммемы  первого или второго лица и подлежащее и сказуемое согласовано по числу.
  2. выполняется правило GenderNumber
  3. выполняется правило GleicheSubjPredForNumeralAndSimilar.

 

Многосоставные обороты, для которых существует омонимия ГХ ^
ГХ      = 1  ВВОДН
          2  ЧАСТ

синтаксис оставляет помету и отношение оборот в любом случае, если омонимии ГХ нет, т.е. только ГХ = ВВОДН, и оборот не выделен знаками пунктуации синтаксис удаляет информацию об обороте.

Односоставные обороты, для которых существует омонимия ГХ:

ГХ      = 1  ВВОДН
          2  ЧАСТ

синтаксис оставляет помету и отношение оборот только в том случае, если оборот выделен знаками пунктуации, иначе синтаксис удаляет информацию об обороте и омоним ВВОДН, но оставляет омоним ЧАСТ. Существует непосредственная зависимость словаря Оборотов от морфологического словаря: все односоставные обороты, для которых существует такого рода омонимия ГХ, в морфологии имеют два омонима с ч.р. ВВОДН и ЧАСТ.

 

Правила работы с тезаурусами ^

До применения вышеуказанных правил из пункта 1 Синтаксический анализ обращается к тезаурусам: общему, компьютерному, финансовому и локативному. Происходит выявление терминов. Если термин найден по модели ПГ (предложная группа) или ПРИЛ-СУЩ (Прилагательное-существительное "Нижегородская область"), то Синтаксический анализ применяет к нему и ко всем его омонимам правила построения соответственно ПГ и ПРИЛ-СУЩ. Если соответствующая группа строится, то все остальные омонимы "убиваются" и группа подтверждается как термин, в противном случае она не подтверждается как термин. Если термин найден по любой другой модели, то он подтверждается как термин без проверки.

 

Правило об ОДНОР_ИГ с тремя или более элементами (Сокирко А.В.) ^

Описание алгоритма

Правило работает на синтаксисе до этап разделения на клаузы.

Пусть дано лемматизированное предложение. Найдем в нем все ряды существительных, местоимений-существительных или групп ПРИЛ-СУЩ [4] вида "С(1),..., С(n-1) V С(n)" или "С(1),...,С(n)", где n>2 и V – союз "и","или". Например, в предложении папа, мама, брат и я найдется три таких ряда: папа, мама, брат

 мама, брат и я

 папа, мама, брат и я.

Пусть Х - один из возможных таких рядов. Проверим некоторые

условия для него:

  1. Не должно одновременно существовать неомонимичной предикатной вершины [5]слева от первого элемента Х, не отделенной знаками препинания (",;:-"), и неомонимичной предикатной вершины справа от последнего элемента Х, не отделенной теми же знаками препинания. Например, это условие не выполняется в сл. примере:
    Я люблю стол, стол и стул любят меня
  1. Все элементы ряда Х должны быть согласованы по падежу. Например, это условие не выполняется в примере: мама, папа и столом
  2. В ряд не может входить только одно слово-обращение: сэр, джентльмен, мама, папа, брат... (все это можно получить из общего тезауруса), например: Без сомнения, сэр, слово такого крупного ученого, как вы, для нас закон.
  1. Если ряд состоит из слов-обращений, то туда не может входить слово, которое не является обращением, например:
    Добрый вечер, дамы и господа, -- сладким голосом сказала она.
  2. Никакая часть ряда Х не должна входить в многословный оборот, например,
    Без сомнения, сэр, слово такого крупного ученого, как вы, для нас закон
  3. Никакой элемент ряда Х не должен быть омонимичен вводному слову, например,
    Какое-то время, правда, блок еще мог продержаться

Если хотя бы одно из условий не выполнилось, то гипотеза Х удаляется.

Максимальная из оставшихся гипотез считается лучшей. Для этой гипотезы строится синтаксическая группа. Эта синтаксическая группа считается безусловной, т.е. через нее не может идти межклаузной границы или границы другой группы.

 

Тестирование ^

Я получил по конкордансу 156 примеров трех существительных, идущих через запятую или союз "и". Примерно 140 из них оказалось релевантными, т.е. соглас. по падежу и удовлетворяющими всем условиям. Из них по первым прикидкам только 1 пример дает ошибку:

 Она корчилась, словно от нестерпимой боли, руки и ноги ее сводило судорогой.

 Но, что важно, на этом примере синтаксис сам ошибается. Значит, введением этого правила мы не ухудшим ситуацию.

 

 

[1] Пункты II) III) IV) Работают сразу после пункта I). Правила формируют группы прил_сущ для случаев обособления согласованного определения в препозиции, согласования по 6 падежам и необособленного согласованного  определения в постпозиции.

[2] Работают после анализа необособленного и обособленного согласованного определения в препозиции и дополнительных правил построения групп сущ_обс_прил.

[3] Если после приложения отсутствует запятая (например, в конце предложения), тогда эта группа перекрывается группой ОДНОР_ИГ.

[4] Кроме одиночных существительных и местоимений, элементами однородного ряда могут быть целые ПРИЛ-СУЩ, которые строятся форматкой ПРИЛ-СУЩ после отработки форматок ОДНОР_ПРИЛ, МОДИФ_ПРИЛ, ОДНОР_КОЛИЧ. Предполагается, что перед запуском описываемого правила все эти форматки уже отработали.

[5] Неомонимичной предикатной вершиной назовем неомонимичную словоформу глагола, предикатива, краткого прилагательного или тире (дефис, слева и справа от которого стоят пробелы).

главная о нас продукты скачать  демо технологии   ^

 
Разработка DiP.
© 2003 АОТ. Все права защищены.