• История -Публицистика -Психология -Религия -Тюркология -Фантастика -Поэзия -Юмор -Детям                 -Список авторов -Добавить книгу
  • Константин Пензев

    Хемингуэй. Эпиграфы для глав

    Мусульманские праздники

    Тайны татарского народа


  • Полный список авторов

  • Популярные авторы:
  • Абдулла Алиш
  • Абдрахман Абсалямов
  • Абрар Каримулин
  • Адель Кутуй
  • Амирхан Еники
  • Атилла Расих
  • Ахмет Дусайлы
  • Аяз Гилязов
  • Баки Урманче
  • Батулла
  • Вахит Имамов
  • Вахит Юныс
  • Габдулла Тукай
  • Галимжан Ибрагимов
  • Галимъян Гильманов
  • Гаяз Исхаки
  • Гумер Баширов
  • Гумер Тулумбай
  • Дердменд
  • Диас Валеев
  • Заки Зайнуллин
  • Заки Нури
  • Захид Махмуди
  • Захир Бигиев
  • Зульфат
  • Ибрагим Гази
  • Ибрагим Йосфи
  • Ибрагим Нуруллин
  • Ибрагим Салахов
  • Кави Нажми
  • Карим Тинчурин
  • Каюм Насыри
  • Кул Гали
  • Кул Шариф
  • Лев Гумилёв
  • Локман-Хаким Таналин
  • Лябиб Лерон
  • Магсум Хужин
  • Мажит Гафури
  • Марат Кабиров
  • Марс Шабаев
  • Миргазыян Юныс
  • Мирсай Амир
  • Мурад Аджи
  • Муса Джалиль
  • Мустай Карим
  • Мухаммат Магдиев
  • Наби Даули
  • Нажип Думави
  • Наки Исанбет
  • Ногмани
  • Нур Баян
  • Нурихан Фаттах
  • Нурулла Гариф
  • Олжас Сулейменов
  • Равиль Файзуллин
  • Разиль Валиев
  • Рамиль Гарифуллин
  • Рауль Мир-Хайдаров
  • Рафаэль Мустафин
  • Ренат Харис
  • Риза Бариев
  • Ризаэддин Фахретдин
  • Римзиль Валеев
  • Ринат Мухамадиев
  • Ркаил Зайдулла
  • Роберт Миннуллин
  • Рустем Кутуй
  • Сагит Сунчелей
  • Садри Джалал
  • Садри Максуди
  • Салих Баттал
  • Сибгат Хаким
  • Тухват Ченекай
  • Умми Камал
  • Файзерахман Хайбуллин
  • Фанис Яруллин
  • Фарит Яхин
  • Фатих Амирхан
  • Фатих Урманче
  • Фатых Хусни
  • Хабра Рахман
  • Хади Атласи
  • Хади Такташ
  • Хасан Сарьян
  • Хасан Туфан
  • Ходжа Насретдин
  • Шайхи Маннур
  • Шамиль Мингазов
  • Шамиль Усманов
  • Шариф Камал
  • Шаукат Галиев
  • Шихабетдин Марджани
  • Юсуф Баласагуни




  • Сабиров Равиль

    О структуре и использовании татарско-русского и русско-татарского электронного переводчика


    Краткое содержание

    §1. Основные принципы построения электронных переводчиков

    §2. Требования и пожелания при пользовании электронными переводчиками

    §3. Особенности татарско-русского переводчика по сравнению с другими межъязыковыми электронными переводчиками

    §4. Этапы построения татарско-русского переводчика


    Вступительное слово

    Настоящий татарско-русский и русско-татарский переводчик является первой попыткой создания локального переводчика на материалах агглютинативного и флективного языков.

    В данном руководстве мы постарались кратко и доступно объяснить логику построения татарско-русского и русско-татарского электронного переводчика. Руководство написано, в первую очередь, для неспециалистов, т.е. для обычного пользователя (параграфы 1 и 2). В то же время мы в наиболее краткой форме обрисовали круг проблем, которые появляются при составлении подобных переводчиков (параграфы 3 и 4 – для специалистов).

    Для пояснения некоторых моментов мы обращались к мнению крупных компаний (они выделены курсивом), которые занимаются составлением электронных переводчиков на протяжении более десяти лет.

    Для примеров мы использовали алгоритмы и данные татарско-русского переводчика, т.к. именно здесь лингвистические проблемы проявляются наиболее выпукло, и именно татарско-русский переводчик более востребован как в нашей республике, так и за ее пределами.



    1. Основные принципы построения электронных переводчиков

    Ознакомление с электронными переводчиками следует начинать с нескольких основных моментов, чтобы представлять предмет рассмотрения.

    Во-первых, все электронные переводчики делятся на два типа: он-лайн переводчики и локальные переводчики. Они отличаются друг от друга, в первую очередь, методикой обработки базы данных.

    Он-лайн переводчики, имея практически неограниченные ресурсы, берут простым количеством обрабатываемого материала. Иначе говоря, они вводят в свои базы данных огромный массив правильно переведенных параллельных текстов. На основе обработки невероятного количества гигабайтов информации машина сама моделирует предложение. Понятно, что при этом вначале вводится словари, самые простые парадигмы (если они возможны – зависит от структуры языка) и самые простые морфологические схемы. А синтаксические схемы машина вырабатывает уже на базе правильных параллельных предложений.

    Локальные переводчики не могут позволить себе обработку несметного количества материала, и они идут по пути внедрения различных парадигм, синтаксических правил, правил синтаксической сочетаемости слов, порядка предложения, и, наконец, правил семантической сочетаемости слов. Иначе говоря, локальные переводчики призваны распознать слова, словосочетания, отнести их в нужные разряды, и на основе этого сделать перевод. А потом правильно расположить эти слова в собственно переводе, чтобы получился осмысленный текст, а не набор слов. Таким образом, локальные переводчики призваны сделать осмысленный перевод, насколько это возможно машине. Локальные переводчики связаны с проблемой формализации значения.

    Формализация значения – это попытка разъяснить машине значение того или иного слова на основе многих факторов (соотнесенность к определенной части речи, частность использования в языке, расположение слова в предложении, соседство с другими словами, тематическая особенность контекста, наличие слова с данном абзаце, подбор синтаксической модели и т.п.) , и уже на основе выработанного значения (в кодах машины) перевести его на другой язык, где на основе тех же факторов подбирается соответствующая лексема.

    Как видим, локальные переводчики предполагают диалог с машиной. Наш переводчик относится именно к данному типу переводчиков.


    Во-вторых, локальные переводчики в том виде, в котором мы составляем его, преследует множество целей. Среди которых:

    1. перевод текста для изучающих татарский язык (для широкого круга);

    2. перевод отдельных словоформ и словосочетаний при работе с татарским языком (для школьников, переводчиков);

    3. перевод текста по определенной тематике;

    4. проверка правильного написания слова;

    5. определение морфологической категории слова (для учителей, школьников).

    Последние три пункта нами еще не разработаны, но они предполагают достаточно быстрое разрешение, так как основные морфологические и синтаксические структуры разрабатываются в основной части. Дополнения в словарь (в том числе терминов) осуществляется через простое указание их типов в базе данных.


    В-третьих, локальный переводчик – инструмент, который должен постоянно совершенствоваться. Предполагается расширение не только словарной базы и усовершенствования правил, но также внедрение рекурсивных образований, т.е. продолжения татарской и русской парадигм. Это позволит перейти к вопросу генерации предложения, над которым уже много лет работают лингвисты.



    2. Требования и пожелания при пользовании электронными переводчиками

    Когда перед пользователем предстает электронный переводчик, тем более, первая версия переводчика, он может воспринять его как нечто универсальное. Но обратимся к тем составителям электронных переводчиков, которые занимаются этим более десятка лет. Лидером по составлению локальных электронных переводчиков является PROMT:

    Давайте вначале разберемся, как система машинного перевода осуществляет перевод текста.

    Текст представляет собой набор слов, связанных между собой определенным порядком. Может показаться, что для перевода текста достаточно просто перевести все слова. Но тогда мы получим никак не связанный между собой набор слов.

    Система перевода должна оценивать порядок слов в предложении. А в каждом языке есть еще и свои особенности: обороты, усилительные конструкции, слова с переносным значением и т.д. Поэтому, системы машинного перевода должны учитывать еще и все особенности языков, с которого и на который осуществляется перевод.

    Это очень сложная задача, и на сегодняшний день систем машинного перевода, учитывающих все эти факторы, не существует. Поэтому, пока идеального результата от автоматического перевода добиться невозможно. Некоторые переводчики работают лучше, некоторые хуже.

    Татарский и русский языки относятся не только к разным типам языков по форме сочетания слов (татарский, турецкий, суахили – агглютинативные, русский, английский, французский – флективные), но и в корне отличаются синтаксически: построением предложения.

    На сегодняшний день лидеры по созданию локальных переводчиков ограничиваются несколькими мировыми языками. И это не случайно, так как каждый язык требует собственного уникального подхода. И не следует в таких случаях ориентироваться на он-лайн переводчики, где представлено большое количество языков. Но там качество перевода зависит лишь от количества обработанных параллельных текстов.

    Далее цитируем тот же PROMT, пожелания которого относятся и к нашему переводчику:

    Результаты практических тестов

    Практика использования систем машинного перевода показала, что тексты, состоящие из сложных предложений, из причастных и деепричастных оборотов, жаргонных слов переводятся очень плохо.

    Основной способ добиться максимального качества перевода — это упрощение переводимого текста (если это возможно).

    Лучше всего использовать простые предложения с минимальным набором знаков препинания. Порядок следования членов предложения — стандартный: подлежащее, сказуемое, дополнение.

    Для татарского языка: подлежащее – дополнение – сказуемое.

    Длинные тексты также в большинстве случаев переводятся хуже, чем короткие. По возможности следует разбивать большой текст на части (по абзацам). Тем более, что большинство онлайн-переводчиков ограничивают текст, который может быть переведен за один раз.

    Не забывайте проверять текст перед переводом на грамматические и пунктуационные ошибки. Это очень важное требование, которое, однако, редко кто соблюдает. Текст с ошибками не может быть переведен правильно.

    Для улучшения качества перевода стоит воспользоваться несколькими системами перевода. Результат их работы будет различен — вам потребуется просто объединить все вместе.

    Основные советы по улучшению качества перевода:

    Используйте по возможности простые предложения.

    Проверяйте текст перед переводом на ошибки.

    Проверяйте правильность расстановки знаков препинания.

    Проверяйте наличие знаков окончания предложения (точки, восклицательного или вопросительного знаков).

    Правильно выбирайте тематику перевода (если есть такая возможность).

    Переводите текст абзацами, а не короткими предложениями.

    Переводите текст несколькими системами онлайн-перевода, результат объединяйте.

    Если у вас есть необходимость постоянного перевода текстов, установите себе программу-переводчик. Переводчик, реализованнный в виде программы, позволяет добиться лучшего качества перевода, чем при использовании онлайн-переводчиков.

    Он дает множество преимуществ:

    Нет ограничений на размер переводимого текста.

    Поддержка большого количества тематик перевода.

    Поддержка множества направлений перевода.

    Возможность подключения дополнительных словарей.

    Диалог с пользователем в процессе перевода, проверка орфографии.

    Удобный и понятный интерфейс, текстовый редактор.

    Интеграция переводчика с другими программами.

    Дополнительные инструменты: виртуальная клавиатура, словарь, транслит, перекодировщик, произношение и др.

    Понятно, что некоторые функции, как дополнительные инструменты, нам только предстоит разработать. Но это работа лежит большей частью в технической, а не в лингвистической области. Важно то, что именно в татарском языке ранее всех других тюркских (агглютинативных) языков, разрабатываются основные правила автоматического перевода на флективный язык. Это позволит в дальнейшем разработать перевод татарского на английский и другие флективные языки (французский, испанский, немецкий, арабский).



    3. Особенности татарско-русского переводчика по сравнению с другими межъязыковыми электронными переводчиками

    При составлении татарско-русского электронного переводчика необходимо указать, что это первый опыт такой переработки лексического и грамматического материала татарского языка.

    Поэтому в руководстве мы хотели бы указать на некоторые особенности татарской грамматики. Морфологический анализ слов не дает полной определенности в соотнесении того или иного слова к определенной части речи. Если, например, в русском языке имена прилагательные, наречия имеют формальные признаки, то таковых у татарских «свойств» нет. Чаще всего они определяются только семантически. Но так как «железо» и семантика – вещи несовместимые, то многие лексемы определяются лишь по их функционированию (местоположению) в предложении. Не случайно Г. Алпаров, Дж. Валиди и множество других лингвистов в своей грамматике не выделяли их как самостоятельные части речи, а рассматривал функциональными формами имени существительного. Так он пишет: “Исем белән сыйфат үзләренең тышкы күренешләре белән бер-берсеннән аерылмау, ахырларына бер үк кушымчалар килергә мөмкин: булу һәм хәтта, урынына карап, бер үк сүзнең исем дә, сыйфат та булуы безне монда, аларның ясалышын, тышкы күренешләрен тикшергәндә, һәр икесен бергә йөртергә мәҗбүр итә”[1].

    Вольное содержание высказывание приведем из “Татарской грамматики”: “Дж. Валиди говорит о том, что русские выделяют прилагательные в отдельную часть речи не столько по значению, сколько по окончаниям, а в татарском языке прилагательные таких особых показателей не имеют, они различаются лишь по значению”[2].

    Смысловой и функциональный характер татарской морфологии придает дополнительную сложность при определении части речи татарского языка. Данное явление придает татарскому языку своеобразный аналитизм. Русский язык, являясь синтетическим языком, опирается на формальные, а татарский язык опирается на функциональные характеристики. Таким образом, «синтаксический характер» татарского языка порождает огромное количество омоформ.

    Например, практически каждый односложный глагол в повелительном наклонении имеет одну или две омоформы: яз (пиши, пахтай) и яз (весна), кара (смотри) и кара (черный, чернила).

    Огромное количество татарских омоформ можно разграничить между собой только путем синтаксического или семантического анализа (см. 3 и 4 этапы в следующем пункте).

    Появлению такого количества омонимичных форм способствует и то, что татарский язык придерживается фонетического принципа орфографии (как слышишь, так и пишешь). Например, при разработке французского-русского и английско-русского переводчиков эта проблема разрешается само собой, так как в этих языках преобладает традиционный принцип написания.

    Вообще, недостатки татарской орфографической системы придают нашей работе дополнительные трудности. Различные написания большого количества слов в различных изданиях, сознательное пренебрежение некоторыми авторами уже принятых норм – все это лишь препятствует вхождению татарского языка в общемировую информационную сеть.


    4. Этапы построения татарско-русского переводчика

    Этапы составления татарско-русского переводчика состоят из следующих шагов:

    1-й этап. Составление словарной базы

    Составление словарной базы заключается в том, что на базе имеющихся двуязычных, толковых, частотных и специализированных словарей нужно составить «словник» с одним переводом. Если кому-то это покажется простым, то для примера можно привести татарский глагол салу (класть, положить, закладывать, выпивать и т.п.), который имеет 22 значения. Поэтому при составлении подобных словников важно выбрать главное значение, которое может быть прямым или переносным, а в словаре первым, вторым или даже пятым.

    Главное значение – (как термин для подобного рода исследований) – значение, которое наиболее часто используется на данном этапе развития языка, или в данном тематическом контексте.

    Зачастую выбор главного значения можно определить только путем долгой апробации уже готового переводчика. Необходимо отметить, что от правильного выбора варианта из огромного количества выборов зачастую зависит и качество перевода. И если в татарско-русском переводчике просто огромное количество омонимичных форм, то в русском языке можно отметить целые омонимичные грамматические модели. Например, РП единственного числа и множественное число: книги (китап/китаплар), окна (тәрәзә/тәрәзәләр), леса (урман, урманнар).

    При определении частей речи для татарского языка нам пришлось отойти от Академической грамматики (см. 3 пункт). Так, нами были определены 2 дополнительных субстантива (на русский язык они переводятся существительными – отсюда и наименование). Субстантив 1 – это имена действия (словарная форма): бару – хождение, китү – уход, чабу – бег, косьба, срубание. Это “номинативный” перевод. При переводе их глаголами мы имеем соответсвующие инфинитивы: ходить, уходить, бежать (косить, рубить). Субстантив 2 – это глагольная форма неопределенного прошедшего времени в 3-м лице ган: укыган (читал, читавший). Последняя форма может быть и причастием, и существительным.

    Составление словарной базы предполагает распределение всего лексического состава переводимого языка по частям речи. В татарско-русском переводчике, большое количество слов переводятся и как прилагательные, и как существительные; или и как прилагательные, и как наречия.

    В русско-татарском переводчике мы местоимения и числительные вообще распределили по существительным и прилагательным в соответствии с грамматической парадигмой. Так, порядковые числительные стали прилагательными: первый, первого, первые, а, скажем, личные местоимения существительными: ты (тебя, тебе, тебя, тобой).

    Отдельно можно сказать и о полной омонимии. Она бывает двух типов: относящиеся к одной части речи (ключ), относящиеся к разным частям речи (сечь).

    Омонимы, относящиеся к разным частям речи, распознаются на 3 этапе, а относящиеся к одной части речи, только на 4 этапе.


    2-й этап. Составление морфологических парадигм

    Морфологические парадигмы составляются по типам. Например, все глаголы татарского языка можно отнести к 32 различным типам. Для каждого типа определяется основа (она не всегда совпадает с основой, принятой в Академической грамматике) и соответствующий фланк[3] (см. вставку 1 – невозможно предоставить в бумажном виде из-за большого формата). Отрывок:


    словарная

    основа

    тип

    ИД

    Повел 2 ед

    Повел 2 ед -

    ИД -

    Инфин

    Инфин -

    Услов

    V004

    V004

    V002

    V003

    V005

    V006

    V007

    V008

    Курку

    кур

    1

    ку

    ык

    ыкма

    ыкмау

    кырга

    Ыкмаска

    ыкса

    Бию

    би

    2

    ю

    е

    емә

    емәү

    ергә

    емәскә

    есә

    төяү

    тө

    3

    яү

    я

    ямә

    ямәү

    яргә

    ямәскә

    ясә

    кибү

    ки

    4

    бү

    п

    пмә

    пмәү

    бәргә

    пмәскә

    псә

    дию

    ди

    5

    ю

    -

    мә

    мәү

    яргә

    Мәскә

    сә

    сөю

    сө

    6

    ю

    й

    ймә

    ймәү

    яргә

    ймәскә

    йсә

    кую

    ку

    7

    ю

    й

    йма

    ймау

    ярга

    Ймаска

    йса

    буяу

    бу

    8

    яу

    я

    яма

    ямау

    ярга

    Ямаска

    яса

    чабу

    ча

    9

    бу

    п

    пма

    пмау

    барга

    Пмаска

    пса

    яву

    я

    10

    ву

    ву

    ума

    ума

    варга

    Умаска

    уса

    уку

    ук

    11

    у

    ы

    ыма

    ымау

    ырга

    ымаска

    ыса

    күнегү

    күне

    12

    гү

    к

    кмә

    кмәү

    гергә

    кмәскә

    ксә

    төзү

    төз

    13

    ү

    е

    емә

    емәү

    ергә

    емәскә

    есә

    тегү

    те

    14

    гү

    к

    кмә

    кмәү

    гәргә

    кмәскә

    ксә

    иркенәю

    иркенә

    15

    ю

    й

    ймә

    ймәү

    ергә

    ймәскә

    йсә

    менү

    мен

    16

    ү

    -

    мә

    мәү

    әргә

    Мәскә

    сә

    аңгыраю

    аңгыра

    17

    ю

    й

    йма

    ймау

    ерга

    ймаска

    йса

    бушаю

    буша

    18

    ю


    ама

    амау

    арга

    амаска

    аса

    йөрү

    йөр

    19

    ү

    -

    мә

    мәү

    ергә

    Мәскә

    сә

    чыгу

    чы

    20

    гу

    к

    кма

    кмау

    гарга

    кмау

    кса

    сату

    сат

    21

    у

    -

    ма

    мау

    арга

    маска

    са

    кызыгу

    кызы

    22

    гу

    к

    кма

    кмау

    гырга

    кмау

    кса

    итү

    ит

    23

    ү

    -

    мә

    мәү

    әргә

    Мәскә

    сә

    күрсәтү

    күрсәт

    24

    ү

    -

    мә

    мәү

    ергә

    Мәскә

    сә

    карау

    кар

    25

    ау

    а

    ама

    амау

    арга

    амаска

    аса

    амнистияләү

    амнистациял

    26

    әү

    ә

    әмә

    әмәү

    әргә

    әмәскә

    әсә

    бирү

    бир

    27

    ү

    -

    мә

    мәү

    ергә

    Мәскә

    сә

    бозу

    боз

    28

    у

    -

    ма

    мау

    арга

    маска

    са

    болгату

    болгат

    29

    у

    -

    ма

    мау

    ырга

    маска

    са

    бару

    бар

    30

    у

    -

    ма

    мау

    ырга

    маска

    са

    баю

    ба

    31

    ю

    е

    ема

    емау

    ерга

    емаска

    еса


    Для русского языка:


    сесть

    с

    221

    есть

    ядь

    ядьте

    Яду

    ядешь

    ядет

    цвесть

    цве

    222

    сть

    ти

    тите

    Ту

    тешь

    тет

    вкрасться

    вкра

    223

    сться

    дись

    дитесь

    Дусь

    дешься

    дется

    въесться

    въе

    224

    сться

    шься

    шьтесь

    Мся

    шься

    стся

    клясться

    кля

    225

    сться

    нись

    нитесь

    Нусь

    нешься

    нется

    усесться

    ус

    226

    есться

    ядься

    ядьтесь

    Ядусь

    ядешься

    ядется

    грызть

    грыз

    227

    ть

    и

    ите

    У

    ешь

    ет

    грызться

    грыз

    228

    ться

    ись

    ите

    Усь

    ешься

    ется

    лезть

    лез

    229

    ть

    ь

    ьте

    У

    ешь

    ет

    отодрать

    от

    230

    одрать

    дери

    дерите

    Деру

    дерешь

    дерет

    отпереться

    от

    231

    переться

    опрись

    опритесь

    Опрусь

    опрешься

    опрется

    скакать

    ска

    232

    кать

    чи

    чите

    Чу

    чешь

    чет

    словарная

    основа

    тип

    инфинтив

    повел ед

    повел мн

    наст 1 ед

    наст 2 ед

    наст 3 ед

    RV001

    RV001

    RV002

    RV003

    RV004

    RV005

    RV006



    Как видим, мы составили парадигму глагольных форм, которые в итоге приобретают соответствующий код. Такие же парадигмы по типам составляются и для русского языка. В русском языке типов значительно больше. Например, у глаголов 230 типов. Однако мы разделили глагол на три части: собственно глагол (107 моделей), причастные формы (16 моделей), деепричастные формы (две модели). Дело в том, что причастия принимают парадигму прилагательных, а деепричастия по своим функциям схожи с наречиями.

    Выделение типов и составление полных парадигм – работа не только необходимая, но и важная для татарского языкознания вообще. К сожалению, у нас до сих пор нет полноценных электронных парадигм, словарей омоформ, грамматических словарей и т.п.


    Далее, составляется таблица соответствия кодов татарских и русских глаголов:


    Тат яз

    Тат яз

    Рус яз

    Рус яз

    V002

    повел 2 ед

    V002

    повел ед

    V003

    повел 2 ед –

    не V002

    не повел ед

    V004

    имя д

    V001

    Инфин

    V005

    имя д –

    не V001

    Не инфин

    V006

    инфин

    V001

    Инфин

    V007

    Инфин –

    не V001

    Не инфин

    V008

    Услов

    если V005

    Если наст 3 ед

    V009

    Услов –

    если не V005

    Если не наст 3 ед

    V010

    Повел 3 ед

    Пусть V005

    Пусть наст 3 ед

    V011

    Повел 3 ед –

    Пусть не V005

    Пусть не наст 3 ед

    V012

    Повел 2 мн

    V006

    Повел 2 мн

    V013

    Повел 2 мн –

    Не V006

    Не повел 2 мн

    V014

    Повел 3 мн

    Пусть V009

    Пусть наст 3 мн

    V015

    Повел 3 мн –

    Пусть не V009

    Пусть не наст 3 мн

    V016

    Наст 1 ед

    V003

    Наст 1 ед

    V017

    Наст 2 ед

    V004

    Наст 2 ед

    V018

    Наст 3 ед

    V005

    Наст 3 ед

    V019

    Наст 1 мн

    V007

    Наст 1 мн

    V020

    Наст 2 мн

    V008

    Наст 2 мн

    V021

    Наст 3 мн

    V009

    Наст 3 мн

    V022

    Наст 1 ед –

    Не V003

    Не Наст 1 ед

    V023

    Наст 2 ед –

    Не V004

    Не Наст 2 ед

    V024

    Наст 3 ед –

    Не V005

    Не Наст 3 ед

    V025

    Наст 1 мн –

    Не V007

    Не Наст 1 мн

    V026

    Наст 2 мн –

    Не V008

    Не Наст 2 мн

    V027

    Наст 3 мн –

    Не V009

    Не Наст 3 мн

    V028

    Прош1 1 ед

    V010

    Прош ед мр

    V029

    Прош1 2 ед

    V010

    Прош ед мр

    V030

    Прош1 3 ед

    V010

    Прош ед мр

    V031

    Прош1 1 мн

    V013

    Прош мн

    V032

    Прош1 2 мн

    V013

    Прош мн

    V033

    Прош1 3 мн

    V013

    Прош мн

    V034

    Прош1 1 ед –

    Не V010

    Не Прош ед мр

    V035

    Прош1 2 ед –

    Не V010

    Не Прош ед мр

    V036

    Прош1 3 ед –

    Не V010

    Не Прош ед мр

    V037

    Прош1 1 мн –

    Не V013

    Не Прош мн

    V038

    Прош1 2 мн –

    Не V013

    Не Прош мн

    V039

    Прош1 3 мн –

    Не V013

    Не Прош мн

    V040

    Прош2 1 ед

    V010

    Прош ед мр

    V041

    Прош2 2 ед

    V010

    Прош ед мр

    V042

    Прош2 3 ед

    V010

    Прош ед мр

    V043

    Прош2 1 мн

    V013

    Прош мн

    V044

    Прош2 2 мн

    V013

    Прош мн

    V045

    Прош2 3 мн

    V013

    Прош мн

    V046

    Прош2 1 ед –

    Не V010

    Не Прош ед мр

    V047

    Прош2 2 ед –

    Не V010

    Не Прош ед мр

    V048

    Прош2 3 ед –

    Не V010

    Не Прош ед мр

    V049

    Прош2 1 мн –

    Не V013

    Не Прош мн

    V050

    Прош2 2 мн –

    Не V013

    Не Прош мн


    Здесь для примера показаны только 50 типов и соответствующие им типы русских глаголов. Всего их у нас 107. Необходимо отметить, что категория принадлежности, которая есть в татарском языке, и которой нет в русском, не представлена. Это результат практической апробации переводчика. Дело в том, что под влиянием русского языка в большинстве текстов читаем без барабыз (вместо стилистически правильного – барабыз) и при переводе получается нагромождение притяжательных форм: китабы – его книга, урындыклары – их стулья и т.п.


    В татарском языке, большое значение имеют глагольные конструкции и система аналитических глаголов, для которых также составляются соответствующие таблицы кодов.


    Татарский (коды)

    Русский язык (коды)

    Примеры

    V076 + АЛУ

    Немного V001-V015

    Эшләп алды

    Немного (по)работал

    V018 + АЛУ

    Мочь + V001 (инфинитив)

    Эшли алам

    Могу работать

    V076 + БАРУ

    Постепенно V001-V015

    Карап барам

    Санап барбыз

    Постоянно смотрю, постоянно считаем

    V018 + БАШЛАУ

    Начать + V001 (инфинитив)

    Эшли башладык

    Укый башлыйбыз

    Начали работать

    Начинаем учиться

    V076 + БЕТЕРҮ

    Закончить V001 (инфинитив)

    Укып бетердек

    Язып бетерербез

    Закончили читать (учиться)

    Закончим писать

    V076 + БЕТҮ

    Весь V001-V015

    Агарып бетте

    Весь побелел (белел)

    V076 + ҖИБӘРҮ

    начать V001 (инфинитив)

    Укып җибәрдек

    Начали учиться

    V076 + ҖИТҮ

    До конца V001-V015

    Барып җитте

    До конца дошел

    V076 + КАРАУ

    Попытаться (V001-V015) (инфинитив)

    Укып карады

    Попытался читать (учиться)

    V076 + КЕРҮ

    V001-V015 вовнутрь

    Очып керде

    Летел вовнутрь

    V076 + КИЛҮ

    постепенно V001-V015

    Язып килде

    Постепенно писал

    V076 + КИТҮ

    начинать + V001 (инфинитив)

    Йоклап киттегез

    (вы) начали спать

    V018 + КҮРҮ

    Обязательно V001-V015

    Эшли күр

    Обязательно сделай (работай)

    V076 + КУЮ

    быстро V001-V015

    Әйтеп куйдым

    Быстро я сказал

    V076 + МЕНҮ

    V001-V015 вверх

    Очып менде

    Летел вверх

    V076 + ТОРУ

    постоянно V001-V015

    Карап тора

    Постоянно смотрит

    V076 + ТӨШҮ

    V001-V015 вниз

    Очып төштеләр

    Летели вниз

    V076 + ТУЮ

    До конца V001-V015

    Ашап туйдым

    До конца ел

    V076 + ЧЫГУ

    До конца V001-V015

    Укып чыктым

    До конца читал

    V018 + ЯЗУ

    Чуть не V001-V015

    Егыла яздым

    Чуть не упал

    V076 + ЯТУ

    постоянно V001-V015

    Укып ята

    Постоянно учится

    V106 (макчы)+ БУЛУ

    намереваться + V001 (инфинитив)

    Бармакчы була

    Бармакчы булдык

    Намеревается идти

    Намеревались идти


    Таблица также представлена частично, однако необходимо отметить, что как парадигмы, так и таблицы кодов (при всем знании обоих языков, использования примеров и языковой интуиции) должны будут отрабатываться на практическом использовании первой версии переводчика.


    3-й этап. Применение общих и морфолого-синтаксических правил при распознавании слов переводимого языка

    Для применения правил необходимо, чтобы машина уверенно отнесла ту или иную словоформу к нужной части речи. Как уже указывалось, татарский язык изобилует огромным количеством омоформ. Они возникают вследствие синтаксических особенностей языка, а также связаны с фонетическим принципом орфографии. Для их различения и правильного соотнесения слова к той или иной части речи применяются правила формально-грамматического характера.

    Например:

    1. обращение к базовому словнику, в которых слова уже разделены по частям речи. Обращение должно быть расширенным, т.е. поиск основы не должен заканчиваться при первом же нахождении соответствующей словоформе начальной формы.

    2. Выбор омонимичных форм:

    Прилагательное или существительное

    Если adj перед noun, то это adj

    Если adj после noun, то это noun


    Глагол или существительное

    Verb в конце фразы и не имеет позиции после adj

    noun после adj


    Субстантив или глагол

    Verb в конце фразы и не имеет позиции после adj

    Subnoun после adj


    Здесь приведены некоторые общие правила, которых в нашем переводчике насчитывается более 50 (по частям речи).

    Подобная работа должна отрабатываться на практическом применении, и сами правила добавляются только после многократного использования интерферирующего (пересекающегося по данным) правила.


    Частные правила

    Некоторые, как татарские, так и русские слова требуют особого подхода. И мы для них разрабатывали правила частного характера. Это такие слова, как соң, ул, гына/кына, а в русском языке что, есть, дорогой. Например,


    чтоб


    после запятой

    союз

    правило послелога2

    глагол после чтобы в форме глагола до чтобы

    дип

    чтоб

    в остальных


    частица

    правило послелога2

    глагол в V 008, V 009, V 090, V 095

    (...сын)*

    чтобы


    после запятой

    союз

    правило послелога2

    глагол после чтобы в форме глагола до чтобы

    дип

    чтобы

    в остальных


    союз

    правило послелога2

    глагол в V 008, V 009, V 090, V 095

    дип


    Пример для татарского языка:


    1

    соң

    после сущ ЧК N 005, 11, 17, 23, 29, 35, 40, 46, 52, 58, 64, 70

    послелог

    правило послелога RN002 РП

    после

    1

    соң

    после частиц ...мы


    частица


    ли

    2

    соң

    перед глаголами


    наречие


    поздно

    2

    соң

    в остальных случаях


    частица


    же



    4-й этап. Использование семантической сочетаемости для определения значения слов

    Данный этап находится в стадии разработки, так как требует полного переоформления базы данных по тематическим признакам (для имен) и характеру действия (для глаголов). Для этого необходимо составить татарский идеографический словарь, которого, как ни странно, до сих пор нет.

    По использованию определенной группы слов можно говорить об общей тематике отдельного предложения и абзаца. Простой пример: корт (гусеница, корт (блюдо)) и корт (корт теннисный) можно отличить по сопутствующим словам в тексте. Если, скажем, в данном предложении или в примыкающих предложениях встречаются слова ракетка, теннис, спорт и т.п. (спортивная тематика), то и перевод будет соответствующим.

    Для оформления из татарского языка местоимения ул (он, она, оно, это, сын) никак не обойтись без контекстуального анализа. Без выяснения того, к кому относится личное местоимение (он, она, оно), «железный мозг» не может выбрать нужный вариант.

    Аның кызы хат язды. Ул хатны укыды. Его девушка написала письмо. Он (она?) прочитал(а) письмо.


    5-й этап. Применение правил оформления предложения в переведенном тексте

    После прохождения первых четырех этапов остается последний, быть может, наиболее сложный этап. Сложность здесь заключается в том, что если на первых четырех этапах допущена какая-нибудь неточность, или неправильно выбрана вероятность выбора того или иного значения, то здесь может получиться абракадабра.

    На данном этапе вступают уже правила переведенного языка. В первую очередь, в татарско-русском переводчике – это сочетаемость по роду (числу). Известно, что в татарском языке нет категории рода и, соответственно, род определяется по существительному по следующим правилам:


    род adj определяется (соответствует) по noun в постпозиции (следующему)

    род verb (прошедшее время) определяется по noun в препозиции (предыдущему)

    род verbadj (причастие) определяется по ближайшему noun в препозиции (предыдущему) и постпозиции.


    Далее применяется правило определения места сказуемого и дополнения (обычно это имя в косвенном падеже).


    Порядок слов в РТС




    РЯ

    ТЯ

    глагол сущ1.


    в конце предложения

    сущ глагол.

    глагол предлог сущ.


    в конце предложения

    сущ послелог глагол.

    сущ0 глагол сущ1


    везде

    сущ0 сущ1 глагол

    глагол сущ0 сущ1


    везде

    сущ0 сущ1 глагол

    глагол сочприл сочсущ1


    везде

    сочприл сочсущ1 глагол





    пояснения




    RN001, 007

    нач форма

    сущ0


    RN002-006, 008-012

    косв падежи

    сущ1


    сочприл

    согласованное (сочетаемое) прилагательное


    сочсущ

    согласованное (сочетаемое) существительное




    Использование дальнейших правил зависит от результатов 4 этапа, над решением которых только начата работа.


    Таким образом, основная работа составляет 5 этапов. Остальные этапы работы, как определение значения слова по контексту, составление тематических переводчиков могут идти параллельно с дальнейшим усовершенствованием переводчика.



    Вместо заключения

    Составление электронных переводчиков – необходимый элемент развития тех языковых культур, которые при условиях глобализации, испытывают серьезное давление со стороны «мировых» языков: английского, испанского, русского и т.п.

    На современном этапе локальные переводчики имеют очень малое количество языков. «Малые» языки предпочитают он-лайн переводчики, в которых не разрабатывается система формально-грамматических правил, правил семантической сочетаемости и проблем контекстуальности (последнее особенно важно для татарского языка).

    Поэтому, именно наличие локального переводчика в системе мировых языков позволит внести татарский язык и в мобильные переводчики, и в сотовые телефоны, и в другие технологии.


    Возникают вопросы:

    Можно ли использовать электронные переводчики в общеобразовательных учебных заведениях?

    Конечно, можно. Но полностью опираться на «бездушный» перевод машин все же не стоит. Электронные переводчики – не панацея, а просто помощник, каким, например, является словарь, но только на более высоком уровне. Более того, для общеобразовательных школ, на наш взгляд, намного целесообразнее подготовить расширенный словарь (словарь словоформ и устойчивых словосочетаний) с морфологическими пояснениями.

    Можно ли локальными переводчиками осуществлять переводы классических художественных текстов?

    Нежелательно. Потому что каждый писатель, ставший классиком, имеет присущий только ему стиль, он использует все тонкости языка и через это передает национальный менталитет, мастерит на языковом материале собственное уникальное миропонимание. Вряд ли на современном этапе машина сможет достоверно передавать духовный мир писателя, его героев (и сможет ли вообще?!). Зачастую живые переводчики не способны сделать этого («непереводимые» «Вечера на хуторе близ Диканьки» Гоголя, некоторые стихи Пушкина, Лермонтова, Фета). Оговоримся, что это касается только классических признанных произведений. Вполне вероятно, что определенные произведения, написанные в легком жанре, будут переводиться легко.


    Для получения достойного локального (осмысленного) переводчика необходимо провести невероятно огромную работу по составлению полных электронных словарей. В первую очередь, это касается татарского языка, где нет идеографического словаря (в русском языке он в свободном доступе в Интернете), словаря омоформ и омографов (то же самое), словаря парадигм и словоформ (в русском – Зализняк), большого количества специальных словарей (омонимов, антонимов, синонимов, грамматического).

    И, наконец, составление локальных электронных переводчиков – большой шаг не только для внедрения татарского языка в мировую информационную сеть, для создания базы при изучении языка и т.п., но и важнейший элемент переосмысления всего лексического и особенно грамматического материала (хотя бы логичное распределение слов по частям речи), в первую очередь, татарского и других агглютинативных языков.




    [1] Вәлиди Җ. Сайланма хезмәтләр. – Казан: Мәгариф, 2007. – Б. 65.

    [2] Татарская грамматика. Том II. Морфология. – Казань: Татар. кн. изд-во, 1994. – С. 26.

    [3] Под термином «фланк» мы подразумеваем морфемы, кроме корневой, т.е. суффиксы, окончания и т.п., но лишенные семантического наполнения.




  • Скачать бесплатно татарско-русский и русско-татарский электронный машинный переводчик
  • Сабиров Равиль:
  • О структуре и использовании татарско-русского и русско-татарского электронного переводчика
  • Татарско-русский большой словарь
  • Самоучитель татарского языка
  • Татарский язык: изучить легко!
  • Русско-татарский полный учебный словарь
  • Татарско-русский полный учебный словарь
  • Новые татарские слова в русских текстах (словарь-справочник)
  • Шигырьләр
  • Рус балаларына татар телен укытканда яңа лексика үзләштерү мәсьәләләре
  • Как писать курсовые, дипломы, диссертации...
  • Такмаклар (частушки)






  • ← назад   ↑ наверх