WWW.KONFERENCIYA.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Конференции, лекции

 

Author manuscript, published in "Acta Linguistica Petropolitana.                                

             7, 2 (2011) 343-380"

В. Ф. Выдрин

В. Ф. Выдрин

ЭЛЕКТРОННЫЙ ГЛОССИРОВАННЫЙ КОРПУС

ТЕКСТОВ ЯЗЫКА БАМАНА: ПЕРВЫЙ ЭТАП1

0. Введение В предыдущих публикациях, посвящнных электронному корпусу бамана [Выдрин 2008а; Выдрин 2008б; Vydrine 2008], были высказаны предварительные соображения о необходимости halshs-00867426, version 1 - 29 Sep и возможности создания такого корпуса, а также намечались пути решения некоторых конкретных трудностей, которые неизбежно должны были возникнуть в этой работе. Эти идеи стали предметом обсуждения на Второй Международной конференции по языкам манде (СПб, сентябрь 2008) и были поддержаны коллегами из разных стран; обсуждение было продолжено на VI Всемирном конгрессе по африканской лингвистике (Кльн, август 2009). Осенью 2009 года в Петербурге была создана рабочая группа по разработке модели электронного корпуса текстов бамана, в которую, помимо автора, вошли лингвистпрограммист Кирилл Александрович Маслинский и специалисты по языкам манде Анна Владимировна Эрман и Артм Витальевич Давыдов. К систематической работе группа приступила в марте 2010 года (после окончания очередной зимней экспедиции российских лингвистов в Гвинею и Кот-д’Ивуар). В качестве метаязыка корпуса был выбран французский, который является официальными языком и основным языком образования в Мали.

В данной статье мы постараемся представить обзор конкретных проблем, решением которых занималась рабочая группа в течение полугода (с марта по сентябрь 2010 г.), и обоснования принятых решений. Данное исследование выполнено в рамках проекта «Разработка модели электронного корпуса текстов языков манден (манинка, бамана)», поддержанного грантом РФФИ № 10-06-00219-а.

Здесь не будут рассматриваться проблемы, связанные с подбором текстов и их метаразметкой; им посвящена статья А. В. Давыдова в данном сборнике.

Электронный глоссированный корпус текстов бамана Общие соображения о значимости электронного корпуса текстов на языках манде были высказаны в уже упомянутых публикациях, что позволяет не излагать их здесь и сразу перейти к более техническим вопросам.

Напомним принцип действия всех программ автоматического анализа текста, предназначенных для создания языковых корпусов. Несколько упрощая ситуацию, можно сказать, что программное обеспечение состоит из «словарного» файла, а также из программы автоматического анализа (морфологического, синтаксического и др.), т. е. рабочего файла (или, скорее, совокупности файлов), содержащего в себе правила halshs-00867426, version 1 - 29 Sep построения словоформ, их сочетаемости между собой и т. д.;

«движок» связывает текстовый и словарный файлы. В словарный файл вносятся морфемы (или лексемы, или словоформы3) описываемого языка; при каждой морфеме (или словоформе), в другом поле, датся е эквивалент на метаязыке (который может совпадать с описываемым языком, – в таком случае мы получаем одноязычное глоссирование, – а может быть иным; в нашем случае метаязыком является французский). Для служебных слов и морфем, как правило, датся условный эквивалент, в соответствии с принципами Лейпцигских правил глоссирования.

В особом поле датся частеречная помета.

Несколько упрощая картину, принцип автоматического анализа можно описать так. Когда датся команда «анализировать текст», программа-«движок» находит в словарном файле каждую лексему и морфему, представленную в тексте (при этом она членит слова на морфемы), создат в текстовом файле строку «парсинга» (поморфемной разбивки) и подставляет к каждой морфеме исходной фразы е эквивалент на метаязыке. Если же морфема в словарном файле не обнаруживается, то программа сигнализирует об этом, предлагая лингвисту различные варианты выбора: создать новую карточку в словаре; отметить слово как иноязычное вкрапление; устранить орфографическую ошибку в тексте.

Последнее может быть необходимо для флективного языка.

Поскольку языки манден изолирующие, с элементами агглютинации, то в дальнейшем возможность введения в словарь словоформ рассматриваться не будет.

В. Ф. Выдрин Организационные структуры всех трх компонентов корпуса – halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep глагольной основы: k nnafili ‘тревожить’, k nmiiri ‘размышлять’, kunkrta ‘способствовать успеху’, kunnada ‘попрекать’.

halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep предлагая рассматривать как сложные слова и иные типы тональнокомпактных единств (прежде всего, атрибутивную синтагму).

halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep результативности работы по этой модели – она осложняется, вопервых, возможностью рекурсивности в применении моделей halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep что диалекты бамана для этого недостаточно полно описаны. ВСледует отметить, что Guide de transcription рекомендует в данном halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep Language Technology (AfLaT 2010). Valletta, Malta: European Language Resources Association (ELRA), 2010, P. 59–62. http://www.lrecconf.org/proceedings/lrec2010/workshops/W5.pdf

Conference, St. Petersburg (Russia), September 15–17, 2008. Abstracts

halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep halshs-00867426, version 1 - 29 Sep

Похожие работы:

«ICCD/COP(11)/19 Организация Объединенных Наций Конвенция по Борьбе Distr.: General с Опустыниванием 4 July 2013 Russian Original: English Конференция Сторон Одиннадцатая сессия Виндхук, Намибия, 1627 сентября 2013 года Пункт 14 предварительной повестки дня Десятилетие Организации Объединенных Наций, посвященное пустыням и борьбе с опустыниванием (20102020 годы) Доклад о деятельности в целях поддержки Десятилетия Организации Объединенных Наций, посвященного пустыням и борьбе с опустыниванием...»

«№ 50(256) 16 декабря 2011 О Б Щ Е С Т В Е Н Н О - П О Л И Т И Ч Е С К А Я ГА З Е ТА И З Д А Е Т С Я С 2 0 0 6 ГО Д А Адрес редакции: ул. Ленина, д.33, тел. 310-810 В ЭТОМ НОМЕРЕ! ЗА ПЛЕЧАМИ ТЫСЯЧИ СПАСЕННЫХ ЖИЗНЕЙ Протвинскому Пресс-конференция здравоохранению исполнилось 50 лет В области подвели итоги ПОРА РАЗОРВАТЬ ВЫБОРОВ ЗАКОЛДОВАННЫЙ КРУГ Интервью с Главой города 9 декабря в Доме Правительства Московской области состоялась пресс-конференция председателя избирательной комиссии Московской...»

«ORIFLAME ПЛАН УСПЕХА 514859 ИЗДАНИЕ ДЛЯ ЛИДЕРОВ 2 3 СОДЕРЖАНИЕ 09 Твои Мечты – Наше Вдохновение 11 Это Орифлэйм 12 Орифлэйм в цифрах и фактах 13 Что мы предлагаем 16 Как показывать каталоги и принимать заказы 18 Концепция бизнес-возможностей Орифлэйм 22 Станьте успешным Лидером с Орифлэйм! 26 Система ПРО. Быстрый рост с Орифлэйм 32 Трехуровневая система 35 Создаем и развиваем команду 40 Планируем и организуем бизнес 42 Онлайн-поддержка бизнеса Орифлэйм 46 Академия Орифлэйм 50 Возможности дохода...»









 
2014 www.konferenciya.seluk.ru - «Бесплатная электронная библиотека - Конференции, лекции»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.