Области применения речевых корпусов и опыт их разработки



страница1/7
Дата30.06.2022
Размер92 Kb.
#152444
  1   2   3   4   5   6   7

УДК 621.391


О.Ф. Кривнова
ОБЛАСТИ ПРИМЕНЕНИЯ РЕЧЕВЫХ КОРПУСОВ И ОПЫТ ИХ РАЗРАБОТКИ

Московский государственный университет им. М.В.Ломоносова, филологический ф-т


Россия, 119899 Москва, Воробьевы горы, I гум. корпус
Тел.: (495) 939-26-01
E-mail: okri@philol.msu.ru


Корпуса звучащей речи, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. В состав корпуса часто включают и компьютерные программы, которые обеспечивают создание, сбор, организацию и управление собственно языковыми, в том числе и фонетическими, ресурсами. Интерес к созданию речевых корпусов был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка, которая имеет весьма разнообразные источники – от системной контекстной вариативности, обусловленной коартикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона, который используется при записи речевого материала. Современные распознающие системы обычно обучаются на очень больших массивах звучащей речи, записанной от многих дикторов (не менее 100 человек). В последнее десятилетие заметен переход от “ручных” правил и алгоритмов к корпусному моделированию и в области автоматического синтеза речи. Это особенно важно для моделирования просодических характеристик речи, ее эмоционального содержания и выражения, а также имитации индивидуальных особенностей голоса говорящего. Речевые корпуса представляют и самостоятельный научный интерес, а потребность в них возникает во многих научных задачах, связанных с анализом и описанием звучащей речи на разных языках. В докладе рассмотрены основные области применения речевых корпусов, а также кратко суммирован опыт их разработки, в том числе на материале русского языка.


1. Речевой корпус как разновидность языковых ресурсов. Корпуса звучащей речи, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. Последний термин обычно используется для обозначения любых, как правило больших, наборов лингвистических данных и описаний, представленных в электронном виде и специально организованных для разработки, совершенствования и оценки систем и алгоритмов обработки речевого и языкового материала в технологических приложениях.

Каталог: ~otipl -> SpeechGroup -> publications
publications -> Рецензия на книгу Р. К. Потапова и В. В. Потапов «Язык, речь, личность», 491 стр
publications -> С. В. Кодзасов просодия обращений
publications -> Паузирование в естественной и синтезированной речи О. Ф. Кривнова, И. С. Чардин
publications -> Законы фразовой акцентуации введение Среди функций, выполняемых интонационными средствами, важнейшими являются
publications -> Автоматический синтез речи – проблемы и методы генерации речевого сигнала
publications -> Символика русской интонации
publications -> Богданов Д. С., Кривнова О. Ф., Подрабинович А. Я., Фарсобина В. В
publications -> Автоматический синтез речи
publications -> Фёдоровна ритмизация и интонационное членение текста в "процессе речи-мысли"
publications -> Создания аллофонной базы автоматического синтеза речи


Поделитесь с Вашими друзьями:
  1   2   3   4   5   6   7




База данных защищена авторским правом ©www.psihdocs.ru 2023
обратиться к администрации

    Главная страница