УДК 621.391
О.Ф. Кривнова
ОБЛАСТИ ПРИМЕНЕНИЯ РЕЧЕВЫХ КОРПУСОВ И ОПЫТ ИХ РАЗРАБОТКИ
Московский государственный университет им. М.В.Ломоносова, филологический ф-т
Россия, 119899 Москва, Воробьевы горы, I гум. корпус
Тел.: (495) 939-26-01
E-mail: okri@philol.msu.ru
Корпуса звучащей речи, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. В состав корпуса часто включают и компьютерные программы, которые обеспечивают создание, сбор, организацию и управление собственно языковыми, в том числе и фонетическими, ресурсами. Интерес к созданию речевых корпусов был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка, которая имеет весьма разнообразные источники – от системной контекстной вариативности, обусловленной коартикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона, который используется при записи речевого материала. Современные распознающие системы обычно обучаются на очень больших массивах звучащей речи, записанной от многих дикторов (не менее 100 человек). В последнее десятилетие заметен переход от “ручных” правил и алгоритмов к корпусному моделированию и в области автоматического синтеза речи. Это особенно важно для моделирования просодических характеристик речи, ее эмоционального содержания и выражения, а также имитации индивидуальных особенностей голоса говорящего. Речевые корпуса представляют и самостоятельный научный интерес, а потребность в них возникает во многих научных задачах, связанных с анализом и описанием звучащей речи на разных языках. В докладе рассмотрены основные области применения речевых корпусов, а также кратко суммирован опыт их разработки, в том числе на материале русского языка.
1. Речевой корпус как разновидность языковых ресурсов. Корпуса звучащей речи, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. Последний термин обычно используется для обозначения любых, как правило больших, наборов лингвистических данных и описаний, представленных в электронном виде и специально организованных для разработки, совершенствования и оценки систем и алгоритмов обработки речевого и языкового материала в технологических приложениях.
Поделитесь с Вашими друзьями: |