Дипломная работа студента 544 группы



Скачать 474,33 Kb.
страница4/6
Дата02.06.2016
Размер474,33 Kb.
ТипДипломная работа
1   2   3   4   5   6

Системная модель


Рассмотрим модель для распознавания отдельных слов речи. Построенная распознающая система основана на использовании SPSA алгоритма и векторов свойств, составленных из кепстральных коэффициентов. Она зависит от диктора и работает с ограниченным словарем. После применения различных оптимизаций удалось добиться 98% точности распознавания отдельных слов.

Словарь и его составление


Смоделированная система способна распознавать l различных слов. Ограничение вызвано особенностями используемого алгоритма, в котором каждое слово соотносится с одним из l классов. Теоретически это количество может быть сколь угодно большим, если удастся максимально отнести друг от друга центры классов.

Для формирования шаблонных векторов свойств звуковых сигналов каждого слова используется процесс самообучения системы. Соответственно, должна быть обучающая последовательность. Она формируется из заранее написанных фрагментов звукового сигнала, так называемых семплов. Усовершенствованная система позволяет записывать семплы обучающей последовательности сигналов слов в реальном времени.

В принципе, записать семплы можно с помощью любой стандартной программы звукозаписи. При этом на оператора (т. е. человека, который контролирует процесс записи) возлагается большая нагрузка: он должен следить за тем, чтобы ни одно слово не было пропущено, придумывать имена файлам, в которые записывается звуковая волна, следить за уровнем записи (для нашей цели не подходят очень тихие, сравнимые с уровнем фона записи; либо слишком громкие, выходящие за пределы динамического диапазона).

Обработка речевого сигнала

Предварительная фильтрация


Для спектрального выравнивания речевого сигнала его следует пропустить через низкочастотный фильтр. Цель этого преобразования - снизить влияние локальных искажений на характеристические признаки, которые в дальнейшем будут использоваться для распознавания. Часто низкочастотная фильтрация осуществляется на аппаратном уровне, хотя существуют различные математические методы, которые успешно применяются в задачах работы со звуком. В рассматриваемой системе такие методы не использовались.

Известно, что наиболее информативные частоты человеческого голоса сосредоточены в интервале 100 Гц - 5КГц, поэтому при решении задач распознавания речи уже на начальном этапе в спектрограмме оставляют только гармоники, частоты которых попадают в этот интервал.


Нарезка сигнала перекрывающимися сегментами


Для того чтобы получить векторы признаков одинаковой длины, нужно «нарезать» речевой сигнал на равные части, а затем выполнять преобразования внутри каждого сегмента. Обычно сегменты выбирают таким образом, чтобы они перекрывались либо наполовину, либо на 2/3. Перекрытие используется для предотвращения потери информации о сигнале на границе. Если, например, выбран сегмент длиной N отсчетов, то перекрытие наполовину означает сдвиг на N/2:

Перекрытие на 2/3 означает сдвиг каждого сегмента относительно предыдущего на N/3 отсчетов, при этом 2/3 сигнала у смежных сегментов является общей:



Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка, поскольку он составляется из кепстральных коэффициентов каждого сегмента в отдельности. В целях сокращения размерности оперируемых величин и по причине того, что потери информации на границе сегментов не вносят больших изменений в помехоустойчивую систему, перекрытие может не использоваться. Также этот шаг иногда пропускается по причине экономии вычислительных ресурсов, поскольку он существенно замедляет скорость обработки данных.

Обычно выбирается длина сегментов, соответствующая временному интервалу в 20-30мс

Обработка сигнала в окне


Целью данного этапа обработки является снижение граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал s(n) на оконную функцию w(n):

x(n) = s(n)*w(n)

В качестве функции w(n) было использовано окно Хэмминга, которое задается следующей формулой:



Ниже приведен график оконной функции Хэмминга:




Получение векторов свойств


Каждый входной звуковой сигнал представляется в виде специального вектора свойств (или вектора признаков), определенным образом характеризующего сигнал. Есть довольно много методов для формирования вектора свойств. В рассматриваемой модели использовался классический подход кепстральных коэффициентов. Существует две основных технологии извлечения из сигнала вектора свойств, состоящего из кепстральных коэффициентов: на основе кепстральных коэффициентов тональной частоты (MFCC [19]) и на основе кепстральных коеффициентов линейного предсказания (LPCC [23]). Схематически эти методы можно описать с помощью схемы на Рис.4. Они применяются для каждого сегмента в отдельности.

Pre-emphasis – предварительное выделение фразы (или акцентирование). Происходит за счет фильтрации звукового сигнала с помощью FIR (finite impulse response) фильтра. Например, . Этот шаг вызван необходимостью спектрального сглаживания сигнала. Он становится менее восприимчивым к различным шумам, возникающим в процессе обработки.

К каждому сегменту применяется быстрое преобразование Фурье (FFT) для получения кратковременного спектра. После чего все значения возводятся в квадрат из-за особенностей последующих преобразований (в частности для возможности применения ф
ункции логарифма).

Рис.4: a) Mel-Frequency Cepstral Coefficients (MFCC ). b)Linear Predictive Cepstral Coefficients(LPCC).


На этом общие части двух методов заканчиваются. LPCC сперва вычисляет коэффициенты линейного предсказания (Linear predictive coefficients - LPC). Вместо сложной мел-скейл фильтрации и логарифмического сжатия сигнала, используемых в MFCC, LPCC использует более простой подход смещения спектра с помощью авторегрессионного фильтра LPC. Рекурсия Дурбина (Durbin recursion) получает коэффициенты LPC из коэффициентов автокорреляции. Далее кепстральные коэффициенты получаются рекурсивно из LPC коэффициентов [23].

В рассматриваемой модели использовался метод получения векторов свойств, большей своей частью основанный на методе MFCC. Поэтому имеет смысл более подробно описать основные его этапы. В последнее время он подвергается серьезной критике из-за большой чувствительности к шуму окружающей среды. Для исследования устойчивости состоятельности оценок, которые предоставляет SPSA алгоритм, интересно использовать какой-либо помехочувствительный метод. MFCC является классическим для формирования вектора свойств. Продемонстрируем работу этого метода на примере. На Рис.5 изображена схема генерации кепстральных коэффициентов тональной частоты по входному звуковому сигналу.




Рис.5: a) звуковой сигнал слова; b) звуковой сигнал после стадии pre-emphasis;

c) спектральная диаграмма и мел-скейл фильтрация; d) диаграмма усредненных значений интенсивности сигнала на каждом диапазоне; e) амплитудное логарифмирование; f) диаграмма кепстральных коэффициентов.


Входной сигнал разбивается на сегменты, к которым применяется функция окна Хемминга и фразового выделения. Получившийся сигнал изображен на Рис.5.b). Далее изучают спектрограмму сигнала, которую можно видеть на Рис.5.с). По оси абсцисс отложены значения частот, по оси ординат амплитуды гармоник, из которого состоит сигнал. Все множество присутствующих в спектрограмме частот разделяется на пронумерованные интервалы, каждому из которых определяется свой диапазон. Для каждого такого интервала подсчитывается среднее значение интенсивности сигнала в выделенном диапазоне и строится диаграмма Рис.5.d), где ось абсцисс состоит из номеров интервалов, а ординат из «усиленных» амплитуд (значения амплитуд возводятся в квадрат, чтобы не было отрицательных величин при дальнейшей операции логарифмирования). Этот процесс называется мел-скейл фильтрацией. Далее амплитуды сигнала сжимаются с помощью применения логарифма, поскольку человеческое ухо воспринимает громкость сигналов по логарифмической шкале, а вектора свойств получают на основе человеческого восприятия звука. Заключительным шагом является применение к спектру обратного преобразования Фурье. Результатом этого шага является выделение кепстральных коэффициентов, которые формируют вектор свойств данного сегмента. Они изображены на Рис.5.f).

Кепстральные коэффициенты математически могут быть описаны следующим образом:





где S(k) есть усредненный спектр сигнала усиленной интенсивности, характерный для k–ого частотного интервала (бенда) в мел-скейл фильтре; K есть общее количество интервалов, на которые разбивается спектр.

Мел-скейл фильтрация довольно сложна и трудоемка сама по себе. Ее применение позволяет получать вектора свойств, размерности которых определяются особенностями мел-скейл фильтра (количество диапазонных интервалов). Обычно это 20-40 значений. Поскольку SPSA алгоритм позволяет работать с векторами очень больших размерностей, в рассматриваемой модели использовались преобразования сигнала, соответствующие классической схеме MFCC, но без использования мел-скейл фильтров. Это привело к тому, что размерности векторов свойств увеличились на порядки в сравнении с кепстральными векторами.


Каталог: user -> gran -> students
user -> Приложения (по Мероприятию 19) Приложение 1 Методика диагностических организационно деловых игр
user -> Приложение 2 Поэтапная методика оценки управленческих компетенций в ходе проведения диагностических организационно-деловых игр Этап Составление перечня управленческих качеств
user -> Приложение 3 Аналитический отчет по результатам анализа степени включенности родителей школьников в образовательный процесс на основе экспертного оценивания и с помощью объективных показателей
user -> А. Р. Байчерова старший преподаватель кафедры предпринимательства и мировой экономики Стгау
user -> Клинико-психологические предикторы неблагоприятного течения агорафобии с паническим расстройством. 19. 00. 04 «Медицинская психология» (медицинские науки) 14. 01. 06 «Психиатрия»
students -> Дипломная работа Студента 541 группы Котельникова Алексея Дмитриевича


Поделитесь с Вашими друзьями:
1   2   3   4   5   6


База данных защищена авторским правом ©www.psihdocs.ru 2019
обратиться к администрации

    Главная страница