Дипломная работа студента 544 группы



Скачать 474,33 Kb.
страница3/6
Дата02.06.2016
Размер474,33 Kb.
ТипДипломная работа
1   2   3   4   5   6

Основная часть


Многие явления в природе сами по себе очень сложные и многообразные, так что их практически невозможно математически строго описать. Обычно выбирается близкая к реальным процессам математическая модель, в которую включаются различные помехи. С одной стороны, эти помехи относятся к грубости выбранной модели, а с другой характеризуют неконтролируемые возмущения, действующие на исследуемую систему.

В задаче распознавания отдельных слов такими помехами могут являться фазовые и спектральные сдвиги звукового сигнала, шум окружающей среды, настройки записывающего устройства и т. д.

Рандомизированный алгоритм стохастической аппроксимации (далее SPSA алгоритм), о котором речь пойдет ниже, в своей работе использует пробные одновременные возмущения, которые являются искусственными помехами с заранее определенными свойствами, обеспечивающими состоятельность оценок при почти произвольных помехах на входе [28].

Существует несколько основных моделей, которые используются в задачах распознавания речи и идентификации личности:

 модели, использующие скрытые модели Маркова (Hidden Markov Model - HMM)[32],

в которых моделируемый процесс описывается с помощью конечного набора состояний, меняющихся на каждом шаге в произвольном, но статистически прогнозируемом направлении. Такие подходы базируются на предположении, что речь может быть разбита на сегменты (состояния), внутри которых речевой сигнал может рассматриваться как стационарный, причем переход между этими состояниями осуществляется мгновенно. Также предполагается, что вероятность символа наблюдения, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих порожденных символов. По сути, ни одно из этих двух предположений не является справедливым для речевого сигнала. Тем не менее, стандартные СММ являются основой для большинства современных систем распознавания речи.

 модели, использующие метод опорных векторов (Support Vector Machine - SVM) [14].

Метод SVM осуществляет поиск такой гиперплоскости в пространстве всех возможных входов, что она разделяет различные классы данных и максимально удалена от каждого из них. Использование метода опорных векторов позволяет получить функцию классификации с минимальной верхней оценкой ожидаемого риска (уровня ошибки классификации), а также использовать линейный классификатор для работы с нелинейно разделяемыми данными, сочетая простоту с эффективностью.

В дипломной работе применительно к задаче распознавания речи рассматривается алгоритм типа стохастической аппроксимации с возмущением на входе, который можно отнести к классу SVM моделей. Основой этого алгоритма является использование пробных возмущений. Если при решении задачи через входные каналы системы (алгоритма) удается включить в рассмотрение некоторое новое возмущение с задаваемыми экспериментатором или хорошо известными статистическими свойствами, то его можно использовать для «обогащения» информации в канале наблюдения. Иногда роль пробного возмущения может играть уже присутствующий в системе измеряемый случайный процесс. Также в качестве пробного воздействия можно взять рандомизированный план наблюдений (эксперимента). При моделировании рассматриваемой далее в работе системы распознавания отдельных слов речи пробное возмущение задавалось искусственно, чтобы обеспечить лучшие оценки, получаемые алгоритмом.

Множество всех входных сигналов разбивается на заранее известное количество классов, определяются центры этих классов, которые впоследствии служат шаблонами для распознавания слов.

Существенная особенность алгоритма заключается в том, что для аппроксимации градиента функции потерь требуется только одно измерение функции независимо от размерности оперируемых величин. Эта особенность делает рассматриваемый алгоритм удобным для применения в задаче распознавания звука, где используются вектора свойств сигнала больших размерностей. Также эта особенность обеспечивает относительную легкость представления алгоритма, существенно уменьшая затраты на решение, особенно в задачах оптимизации по большому количеству переменных. Тем самым открывается возможность работы с большим количеством классов. Соответственно, система может потенциально распознавать большое количество слов. Кроме того, в случае зашумленных измерений функции потерь (а звуковая волна, поступающая на вход, всегда содержит в себе шум) алгоритм сохраняет состоятельность доставляемых оценок при почти произвольных помехах. [4]

Смоделированная система является самообучающейся системой, основанной на SPSA алгоритме. Перед описанием сущности алгоритма будут определены некоторые основные понятия теории звука.

Распознавание слов речи

Терминология


Цифровая система обработки звукового сигнала предполагает представление аналогового речевого сигнала в цифровом виде. В результате аналого-цифрового преобразования (АЦП) непрерывный сигнал переводится в ряд дискретных временных отсчетов, каждый из которых представляет собой число. Это число храктеризует сигнал в точке с определенной точностью. Точность представления зависит от ширины диапазона получаемых чисел, а, следовательно, от разрядности АЦП. Процесс извлечения из сигнала численных значений называется квантованием. Процесс разбиения сигнала на отсчеты носит название дискретизации. Число отсчетов в секунду называется частотой дискретизации. В ряде случаев для определения квантования используется понятие битрейт (bit rate) – число битов, обрабатываемых за одну секунду. Зная битрейт и частоту дискретизации, можно получить ширину диапазона получаемых чисел.

Процесс обработки звуковой волны схематически описан на Рис.1



Рис.1: Этапы обработки звуковой волны.
Аналоговый акустический сигнал, поступающий с микрофона, подвергается с помощью АЦП дискретизации и квантованию. Происходит так называемая реализация слова, т. е. цифровая запись произнесения слова (звука) в виде последовательности отсчётов звукового сигнала {sk}. Реализация слова (звука) в процессе цифровой обработки разбивается на последовательность кадров {Xi}. Кадром X (длины N) назовем последовательность отсчетов звукового сигнала s1, s2, ... , sN. Длина кадра фиксирована во времени. Например, при N=100 и частоте дискретизации 8000 Гц она соответствует длительности в 12.5 мс. Кадры часто смещают друг относительно друга для того, чтобы не происходило потери информации на границе кадров. Шаг смещения кадра – количество звуковых отсчётов между началами следующих друг за другом кадров. Шаг смещения меньший, чем N (длина кадра) означает, что кадры идут «внахлёст».

Далее в целом ряде задач, таких как распознавание слов речи или идентификации личности, каждому кадру сопоставляются некоторые данные, характеризующие звук наилучшим образом. Такие данные формируют вектор свойств (или вектор признаков). С математической точки зрения это может быть как вектор из пространства , так и набор функций или одна функция.

Задачей распознавания отдельных слов речи является отождествление каждого слова, поступающего на вход системы, с заранее определенным классом. К сожалению, существует целое множество различных факторов, которые могут оказывать негативное влияние на точность распознающей системы - настроение и состояние говорящего, шум окружающей среды, скорость произнесения фраз и т. д.

Очень сложно записать сигнал так, чтобы он не содержал посторонних шумов. На Рис.2 изображены амплитудно-временные диаграммы сигнала в чистом виде и того же сигнала, но с помехами типа белого шума. Белым шумом называется шум, в котором звуковые колебания разной частоты представлены в равной степени, т. е. в среднем интенсивность звуковых волн разных частот примерно одинакова. В качестве примера можно привести шум водопада.



Рис.2: a) Чистый сигнал b) Тот же сигнал, но с белым шумом.

Как можно заметить, зашумленные сигналы в значительной мере отличаются от чистых сигналов. Чтобы избавиться от негативных влияний шума, сигнал обрабатывают специальными частотными фильтрами, о которых речь пойдет позже. Частотный фильтр (band-pass filter) работает следующим образом: из всего набора гармоник, составляющих звуковой сигнал, фильтр оставляет лишь те, частоты которых попадают в указанную полосу пропускания.


Рис.3: Два разных диктора говорят одну и ту же фразу.
Распознающая система является независимой от диктора, если она распознает слово независимо от того, кто его произносит. На практике реализовать такую систему очень сложно по той причине, что звуковые сигналы значительно зависят от громкости, тембра голоса, состояния и настроения диктора. На Рис.3 изображены фонограммы одной и той же фразы, произнесенной разными дикторами. Для извлечения информации из таких сигналов нередко используют фильтры тоновых частот (мел-скейл фильтры), которые усредняют спектральные составляющие в определенных диапазонах частот, тем самым делая сигнал менее зависимым от диктора. Такие фильтры являются основой технологии MFCC (Mel-Frequency Cepstral Coefficients), которая используется в распознающей системе, рассматриваемой в этой работе.


Каталог: user -> gran -> students
user -> Приложения (по Мероприятию 19) Приложение 1 Методика диагностических организационно деловых игр
user -> Приложение 2 Поэтапная методика оценки управленческих компетенций в ходе проведения диагностических организационно-деловых игр Этап Составление перечня управленческих качеств
user -> Приложение 3 Аналитический отчет по результатам анализа степени включенности родителей школьников в образовательный процесс на основе экспертного оценивания и с помощью объективных показателей
user -> А. Р. Байчерова старший преподаватель кафедры предпринимательства и мировой экономики Стгау
user -> Клинико-психологические предикторы неблагоприятного течения агорафобии с паническим расстройством. 19. 00. 04 «Медицинская психология» (медицинские науки) 14. 01. 06 «Психиатрия»
students -> Дипломная работа Студента 541 группы Котельникова Алексея Дмитриевича


Поделитесь с Вашими друзьями:
1   2   3   4   5   6


База данных защищена авторским правом ©www.psihdocs.ru 2019
обратиться к администрации

    Главная страница