Дипломная работа студента 544 группы



Скачать 474,33 Kb.
страница6/6
Дата02.06.2016
Размер474,33 Kb.
ТипДипломная работа
1   2   3   4   5   6

Описание программы


Модель была реализована в среде Matlab 7.0.1. Она является зависимой от диктора самообучающейся системой распознавания отдельных слов речи и оперирует со словарем, состоящим всего из четырех слов. Такое ограничение было вызвано желанием упростить модель и наглядно продемонстрировать возможности алгоритма, свойства которого позволяют распознавать гораздо большее количество слов.

Выбор распознаваемых слов вообще говоря важен. Чем они сильнее фонетически отличаются друг от друга, тем проще их распознавать. Для выбранной штрафной функции выполнение условия (2) означает, что расстояние между различными классами должно быть больше, чем максимальный среди всех классов радиус. Таким образом, желательно, чтобы центры классов находились на максимальном расстоянии друг от друга. По умолчанию система может распознавать слова «до», «ре», «ми» и «фа», являющиеся четырьмя допустимыми классами системы.

В качестве первоначальных центров классов можно выбрать любые четыре точки пространства . Но для обеспечения быстрой сходимости лучше взять точки более-менее близко расположенные к предполагаемым центрам классов. В качестве таких были взяты вектора свойств первых четырех разных слов из обучающей последовательности. Тогда возрастает вероятность того, что последовательность оценок центров классов будет удовлетворять условию (3) теоремы.

Для каждого класса было записано более ста семплов, которые формировали обучающую последовательность. Такое относительно большое количество необходимо для обеспечения лучшей сходимости алгоритма. Запись происходила с частотой дискретизации 8000 Гц и квантованием 16 бит (это соответствует битрейту в 128 kbps). В ходе обработки этих сигналов были применены оптимизации, связанные с особенностью записи микрофона. Эти оптимизации осуществлялись автоматически в процессе обучения системы.

Скорость сходимости алгоритма и сходимость его в целом на практике во многом определяется выбором последовательностей и , участвующих в работе алгоритма. Важную роль играет также пробное одновременное возмущение, в качестве которого (см. замечание (4) к теореме) не обязательно брать бернуллиевсие случайные величины. Главное, они должны быть конечны и симметрично распределены. Из эмпирических соображений в качестве последовательности {} была взята последовательность 3/n, а в качестве {} 1/. Значения координат векторов свойств в ходе моделирования находятся большей частью в диапазоне [-1,1]. По причине относительно небольшой скорости сходимости выбранных последовательностей {} и {}, бернуллиевские величины вносят очень большой вклад в формирование оценочной последовательности на начальных итерациях алгоритма, существенно отдаляя оценки от координат настоящих центров. Поэтому в качестве пробного одновременного возмущения были выбраны случайные величины.

Следует напомнить, что система восприимчива к внешним шумам, а также зависит от громкости и четкости произношения.

Изначально все поступающие сигналы обучающей системы, обработанные АЦП, сохраняются в многомерный массив. Запись производится с частотой дискретизации 8000 Гц. Поскольку каждое слово (так было выбрано изначально), состоит из одного слога, для его записи достаточно временного интервала в одну секунду. Таким образом первоначально имеем на каждый сигнал вектор размерности 8000. Многомерный массив формируется так, что количество строк соответственно равно частоте дискретизации, а количество столбцов равно количеству поступивших сигналов обучающей последовательности. Далее массив обрабатывается: все столбцы пропускаются через фильтр предварительного обрезания сигнала и используется технология получения кепстральных коэффициентов MFCC, но без использования мел-скейл фильтра.

Использование фильтра предварительного обрезания сигнала обусловлено особенностью работы записывающего устройства. Для записи каждого нового семпла его приходилось включать заново, что приводило к постороннему шуму в начале записи. На Рис.7. изображены два сигнала – до обработки и после. Как можно заметить, после обработки длина сигнала сократилась за счет удаления неинформативной части в начале.



a) Сигнал до обработки b) Сигнал после обработки

Рис.7: Работа фильтра предварительного обрезания сигнала.

В итоге размерность массива значительно уменьшается. На вход SPSA алгоритма поступает массив, размерность столбцов которого составляет 4000. Далее формируются координаты центров четырех классов. Эти центры являются шаблонами распознаваемых слов.

Интерфейс программы распознавания речи позволяет генерировать одно из заданных четырех слов, которое распознается системой в реальном времени. См. Рис.8. При этом подсвечивается тот класс, к которому было отнесено слово (WORD ONE, WORD TWO, WORD THREE, WORD FOUR).

Рис.8: Интерфейс программы распознавания отдельных слов речи.

Реализована возможность переопределения распознаваемых слов. Для этого необходимо задать новую обучающую последовательность, нажав кнопку “START TRAINING”. Включается пятисекундный таймер, высвечивается время в поле соответствующего класса. По истечении пяти секунд необходимо произнести слово. Эта процедура повторяется последовательно для каждого из четырех классов, пока не будет нажата кнопка “STOP TRAINING”. Таким образом формируется новая обучающая последовательность. Для того, чтобы прослушать слова, которые теперь может распознавать система, следует нажать “Play Samples”. Чтобы распознать какое-либо слово, вводимое с микрофона, необходимо нажать ”Recognize” и по истечении пятисекундного интервала времени произнести его. Соответствующий класс, к которому будет отнесено произнесенное слово, будет подсвечен красным цветом. Для распознавания слова, находящегося в банке уже записанных слов, нужно нажать одну из соответствующих клавиш нижнего ряда.

На Рис.9. показана статистика точности распознавания смоделированной системы. В качестве исследования система запускалась без предварительного обрезания той части сигнала, которая содержит посторонние шумы и не несет полезной информации. При этом также не производилось разбиение сигнала на сегменты. Применялась функция окна Хемминга, состоящая из 8000 точек. Размерности оперируемых векторов были равны 8000. Несмотря на то, что данные на вход алгоритма поступали практически «сырыми» (т.е. не осуществлялось выделения вектора свойств из сигнала), точность распознавания отдельных слов достигала 50-80%.






Без разбиения на сегменты и удаления неиформативной части, %

С разбиением на сегменты и удалением неинформативной части, %

С переопределением обучающей последовательности пользователем, %

Слово «ДО»

56

90

60

Слово «РЕ»

40

94

65

Слово «МИ»

80

98

80

Слово «ФА»

45

96

75

Рис.9: Статистика точности распознавания отдельных слов.

Статистику удалось заметно улучшить после того, как ,была произведена сегментация и была удалена неинформативная часть сигнала. Длина N каждого сегмента составляла 200 отсчетов, что соответствует временному интервалу в 25 мс. В целях сокращения размерности оперируемых величин и по причине того, что потери информации на границе сегментов не вносят больших изменений в моделируемую помехоустойчивую систему, перекрытия сегментов не использовались.

Точность распознавания всех четырех слов оказалась в рамках 90-98%. Но эта статистика собиралась из готовых, заранее записанных семплов, для которых искусственно был выровнен уровень громкости сигналов и обрезана неинформативная часть записи. Для обучающей последовательности, самостоятельно определенной пользователем, статистика несколько хуже. Это объясняется тем, что слова обучающей последовательности записаны с разной громкостью, сдвинуты друг относительно друга во времени и содержат в себе посторонние шумы из окружающей среды.


Распознавание звука на основе

SPSA алгоритма и квантовые вычисления


Учитывая особенности стохастических рандомизированных алгоритмов, можно подобрать вычислительное устройство, наилучшим образом подходящее для их выполнения. В качестве такого устройства предлагается рассматривать квантовый компьютер [1]. На сегодняшний день квантовые компьютеры являются очень перспективным направлением в области разработки вычислительных устройств, обещая сильно изменить представления о вычислительной мощности современной вычислительной техники.

Квантовый компьютер обрабатывает «кубиты» («квантовые биты»), представляющие собой квантовую систему двух состояний (микроскопическая система, соответствующая описанию, например, возбужденного иона или поляризованного фотона, или спина ядра атома). Состояния в квантовой механике часто обозначают как вектора единичной длины в Гильбертовом пространстве над полем комплексных чисел. Базис пространства состояний кубита обычно обозначается как и , по аналогии с {0,1} в классической теории информации. Такая система может принимать не только базисные состояния, и, следовательно, способна хранить больше информации нежели соответствующая классическая. Тем не менее, при измерении такой системы, она переходит в одно из базисных состояний и информация, хранимая в ней, будет соответствовать некоторой классической информации. Можно считать, что размерность пространства, с которым оперирует квантовый компьютер, растет экспоненциально с ростом числа кубитов. Это свойство лежит в основе феномена «квантового параллелизма».

Велика вероятность того, что отказ от «скалярных битов» позволит реализовать выполнение многомерных (векторных) операций за один «такт». В теории обработки сигналов, а соответственно и в теории обработки звука, очень часто используется быстрое преобразование Фурье (FFT). В классическом вычислительном устройстве такое преобразование выполняется за время . Существует алгоритм квантового преобразования Фурье (QFT), работающий за время, пропорциональное [25].

Строгое математическое обоснование модели квантовых вычислений можно найти в [26] или [7].

В работе [2] показано, каким образом может быть получено на квантовом компьютере пробное одновременное возмущение, используемое в SPSA алгоритме, за один такт работы. В этом смысле в систему будет поступать действительно одновременное возмущение.

Таким образом можно говорить о возможном улучшении эффективности рассматриваемой модели распознавания звука на основе SPSA алгоритма, реализованной на квантовом вычислительном устройстве.


Возможная другая постановка задачи


Смоделированная система может быть довольно легко перенастроена для решения задачи кодирования/декодирования информации, а также для решения задачи дикторонезависимого распознавания речи.

Можно «начитать» системе некоторый текст. Каждое слово будет отнесено к одному из заданных классов и будет подсчитано, сколько в тексте встретилось слов каждого класса. Тем самым определится процентное содержание каждого слова в отдельности. После этого на вход системы можно подать текст, состоящий из других слов, но в том же процентном соотношении. Система определит «плотность» в новом тексте каждого слова и укажет, какому слову оно соответствует в первоначальном тексте, т. е. произведет распознавание.

В качестве исследования рассматриваемая в дипломной работе модель была изменена для решения задачи автоматического перевода текста из одного языка в другой. Пусть задан некоторый текст Text. В нем можно посчитать общее количество и количество различных слов, а также определить статистику: количество слов каждого вида. Данный текст кодируется таким образом, что количество различных слов и статистика остаются прежними. Система распознает закодированный текст и предлагает свой вариант перевода. В такой постановке решаемая задача является задачей кодирования/декодирования информации.

Интонация, тембр голоса, настроение у всех дикторов различное. Поэтому, если один и тот же текст предложить прочитать человеку, не принимавшему участие в обучении системы, большая вероятность того, что распознавание будет не точным. Если предположить, что диктор произносит одно и то же слово относительно одинаково по сравнению с другими словами, то можно распознавать тексты, прочитанные любым диктором. В данном случае задача, разрешаемая новой системой, становится задачей дикторонезависимого распознавания речи.

На Рис.10 изображен интерфейс новой программы. Каждый раз при запуске случайным образом генерируется текст Text, состоящий из ста слов: «ДО», «РЕ», «МИ» и «ФА». Процентное содержание задано заранее и составляет, соответственно, 40%, 30%, 20% и 10%.

Рис.10: Программа декодирования текстов.

Для пользователя поддержана возможность начитать текст, озаглавленный как Text, самостоятельно. Для этого необходимо выбрать в поле Text reading флажок Manual и нажать клавишу Start recognition. Каждое слово заданного текста нужно произнести по истечении трехсекундного интервала времени, который подсвечивается в правом нижнем углу в одной из четырех областей, обозначающих произносимое слово. Одновременно с этим текст, озаглавленный как Encoded text, пополняется прочитанными словами.

Encoded text можно сформировать автоматически, выбрав флажок Automatical в поле Text reading. Он генерируется по исходному тексту Text и состоит из заранее записанных семплов, которые формировали обучающую последовательность прежней системы. Новая система работает следующим образом: за первый проход по тексту Encoded Text все слова поступают на вход SPSA алгоритма и формируются центры четырех классов распознающей системы, за второй проход подсчитывается количество слов в каждом классе и осуществляется перевод каждого слова (определяется, например, что «ФА» - это «ДО», «МИ» - это «РЕ» и т. д.), за третий проход формируется переведенный текст, помеченный как Decoded Text.

Для того, чтобы определить точность распознавания, нужно сравнить два текста – Text и Decoded Text. В примере на Рис.10 указана новая статистика, полученная по переведенному (раскодированному) тексту. Процентное содержание слов было определено как 41%, 30%, 20% и 9%. Text и Decoded Text имеют различия в двух местах, что в рассматриваемом случае, когда в тексте всего сто слов, говорит о 98% точности распознавания.

Для текстов Text, генерируемых случайным образом, в случае автоматического кодирования погрешность точности распознавания составляет в среднем 5%.


Заключение


В работе представлен новый подход для решения задачи распознавания отдельных слов речи, основанный на рандомизированном алгоритме типа стохастической аппроксимации. Оценки, доставляемые алгоритмом, состоятельны при почти произвольных помехах. Также сохраняется работоспособность алгоритма при росте размерности вектора оцениваемых параметров и увеличении количества классов.

Описана системная модель решения задачи распознавания четырех слов. Для получения вектора свойств сигнала использовался метод MFCC (Mel-Frequency Cepstral Coefficients), но без фильтра тоновой частоты. Точность распознавания при заданных условиях достигает 98%.

Рассмотренная модель может быть усовершенствована для случая распознавания большего количества слов. Точность распознавания может быть улучшена за счет использования мел-скейл фильтра.

С целью исследования системная модель перенастроена для решения задачи дикторонезависимого распознавания текстов с заранее определенным количеством слов. Система протестирована на задаче кодирования/декодирования отдельных слов речи, произнесенных одним диктором. Погрешность распознавания текста составила в среднем 5%.



Список использованной литературы


[1] Граничин О. Н. , Молодцов С. Л., “Создание гибридных сверхбыстрых компьютеров и системное программирование”, Изд-во СПбГУ 2006.

[2] Граничин О. Н., Сысоев С. С., “Точность оценивания рандомизированного алгоритма стохастической оптимизации”, Изд-во СПбГУ 2005.

[3] Граничин О. Н., Измакова О. А., “Рандомизированный алгоритм стохастической аппроксимации в задаче самообучения”, Изд-во СПбГУ 2004.

[4] Граничин О. Н., Поляк Б. Т., “Рандомизированные алгоритмы оптимизации и оценивания при почти произвольных помехах”, М., Наука, 2003.

[5] Граничин О.Н., "Стохастическая аппроксимация с возмущением на входе при зависимых помехах наблюдения"// Вести. ЛГУ. 1989. Сер. 1. Вып. 4. С. 27-31.

[6] Институт Проблем Управления: http://www.ipu.ru

[7] Китаев А., Шень А., Вялый М., “Классические и квантовые вычисления”. Изд-во ЗХД. 2004.

[8] Скрелин П.А., “Автоматический перевод устной речи – модель языковой коммуникации”. http://www.phil.pu.ru/science/grants2004.htm

[9] Фомин В. Н., “Рекурентное оценивание и адаптивная фильтрация”.М.: Наука, 1984.

[10] Центр Речевых Технологий: http://www.speechpro.ru

[11] X. Aubert, R. Haeb-Umbach and H. Ney, “Continuous mixture densities and linear discriminant analysis for improved context-dependent acoustic models”, Proc. of ICASSP, Vol. II, pp. 648-651 (1993).

[12] Audio-Visual Speech Recognition (AVSR): http://www.intel.com

[13] J. K. Baker, “Stochastic modeling for automatic speech understanding”, Academic Press (1975).

[14] Christopher J. C. Burges, “A Tutorial on Support Vector Machines for Pattern Recognition”, Kluwer Academic Publishers, Boston, 1998.

[15] S. Das, R. Bakis, A. Nadas, D. Hahamoo and M. Picheny, “Influence of background noise and microphone on the performance of the IBM tangora speech recognition system”, Proc. of ICASSP, Vol. II, pp. 71-74 (1993).

[16] K. H. Davis, R. Biddulph and S. Balashek, “Automatic recognition of spoken digits”, J. Acoust. Soc. Am., 24, pp. 637-642 (1952).

[17] Dragon NaturallySpeaking Solutions: http://www.dragonsys.com

[18] J. W. Forgie and C. D. Forgie, “Results obtained from a vowel recognition computer program”, J. Acoust. Soc. Am., 31, pp. 1480-1489 (1959).

[19] Gold B., Morgan N., “Speech and Audio Signal Processing”. John Wiley & Sons, Inc, 2000.

[20] IBM embedded ViaVoice Enterprise Edition: http://www.ibm.com/software/speech/

[21] F. Itakura, “Minimum prediction residual principle applied to speech recognition”, IEEE Transactions on Acoustic, Speech and Signal Processing, 23, 1, pp. 67-72 (1975).

[22] F. Itakura and S. Saito, “Analysis synthesis telephony based on the maximum likelihood method”, Reports of the 6th International Congress on Acoustics, II, C-5-5, pp. C17-C20 (1968).

[23] Ivica Rogina, “Automatic speech recognition”, Carnegie Mellon University, 1998.

[24] T. Sakai and S. Doshita, “The phonetic typewriter, information processing 1962”, Proc. IFIP Congress (1962).

[25] H. Sakoe and S. Chiba, “Dynamic programming algorithm optimization for spoken word recognition”, ASSP, 64, pp. 43-49 (1978).

[26] Shor P. W., “Quantum computing” // Proc. 9-th Int. Math. Congress. Berlin. 1998. www.math.nine.edu/documenta/xvol-icm/Fields/Fields.html

[27] Spall J. C., “Multivariate stochastic approximation using a simultaneous perturbation gradient approximation” // IEEE Transactions on Automatic Control, 1992, vol. 37, p. 332-341.

[28] Spall J. C., “A one-measurement form of simultaneous perturbation stochastic approximation”. Automatica 33 (1997) P. 109-112.

[29] Speech Recognition Home: http://www.philips.com/speechrecognition/

[30] Speeding Medical Documentation: http://www.provox.com

[31] J. Suzuki and K. Nakata, “Recognition of Japanese vowels – preliminary to the recognition of speech”, J. Radio Res. Lab, 37, pp. 193-212 (1961).

[32] Dan Tran, Michael Wagner and Tongtao Zheng, “A Fuzzy approach to Statistical Models in Speech and Speaker Recognition”. 1999 IEEE International Fuzzy Systems Conference Proceedings, Korea, 1275-1280.

[33] Voice Recognition Module: http://www.sensoryinc.com

Приложение


Сигнал слова «ДО» Сигнал слова «РЕ»

Сигнал слова «МИ» Сигнал слова «ФА»




Каталог: user -> gran -> students
user -> Приложения (по Мероприятию 19) Приложение 1 Методика диагностических организационно деловых игр
user -> Приложение 2 Поэтапная методика оценки управленческих компетенций в ходе проведения диагностических организационно-деловых игр Этап Составление перечня управленческих качеств
user -> Приложение 3 Аналитический отчет по результатам анализа степени включенности родителей школьников в образовательный процесс на основе экспертного оценивания и с помощью объективных показателей
user -> А. Р. Байчерова старший преподаватель кафедры предпринимательства и мировой экономики Стгау
user -> Клинико-психологические предикторы неблагоприятного течения агорафобии с паническим расстройством. 19. 00. 04 «Медицинская психология» (медицинские науки) 14. 01. 06 «Психиатрия»
students -> Дипломная работа Студента 541 группы Котельникова Алексея Дмитриевича


Поделитесь с Вашими друзьями:
1   2   3   4   5   6


База данных защищена авторским правом ©www.psihdocs.ru 2019
обратиться к администрации

    Главная страница