BigEdu.ru
» » » Информационный критерий оценки фонетической неопределенности
Вернуться назад

Информационный критерий оценки фонетической неопределенности

При распознавании устной речи необходимо стремиться к тому, чтобы все фонемы классифицировались правильно, поэтому нас интересует распознавание полной последовательности фонетических единиц, составляющих высказывание. При этом основным источником неопределенности при распознавании речи является сам акустичес­кий сигнал. Еще большую неопределенность представляет параметри­ческое описание речевой волны. Рассмотрим неопределенности аку­стического сигнала и приведем меру оценки фонетической неопре­деленности. Используя эти мерь, можно оценить лексическую и фра­зеологическую неопределенности. Слитная речь расчленяется на пос­ледовательность сегментов по признакам способа образования зву­ков. К этим признакам добавляются признаки места образования, ко­торые изменяются непрерывно как внутри сегментов, так и через их г раницы [91,97]. С некоторыми дискретными единицами-звуками ре­чи - фонемами или квазифонемами сегменты связаны таким образом, что смысловые единицы речи (слова) представляются цепочкой фонем.
Большинство систем автоматического распознавания речи [79] преобразует речевой сигнал в такую фонемную цепочку, которая за­тем сравнивается с ожидаемыми в слове звуками. Процесс преобразования речевого сигнала в последовательность фонем включает нахождение признаков, сегментацию и маркировку сегментов.
Опишем модель фонетической неопределенности, позволяющую оце­нивать результаты неправильного распознавания фонем. Далее будем использовать матрицу ошибок распознавания фонем и фонетическую структуру слов словаря при оценке лексической неопределенности.
Лексическая неопределенность будет иметь место тогда, когда слова неверно классифицируются из-за близости их фонетической структуры, т.е. последовательности параметров, определяющих эту структуру, на конкурирующих словах. Например, в словах "слезать" и "срезать" первичные параметры звуков, входящих в эти слова, сходны. Когда оба эти слова входят в один и тот же словарь, их точ­ная классификация затруднена, поэтому их можно считать лекси­чески неопределенными. В реальных системах, если позволяет зада­ча, следует подбирать слова, чтобы такой ситуации не возникло. При­ведем критерии сложности словаря для того, чтобы можно было оце­нить степень различимости словарей [63].
Рассмотрим распознавание речи как процесс передачи речевой информации через канал с шумом и оценим информацию, теряющуюся в канале. Потерянная информация является мерой неопределенности или сложности распознавания фонем. В идеальном канале число вход­ных идеальных, полученных после сегментации высказывания экспер­тами-фонетистами, и выходных фонетических единиц должно быть оди­наковым, а последовательность фонем на выходе должна соответ­ствовать входной последовательности. Если же это условие не соб­людается, в канале теряется информация, и в зависимости от величины потерь можно говорить о большей или меньшей неопределенно­сти классификации фонем. При практической оценке фонетической не­определенности в данной работе использовались система призна­ков [73] и алгоритм сегментации речи на семь типов сегментов:
V - гласный, Т - переходный, М - сонорный, L - низкоча­стотный, Н - высокочастотный, R - шумный, П - пауза. Затем алгоритм маркировки ставил в соответствие каждому сегменту не­который фонетический символ, используя априорно полученные гисто­граммы параметров. От надежности маркировки сегментов во многом зависит точность работы CPP.
Так как СРР рассматривается здесь как канал передачи инфор­мации, предположим, что имеются R возможных входных символов алфавита А и s возможных выходов алфавита В . Таким об­разом, СРР описывается канальной матрицей.
Канал передачи информации, используемой для описания сис­темы распознавания речи, представленной цепочкой фонем, преобразу­ет не зашумленную последовательность звуков в выходную последова­тельность "машинных " фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.
Пусть элемента входного фонетического алфавита {Ai} появля­ются на входе с некоторой априорной вероятностью p( A1 ),р( A2 ),.,p(Ar), а элементы алфавита {Bj} на выходе - с вероятностью P(B1,) , p(B2), ..., р (Bs). Как отмечено ранее, работу канала пере­дачи входного алфавита {Ai} характеризует канальная матрица, поэтому
P{Bj}=∑r i=1 P(Ai)*P(Bj/Ai)
Символ А О И
А 0,89 0,1 0,01
O 0,15 0,75 0,1
И 0,01 0,1 0,89
2.2 Пример матрицы условных вероятностей распознавания изолированных звуков(2.2)
Информация I(Ai,Bj), получаемая от канала, когда на его вход поступила фонема Ai , а на выходе распознавалась как Bj, , определяется [91]
I(Ai,Bj)=LOG(P(Ai/Bj)/P(Ai)) (2.3)
Средняя информация, получаемая на выходе канала с потерями при передаче (распознавании) входного алфавита фонем A(Ai), который распознается как алфавит B=(Bj) , будет
I(A, B)=∑A, B P(Ai,Bj)*I(Ai,Bj)= ∑A, B P(Ai,Bj)*LOG2 (P(Ai/Bj)/P(Ai)=
=-∑A, B P(Ai,Bj)*LOG2 P(Ai)+ ∑A, B P(Ai,Bj)*LOG2 (P(Ai/Bj);
I(A, B)=H(A)+∑A, B P(Ai,Bj)*LOG2 (P(Ai/Bj); (2.4 )
Отметим, что Н(A)- энтропия, характеризующая степень неопределенности входного алфавита А =(Ai) . Из (2.4) получаем, что
H(A)- I(A, B)=-∑A, B P(Ai,Bj)*LOG2 P(Ai/Bj)=
=-∑A, B P(Ai,Bj)*P(Bj)LOG2 P(Ai/Bj)=-∑ B P(Bj)∑A P(Ai/Bj)LOG2 P(Ai/Bj)=H(A/B)
Н(А/B)- апостериорная энтропия входного алфавита фонем, которая
характеризует меру информации, теряемой в системе распознавания при передаче входного алфавита (Ai) . Апостериорная энтропия и является мерой, оценивающей сложность входного словаря для авто­матического распознавания при фиксированном параметрическом описании.
При наличии значений энтропии входного алфавита фонем можно вычислить размер (объем), равный 2H( A) , а значения 2 H|( A/ B) ха­рактеризуют среднее количество возможных альтернативных (конку­рентных) элементов алфавита (Ai) на входе СРР после того, как на выходе получили множество (Bj) , т.е. меру сложно­сти распознавания входного алфавита фонем. Назовем эту меру эквивалентным размером алфавита фонем. Значение 2 H|( A/ B) можно назвать энтропийным критерием оценки фонетической неопределенно­сти, который является обобщенной характеристикой сложности рас­познавания алфавита фонем (Ai) данной системы распознавания. Если СРР работает без ошибок, условная энтропия Н(А/В)=О и эквивалентный размер алфавита фонем 2 H|( A/ B) =1. Естественно, что если Н(А/В)=0, то 2 H|( A/ B) =1, а в случае, когда СРР не рас­познает Н(А/В)=Н(А), то эквивалентный размер алфавита фонем равен 2 H|( A) .
Эквивалентный размер алфавита фонем дает возможность коли­чественно оценить среднее число возможных конкурентных фонем (имеющие близкие параметрические описания), и для его определе­ния необходимо знать апостериорные вероятности P(Ai/Bj) вхо­дного алфавита.
Для решения конкретных проблем автоматического распознава­ния ограниченных наборов слов все многообразие фонем можно свести к двум-трем рабочим фонетическим единицам (например, к классам длительных шумных, звонких и смычных звуков), которые при использовании простой системы признаков и несложных алго­ритмов распознавания дают нулевую апостериорную энтропию. Однако при решении задачи распознавания относительно сложных словарей и/иди требование надежной фонетической верификаций произнесенно­го слова такого количества рабочих фонем сказывается явно недо­статочно. Работать же с полным набором фонем "ложно из-за оши­бок их автоматического распознавания. Поэтому и приходится идти на компромиссные решения - искать какой-то оптимум при фонетичес­ком описании рабочих словоформ. Эти проблемы будут частично рассмотрены в п. 2.2.3.
Условные вероятности распознавания фонем P(Ai/Bj), опреде­ляющие эквивалентный размер фонетического алфавита, можно определить несколькими методами.
83

Статистический метод позволяет получать вероятности распоз­навания фонем, используя реальную СРР. Это осуществляется путем сравнения результата распознавания системы с точной ручной сегментацией и маркировкой речевого сигнала (иди его параметрического представления), поступающего на вход системы распознава­ния. В результате получается классическая матрица правильной и ошибочной классификации входного алфавита фонем.
Акустико-параметрический метод, когда матрица ошибок клас­сификации фонем получается путем прямого сравнения их параметрического описания. При этом эталон фонемы выбирается из мно­жества реализации данной фонемы. Расстояние между фонемами исполь­зуется для оценки условных вероятностей ошибочной классификации фонем. Точность этого метода зависит от выбранного эталона и объе­ма исследовательского материала.
Кроме этих методов, оценку вероятности ошибочной классификации фонем можно произвести на основе моделирования речеобразующего тракта человека [7].

Внимание, отключите Adblock

Вы посетили наш сайт со включенным блокировщиком рекламы!
Ссылка для скачивания станет доступной сразу после отключения Adblock!

Скачать полную версию
Рефераты по информатике При распознавании устной речи необходимо стремиться к тому, чтобы все фонемы классифицировались правильно, поэтому нас интересует распознавание
Оценок: 520 (Средняя 5 из 5)

Наверняка у вас есть товары или услуги, продажа которых приносит вам максимальную прибыль. Для быстрого старта в сети вам необходимо создание посадочной страницы (одностраничного сайта), на которой будет размещена информация о маржинальных товарах/услугах интернет магазина. За 8 лет опыта разработки конверсионных страниц мы выработали оптимальную структуру, которая позволит привлекать через landing page больше продаж. На такую структуру «одевается» ваш контент — фирменный стиль, тексты, фотографии, уникальные торговые предложения, после чего страница выходит в свет. Разработка лендинга и запуск в сети — до 7 рабочих дней. Стоит отметить, что в разработку самой посадочной страницы входит и написание копирайтером продающих текстов для вашего бизнеса, чтобы каждый посетитель страницы захотел совершить покупку именно у вас. Результат: качественно разработаная продающая посадочная страница, которая готова приносить вам новых клиентов.

© 2016 - 2022 BigEdu.ru