Вокодеры с линейным предсказанием

Оглавление
Перечень условных обозначений…………………………………………………………….. 3
В ведение ………………………………………………………………………………………. 5
Глава 1. Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием ………………………………………………………………………………... 6
1.1. Физическое обоснование…………………………………...…………………………... 7
1.2. Вокодеры с линейным предсказанием (липредеры). .…………………………………10
1.3. Принцип метода линейного предсказания..…………………………………………... 12
Глава 2: Способы преобразования информации в вокодерах с линейным предсказанием …….…………………………………………………………………………. 15
2.1. Преобразование коэффициентов…….………………………………………………… 15
2.2. Кодирование и декодирование… ………………………………………………………. 16
2.3. Передача параметров с переменной скоростью .........……….……………………….. 19
2.4. Возбуждение синтезатора и выбор коэффициента усиления ……………………….. 20
Глава 3: Виды липредеров на примере устройств с низкой скоростью передачи информации …………………….…………………………………………………………….. 23
3.1. Липредеры на основе ковариационного метода ……………..………………………. 24
Глава 4: Методы анализа речи на основе использования вокодеров с линейным предсказанием ……………………………………………………………………………….. 29
Глава 5: Кодеки ………………………………………………………………………………. 34
Глава 6: Вокодеры в современности ……....……………………………………………… 41
Заключение ………………………………………………………………………………...... 44
Список используемой литературы ……………………………………………………...... 45
Перечень основных условных обозначений.
АДИКМ – адаптивно-дифференциальная импульсно-кодовая модуляция;
ВОТ – выделитель основного тона;
ГОТ – генератор основного тона;
ГШ – генератор шума;
ДИКМ – дифференциальная импульсно-кодовая модуляция;
ИКМ – импульсно-кодовая модуляция;
КС – канал связи;
МККТТ – Международный консультационный комитет по телефонии и телеграфии;
МСЭ – Международный союз электросвязи;
НЧ – низко-частотный;
ОТ – основной тон;
ПЗУ – постоянное запоминающее устройство;
Т-Ш – «тон-шум»;
УО – устройство объединения сигналов;
УР – устройство разделения сигналов;
ФНЧ – фильтр низких частот;
ЦАП – цифро-аналоговый преобразователь;;
ЦПОС – цифровые процессоры обработки сигналов;
ACELP – англ. Algebraic Code Excited Linear Prediction - возбуждениеоталгебраическогокода;
ADPCM – aнгл. Adaptive differential pulse-code modulation - адаптивно-дифференциальнаяимпульсно-кодоваямодуляция;
CELP –англ., Code Excited Linear Predictive – возбуждениеоткода;
CS-ACELP - Conjugate Structure - Algebraic Code Excited Linear Prediction - сопряженнаяструктурасуправляемымалгебраическимкодомлинейнымпредсказанием;
DSP - Digital Signal Processor - специализированные цифровые сигнальные процессоры;
GSM - (от названия группы Groupe Sp é cial Mobile , позже переименован в GlobalSystemforMobileCommunications) (русск. СПС-900) — глобальный цифровой стандарт для мобильной сотовой связи;
ITU – англ.International Telecommunication Union – Международныйсоюзэлектросвязи;
LD-CELP – англ. Low Delay - Code Excited Linear Prediction - линейноепредсказаниескодовымвозбуждениеми низкойзадержкой;
LPC – англ., Linear Predictive Coding – кодирование с линейным предсказанием;
LSF - linear spectral frequency - линейныеспектральныечастоты;
MIPS - Million Instructions Per Second - миллионоперацийвсекунду;
MOS – aнгл. Mean Opinion Score - средняясубъективнаяоценка;
MPELP – англ., Multi Pulse Excited Linear Predictive – многоимпульсноевозбуждение;
MP-MLQ - Multy-Pulse - Multy Level Quantization - множественное импульсное;
PCM – aнгл. Pulse Code Modulation – импульснаякодоваямодуляция;
QDU - Quantization Distortion Units - параметры ухудшения качества сигнала при квантовании;
RELP –англ., Residual Excited Linear Predictive – возбуждение от остатка предвидения;
VAD - Voice Activity Detector - детектор активности источника речевого сигнала
многоуровневое квантование.

Введение
Вокодеры – это системы параметрического кодирования речи, широко применяемые в современной цифровой телефонной связи, в том числе – Internet-телефонии. Причиной тому – высокая степень сжатия информации, а также хорошая согласованность вокодеров с системами канального кодирования и шифрования, в результате чего сравнительно легко обеспечивается высокая защищенность систем связи от помех и утечки информации. Недостатком вокодеров является невысокое качество речи, поэтому они применяются главным образом в военной связи, где главное – не натуральность речи, а ее высокая степень сжатия и хорошая разборчивость. В коммерческих системах связи, где ценится натуральность звучания речи, обычно применяют полувокодеры (гибридные вокодеры), сочетающие принципы непараметрического и параметрического методов кодирования. Иные области применения вокодеров – автоматизированная стенография, озвучивание текста, человеко-машинный диалог, биометрия (идентификация диктора).
Знакомясь с современным состоянием вокодерных технологий по литературным источникам и ресурсам Internet, можно выделить следующие области примениения вокодеров:
· программные и программно-аппаратные разработки вокодеров для промышленного, военного и бытового применения;
· программные экспериментальные вокодеры;
· другие перспективные и интересные направления.

Глава 1: Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием.
Устройства для параметрического частотного сжатия речи получили название вокодеров.
Вокодер (от англ. voice - голос и coder – кодировщик голоса) представляет собой устройство (или алгоритм), осуществляющее параметрическое компандирование речевого сигнала.
Компандирование - способ преобразования речевого сигнала, при котором на передающем конце тракта происходит сжатие по одному или нескольким измерениям (частотный диапазон, динамический диапазон, временной интервал), а на приёмном - восстановление первоначального объёма сигнала путём соответствующего расширения. Компандирование включает преобразования: компрессию (сжатие) и декомпрессию (восстановление) речевого сигнала.
Общий принцип действия вокодера любой системы поясняется на рис. 1.
Анализатор
А - анализатор спектра
Т-Ш - выделитель сигнала тон-шум
ВОТ - выделитель основного тона
УО - устройство объедин. сигналов
КС - канал связи
Синтезатор
УР - устройство разъед. сигналов
С - синтезатор спектра
П - переключатель вида спектра
ГОТ - генератор основного тона
ГШ - генератор шума
Рис. 1. Обобщенная блок-схема вокодера
Главными частями вокодерного тракта является анализатор, который осуществляющий выделение параметров речевого сигнала, система передачи, обеспечивающая прохождение информации об этих параметрах через канал связи в узкой полосе частот, и синтезатор, восстанавливающий первообразный речевой сигнал.
Анализатор вокодера состоит из устройства для выделения параметров речевого сигнала A1,A2,...,Ak и схемы выделения основного тона(тон(F0) или шум).
1.1. Физическое обоснование.
Работа вокодера (voice coder) основана на анализе характерных особенностей человеческой речи. На рис. 2 показаны условно частотные характеристики речи как функция от времени.

Рис. 2. Пример распределения энергии в частотных диапазонах
На рисунке изображены частотные полосы (от 0 до 1 КГц, от 1 КГц до 2 КГц и т. д.) и распределение энергии по ним при произнесении фразы.
Как видно из рисунка, энергия распределяется во времени только в некоторых частотных диапазонах и различается по величине. Отдельные пики энергии, возникающие в одном частотном диапазоне, называются фонемами.
Эта картина может изменяться в больших диапазонах, в зависимости от тембра голоса и особенностей произношения, но нам сейчас важно рассмотреть общие закономерности построения. На рисунке видно, что буквы отличаются не только частотным диапазоном, но и структурой. Для каждого звука характерны пики (резонансы) энергии в определенных частотных диапазонах и провалы в других. Частоты, на которых в данный момент возникают комбинации пиков (фонем), называются "частотами формант" или просто "формантами". Гласные и звонкие согласные звуки речи содержат обычно от трех до четырех формант. Эти свойства и иллюстрируются рис. 2.
Изображенная "спектрограмма" представляет собой распределение энергии речи в виде функции времени и частоты. Горизонтальная ось представляет время, вертикальная — частоту, уровень энергии условно показан частью синусоиды. Периоды между сменами формант составляют от 10 до 30 мс. Изучение образцов речи показало, что в русском языке содержится 42 фонемы: это 6 гласных звуков и остальные согласные. Чтобы закодировать их номера, достаточно 6 битов.
Человек в среднем произносит в секунду 10 звуков. То есть от центральной нервной системы к речевому аппарату сигналы передаются со скоростью 10 [log2±2] = 60 бит/c. Это вычисление порождает иллюзию, что речь имеет небольшой объем информации и может быть передана с небольшой скоростью. Однако если рассмотреть подробнее, как образуется звук, то можно обнаружить, что при передаче речи требуется передать больше информации. При разговоре грудная клетка сжимается и расширяется, поток воздуха проходит через трахею и гортань в полости глотки, рта и носа. Голосовой тракт простирается от голосовой щели (отверстие между голосовыми складками гортани) до губ и в процессе речи его форма меняется. Если произносятся звонкие звуки (гласные, носовые, звонкие согласные), называемые также вокализованными (voiced), голосовые складки в гортани смыкаются и размыкаются с частотой, которая называется частотой основного тона (pitch). Получается последовательность импульсов воздушного потока, которые возбуждают полости голосового тракта. В процессе разговора человек меняет геометрические размеры этих полостей, соответственно меняются и резонаторные частоты, "форманты".
При произнесении глухих невокализированных (unvoiced) звуков голосовые связки расслаблены. Проходя по суженному голосовому тракту, воздух создает турбулентный поток (завихрение), т.е. в полости рта и носа возбуждаются шумоподобные сигналы. Взрывные (смычные, stop) звуки получаются путем кратковременного выхлопа — полного перекрытия речевого тракта, нагнетания давления и внезапного открытия тракта. Взрывные звуки бывают звонкие (б, д, г) и глухие (п, т, к), т.е. могут образовываться с участием голосовых складок и без них. Таким образом, в терминах спектра сигналов, когда человек говорит, он производит спектральновременную модуляцию широкополосного сигнала, генерируемого голосовыми складками и представляющего своего рода несущую. Полезная информация содержится только в интонации (изменении частоты основного тона) и в смене спектра с тонального на шумовой и наоборот.
Линейная модель речеобразования представляет речь как систему, состоящую из генератора возбуждения (генераторная функция) и линейной системы с медленно изменяющимися параметрами (фильтровая функция), которая им возбуждается. В такой модели не учитывается взаимное влияние голосовой щели и голосового тракта. Это не соответствует действительности, зато сильно упрощает анализ и синтез. Для экономичной передачи и хранения речи надо определить параметры генераторной и фильтровой функций. В генераторной функции изменяется частота и амплитуда основного тона (высота и громкость голоса) и происходит смена вида функции (основной тон или шум). У фильтровой функции происходит постоянное изменение коэффициента передачи, проявляющееся в изменении огибающей спектра.
Эта модель представляет речь человека, который "гудит" на одной частоте, периодически изменяя ее на другую и меняя громкость, а основная информация "добавляется" в "подтонах".
Рассматриваемые ранее принципы и реализующая их аппаратура были предназначены в первую очередь для воспроизведения формы входного сигнала на приеме как можно точнее в форму сигнала на выходе приемной стороны. Ниже рассмотрим принципы построения аппаратуры, которая моделирует человеческую речь, используя при этом методы цифрового кодирования. Они называются вокодеры (это слово получено объединением двух английских слов voice coder — кодер речевого сигнала).
По принципу определения параметров фильтровой функции различают следующие типы вокодеров:
· канальные (полосовые, channel);
· формантные;
· ортогональные;
· вокодеры с линейным предсказанием (липредеры — с линейным предсказанием речи).
Ранее вокодеры выполнялись только на основе аналоговой техники на протяжении всего разговорного тракта. Теперь наиболее распространена цифровая техника.
В упрощенном виде вышесказанное выглядит таким образом:
В формировании того или иного звука речи человека участвует та или иная часть этих элементов. Если звук формируется с участием голосовых связок, поток воздуха из легких вызывает их колебание, что порождает звуковой гон. Последовательность формируемых таким образом звуков составляет тоновую речь (или тоновый сегмент речи). Если звук формируется безучастия связок, тон в нем отсутствует, и последовательность таких звуков составляет нетоновую речь (нетоновый сегмент речи). Спектр тонового звука может быть смоделирован путем подачи специальным образом сформированного сигнала возбуждения на вход цифрового фильтра с параметрами, определяемыми несколькими действительными коэффициентами. Спектр нетоновых звуков - практически равномерный, что обусловлено их шумовым характером.
В реальных речевых сигналах не все звуки можно четко разделить на тоновые и нетоновые, а приходится иметь дело с некими переходными вариантами, что затрудняет создание алгоритмов кодирования, обеспечивающих высокое качество передачи речи при низкой скорости передачи информации.
Описанный принцип кодирования получил название LPC (Linear Prediction Coding - кодирование с линейным предсказанием ), поскольку центральным элементом модели голосового тракта является линейный фильтр. Наиболее известный стандартный алгоритм, построенный по описанному принципу, был стандартизован министерством обороны США под названием LPC-10, где число 10 соответствует количеству коэффициентов фильтра. Данный кодер обеспечивает очень низкую скорость передачи информации 2.4 Кбит/с, однако качество воспроизводимых речевых сигналов оставляет желать лучшего и не удовлетворяет требованиям коммерческой речевой связи - речь носит ярко выраженный «синтетический» характер.
В следующих главах детально разберем вокодеры с линейным предсказанием, принципы их устройства, различные методы их работы, области применения и другие аспекты. Также будет затронута тема кодеков, базирующихся на использовании вокодеров.
1.2 Вокодеры с линейным предсказанием (липредеры).
Этот тип вокодера (рис. 3, рис. 4), в отличие от остальных типов, для передачи речи применяет не фильтры, а систему линейного предсказания. В линию передается разностный сигнал между истинным и предсказанным значениями. Коэффициенты предсказания используются для предсказания управлением, восстанавливающим генератором на приеме и добавления генератором шума для передачи глухих и "свистящих" согласных.

Рис. 3. Схема передающей части вокодера с линейным предсказанием

Рис. 4. Схема приемной части вокодера с линейным предсказанием
Вокодеры данного типа работают уже с целыми блоками подготовленных отсчетов. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Затем из значений этих параметров формируется речевой кадр, готовый для передачи. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям ЦПОС, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере (см. рис. 5).

Рис.5. Схема функционирования вокодера на основе метода линейного предсказания речи.
Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются серьезные вычислительные мощности.
1.3 Принцип метода линейного предсказания.
В вокодерах с линейным предсказанием при анализе речевого сигнала в передающем устройстве определяются коэффициенты предсказания, а в приемном устройстве на основе этих коэффициентов с помощью рекурсивного цифрового фильтра синтезируется эквивалент голосового тракта.
Принцип метода линейного предсказания состоит в том, что прогнозируемая величина речевого сигнала (Pic) в момент выборки h определяется как линейно взвешенная сумма значений сигнала в моменты предшествующих выборок.
,
где – значения речевого сигнала в моменты предшествующих выборок; m =1,2…p ; p – порядок предсказания; am – коэффициенты предсказания.
Интервалы времени между моментами выборок определяются частотой дискретизации
th – th -1 = 1/f д .
В момент h , когда известны не только предсказанное значения , но и истинное значение речевого сигнала (h ), можно определить ошибку предсказания и затем подобрать коэффициенты предсказания таким образом, чтобы ошибка предсказания была минимальной.
Коэффициенты предсказания, значения которых передаются по каналу связи на приемную сторону, используются в качестве переменных параметров в рекурсивном цифровом фильтре, на вход которого подаются сигналы возбуждения. При воспроизведении вокализованных звуков (гласных) – это последовательность импульсов с частотой основного тона, а при воспроизведении невокализованных звуков (согласных) – это случайная последовательность импульсов, формируемых генератором шума.
При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов речевого сигнала или их разностей. Это позволяет существенно снизить скорость передачи речевого сигнала по сравнению с методами ИКМ, ДИКМ, АДИКМ.

Внимание, отключите Adblock

Вы посетили наш сайт со включенным блокировщиком рекламы!
Ссылка для скачивания станет доступной сразу после отключения Adblock!

Скачать полную версию

Рефераты по информатике Оглавление Перечень условных обозначений…………………………………………………………….. 3 В ведение ………………………………………………………………………………………. 5 Глава 1. Понятие «вокодер».

Оценок: 750 (Средняя 5 из 5)

Наверняка у вас есть товары или услуги, продажа которых приносит вам максимальную прибыль. Для быстрого старта в сети вам необходимо создание посадочной страницы (одностраничного сайта), на которой будет размещена информация о маржинальных товарах/услугах интернет магазина. За 8 лет опыта разработки конверсионных страниц мы выработали оптимальную структуру, которая позволит привлекать через landing page больше продаж. На такую структуру «одевается» ваш контент — фирменный стиль, тексты, фотографии, уникальные торговые предложения, после чего страница выходит в свет. Разработка лендинга и запуск в сети — до 7 рабочих дней. Стоит отметить, что в разработку самой посадочной страницы входит и написание копирайтером продающих текстов для вашего бизнеса, чтобы каждый посетитель страницы захотел совершить покупку именно у вас. Результат: качественно разработаная продающая посадочная страница, которая готова приносить вам новых клиентов.