Свойств речи Классификация Скорость АЦП Искажения Цифро-аналоговое преобразование Сложение сигналов Плотность импульсов Кодовые комбинации Дискреты Анализ Частотный спектр Цифровые схемы Модуляторы Конференц-связь

Корреляция между периодами основного тона

По способам генерации звуки человеческой речи часто относят к одной из двух категорий. Первая категория охватывает звуки, которые создаются в результате вибрации голосовых связок. При каждой вибрации поток выдыхаемого воздуха пропускается из легких в речеобразующий тракт. Интервал времени между прохождением струй воздуха, возбуждающих речеобразующий тракт, называется периодом основного тона, или, более просто: частота возбуждения соответствует основному тону. В общем смысле такие звуки возникают при генерации гласных звуков и некоторой части согласных. Пример реализации такого звука представлен на рис. 3.22.

Вторая категория звуков включает в себя щелевые, или глухие звуки. Глухие звуки возникают при непрерывном протекании воздуха от легких через речеобразующий тракт, суженный в некоторой точке для образования турбулентностей воздуха. Глухие звуки относятся к некоторым согласным, таким как ф, с. Пример сигнала глухого  звука представлен на. рис. 3.23. Отметим, что глухой звук существенно больше похож на случайный сигнал, чем гласный или звонкий согласный.

Рис. 3.23. Сигнал глухого звука

Как показано на рис. 3.22, на гласных или звонких согласных звуках заметна не только избыточность, связанная с периодичностью в сигнале и упомянутая в разд. 3.3.3, но и долговременная периодичность, относящаяся к основному тону. Вследствие этого одним из наиболее эффективных способов кодирования звонких отрезков речи является кодирование сигнала на одном периоде основного тона и использование результатов этого кодирования как шаблона на каждом последующем периоде основного тона в одном и том же звуке. Периоды основного тона составляют обычно от 5 до 20 мс для мужчин и от 2,5 до 10 мс для женщин. Поскольку типовой гласный или звонкий согласный звук длится примерно 100 мс, в один звук может уложиться 20—40 периодов основного тона. Хотя кодирование на периоде основного тона может значительно уменьшить скорость передачи, иногда основной тон очень трудно выделить. (Отнюдь не все звонкие согласные звуки содержат четко идентифицируемый период основного тона, какой показан на рис. 3.22.) Если же закодировать сигнал на периоде основного тона с ошибками, то это приводит к созданию необычных звуков.

Интересный аспект кодирования на периоде основного тона состоит в том, что это дает средства для ускорения речи при сохранении разборчивости. При удалении некоторой части периодов основного тона из каждого звука (фонемы) частота генерации речи существенно возрастает, что в некоторой степени аналогично более быстрому формированию слов. Основной тон звуков остается неизменным. В противоположность этому, если просто увеличить скорость восстановления, то все частоты, включая и основной тон, пропорционально увеличатся. Небольшое ускорение дает заметные искажения, а при значительном ускорении речь становится неразборчивой. Устройства, предназначенные для имитации ускоренного формирования слов, показали, что люди способны воспринимать речевую информацию намного быстрее, чем нормально ее производят.

Избыточность, связанная с неактивностью речи

Анализ телефонных переговоров показал, что активная часть разговора в типовом случае составляет около 40% его длительности. Большая часть неактивных участков является результатом того, что один человек слушает, когда другой говорит. В результате этого обычное дуплексное соединение (при коммутации каналов) существенно недоиспользуется. Метод TASI (Time Assignment Speech Interpolation), описанный в гл. 1, реализует улучшение использования каналов дорогих аналоговых линий. Термин «цифровое статистическое уплотнение речевого сигнала» представляет собой термин, применяемый, когда речь идет об аналоге метода TASI для цифровых каналов. По сути, цифровое статистическое уплотнение речевого сигнала включает в себя: определение речевой активности, занятие канала, кодирование и передачу отрезков речи и освобождение канала по завершению каждого отрезка.

Очевидно, что цифровое статистическое уплотнение речевого сигнала можно применить к цифровым системам запоминания речи, где длину паузы можно закодировать и передать более эффективно, чем саму паузу. Однако в записанных сообщениях длительности пауз, как правило, невелики, так как здесь нет «полудуплексного» разговора. Цифровое статистическое уплотнение речевого сигнала было предложено для многочисленных систем передачи, обсуждаемых в гл. 8.

Анализ и синтез речи является еще одной областью широко распространенных исследований, тесно связанных с преобразованием речи в цифровую форму Цифро-аналоговое и аналого-цифровое преобразования