The website "dmilvdv.narod.ru." is not registered with uCoz.
If you are absolutely sure your website must be here,
please contact our Support Team.
If you were searching for something on the Internet and ended up here, try again:

About uCoz web-service

Community

Legal information

1. Введение

1. Введение

Предыдущая  Содержание  Следующая V*D*V

С тех пор, как управляемые динамически формантные синтезаторы впервые были использованы для синтеза речи [1,2], существуют противоположные точки зрения в пользу каскадного и параллельного соединения резонаторов. Недавно Клатт [3] в очень обстоятельном документе, по-видимому, соединил две стороны вместе описанием программного формантного синтезатора, который использует и каскадное, и параллельное соединение, выбирая одно или другое в зависимости от типа синтезируемого звука. Гласные и согласные, похожие на гласные, используют каскадное соединение, в то время как остальные согласные используют параллельное соединение. В этом докладе я буду доказывать, что при правильной реализации параллельная конфигурация на самом деле превосходна во всех существенных отношениях для гласных и согласных. Этот вывод прямо противоположен тому, который представлен Рабинером в 1968 г. [4].

 

По общему признанию сторонников каскадного соединения для гласных, чтобы иметь дело со многими согласными звуками должны быть обеспечены специальные условия [5,6]. Таким образом, полноценный синтезатор каскадного типа, как правило, гораздо более сложен, чем это необходимо только для гласных, и требуется значительное количество дополнительной управляющей информации для согласных. Если не уделяется особое внимание, использование отдельных резонаторных систем для различных типов звука может нарушить естественную непрерывность резонанса, как это происходит в человеческой речи на фонетических границах. Например, на переходе между гласной и фрикативным, таким как [s], энергия фрикативного начинает проявляться в высших формантах перед тем, как прекратится голосовое возбуждение, и это шипение постепенно сливается со спектральной структурой полностью глухого [s]. Синтезатор Клатта даёт необходимую преемственность резонанса путём предоставления в нём двух резонаторных систем с одинаковыми параметрами резонанса (то есть каждый резонатор дублируется в каскадном и параллельном соединении).

 

Конечно, можно использовать каскадный синтез, чтобы сделать разумные приближения для спектров как гласных, так и согласных без отдельной системы для согласных, как это делается в линейном кодировании с предсказанием (linear predictive coding, LPC). В вокодерах LPC функция передачи синтезатора по своей сути содержит только полюсы в z области, используемые обычно для описания фильтров  сэмплированных данных [7]. Её реализация по сути эквивалентна каскадному формантному синтезатору, получающему сэмплированные данные, в котором все формантные частоты и полосы могут быть выбраны с полной свободой. Полюсы такой системы могут рассматриваться как представляющие истинные формантные резонансы во время гласных, но некоторые из них, с гораздо большим затуханием, адаптированы к общей роли формирования огибающей спектра в других звуках для изменения интенсивности остальных значимых формант. Основным недостатком синтезаторов с LPC для исследования восприятия речи является то, что трудно связать требуемые параметры формант с информацией управления LPC. LPC синтезаторы не используются даже для применения в вокодерных приложениях настолько хорошо, как это могло бы быть, потому что математический критерий, применяемый в обычном анализе LPC для определения передаточной функции в синтезаторе, не очень хорошо подходит к потребностям человеческого слухового восприятия, и для улучшения этой ситуации Макхоулом и Коселлом [8] и Штрубе [9] были описаны более сложные методы анализа.

 

Для синтезаторов, которые работают с описанием формант, стоит изучать, какие характеристики могут быть достигнута с использованием только параллельной системы. Клатт цитирует две причины в пользу использования каскадного соединения для некоторых звуков. Первая: "относительные амплитуды формантных пиков для гласных сразу получаются правильными без необходимости иметь отдельные элементы управления амплитудой для каждой форманты", а другая в том, что эта конфигурация включает в себя "более точную модель функции передачи голосового тракта во время создания не назальных сонорных". В этой статье я покажу, что оба этих бесспорных теоретических преимуществ на самом деле не имеют значения на практике, и что простая конфигурация, которая может быть достигнута только с помощью параллельного соединения, фактически предлагает преимущество в характеристиках по сравнению с каскадным соединением, даже для гласных.

 

В ходе обсуждения ниже предполагается, как это обычно с терминальными аналоговыми синтезаторами, что целью является как можно ближе приблизиться к тем элементам речевых сигналов, которые значимы для восприятия, без собственной важности, связанной с человеческой речью, создаваемой механизмом. Кажется, принято считать, что для достижения этой цели достаточно воспроизвести кратковременный спектр речи, определяемый с помощью разрешения по частоте и времени, аналогичного человеческой слуховой системе.

 

В стационарном состоянии при произнесении человеком слов кратковременный спектр сигнала является результатом четырёх отдельных факторов:

 

(i) передаточной функции голосового тракта;

(ii) влияния излучения на губах и ноздрях;

(iii) спектра одного импульса объёмного потока в голосовой щели;

(iv) структурой спектральной линии, обусловленной периодичностью возбуждения.

 

Свойства возбуждения фрикативных и взрывных для непериодических источников звука замещают факторы (iii) и (iv), а функция передачи голосового тракта зависит от положения точки возбуждения.

 

Основные проблемы в синтезе речи связаны с факторами (i) и (iii). Влияние излучения может быть хорошо представлено на большей части частотного диапазона речи с помощью простого дифференцирования [10], которое может быть выполнено напрямую, или его действие может быть объединено с другой функцией синтезатора. В терминальных аналоговых синтезаторах, по сути, вполне приемлемо объединить некоторые аспекты вышеприведённых факторов (ii) и (iii) в системе фильтров, формирующих спектр. Для нормального качества голоса и в каскадном, и в параллельном синтезаторах речи для получения источника голосового возбуждения используется периодический сигнал, а требование иметь не периодическое возбуждение для особых параметров голоса одинаково влияет и на каскадные, и на параллельные синтезаторы; по этой причине фактор (iv) не требует дальнейшего обсуждения в этом докладе.

 

Предыдущая  Содержание  Следующая