Сравнительный анализ систем синтеза речи

В XIX в. мощным толчком в развитии исследований синтезаторов речи стала резонаторная теория Гельмгольца, согласно которой речевой тракт человека представлял собой последовательность резонаторов. Было выявлено, что гласные звуки различаются резонансными частотами, которые впоследствии назывались формантами. Голосовой тракт рассматривался как резонатор. В результате, начались попытки построить синтезатор речи, представляющий собой электрический аналог.
Первый электрический синтезатор был представлен Стюартом в 1922 году [Klatt 1987]. Синтезатор имел зуммер для модулирования голосовых связок и два резонансных контура для моделирования акустических резонансов голосового тракта. Машина могла генерировать гласные звуки, то есть две первые форманты, без каких-либо согласных. Синтезатор такого же типа был создан Вагнером [Фланаган, 1968].
В 1932 году японские исследователи Обата и Тешима обнаружили третью форманту в гласных. Три первых форманты, как правило, считаются достаточными для разборчивой синтетической речи.
Первым устройством, которое было рассмотрено как синтезатор речи, было VODER (Voice Operating Demonstrator), представленный Гомером Дадли на Всемирной выставке в Нью-Йорке 1939 года [Фланаган, 1968]. VODER был основан на разработке VOCODER (Voice Coder), созданной в Bell Laboratories в середине тридцатых годов. Этот синтезатор речи управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Блок управления резонансами составляли десять параллельно соединенных полосовых фильтров. Для того, чтобы переключить источник возбуждения необходимо было использовать браслет, находящийся на запястье оператора. Управление частотой импульсов осуществлялось ножной педалью. На выходе напряжение сигнала каждого фильтра могу осуществляться десятью пальцами. Взрывные согласные имитировались посредством трех дополнительных клавиш. Существенным недостатком Водера было то, что он требовал значительное время. Однако, несмотря на это синтезируемая речь была достаточно качественной и обладала высоким уровнем разборчивости.
Примерно через десять лет, в 1951 году, Франклин Купер и его партнеры разработали синтезатор воспроизведения в Лаборатории Хаскинса [Klatt 1987]. Это устройство представляло собой записанные спектрограммы, преобразованные в звуки.
Первый формантный синтезатор, PAT (Parametric Artificial Talker), был представлен Уолтерос Лоуренсом в 1953 году [Klatt 1987]. Примерно в то же время Гуннар Фант представил первый каскад формантный синтезатор OVE I (Orator Verbis Electris), который состоял из форманта резонаторы подключены каскадом. Десять лет спустя, в 1962 году, Фант и Мартони представил улучшенный синтезатор OVE II, который состоял из отдельных частей для модели передаточной функции голосового тракта для гласных, носовых и некоторых согласных.