Машины, которые говорят и слушают (part 2)

Посмотреть архив целиком

ГОВОРЯЩИЕ и понимающие речь машины строятся сей­час на основе ЭВМ, которые включают, как правило, микропроцес­соры и другие большие интегральные схемы. А ЭВМ работают с числами, перерабатывают цифровую информацию. Лучше сказать так: все, что перерабатывает вычислительная машина, должно быть представлено в виде чисел. В понятие «все» входят, в частности, сигналы, получаемые с датчиков. Сюда относят сигналы, получае­мые медиками (кардиограммы, энцефаллограммы), и различные тех­нические шумы, например шумы двигателя, по которым ЭВМ может определить причину его неисправности, геофизические (шумы под­земных недр и моря), биологические шумы (разговоры дельфинов, пение птиц, мяуканье кошек и лай собак, кваканье лягушек), раз­личные двумерные сигналы (изображения). Сюда же относят и че­ловеческую речь. В этом разделе рассмотрим, как речь (речевой сигнал) превращается в набор чисел и какие превращения с эти­ми числами происходят до того, как «умная» машина произнесет нужную фразу или поймет с'!ысл высказывания.

Но мы должны помнить, что основные приборы и способы об­работки сигналов, превращенных в набор чисел, можно использо­вать и для работы с любыми сигналами, поступающими с соответ­ствующих датчиков информации, сигналами не обязательно речевой природы. Цифровые методы анализа открывают поистине безгранич­ные возможности вычислительной техники. Ученые показали, что если у непрерывно изменяющегося во времени сигнала брать доста­точно близко расположенные друг к другу цифровые отсчеты, то последовательность этих отсчетов будет почти полностью отражать все свойства этих сигналов. При обратном преобразовании этих цифр в речь она будет слышна без искажений. Это значит, что достаточно представить речевой сигнал в цифровом виде, в виде,

64

удобном для машинной обработки, и можно применять всю мощь программных средств ЭВМ для расшифровки смысла речевого со­общения в системах, понимающих речь. В говорящих же машинах используют обратное преобразование: «цифры речевой сигнал». Полученную программно в виде последовательности чисел речь пропускают через специальные преобразователи «цифровая после­довательностьэлектрическое напряжение» («цифрааналог»). Далее речевой сигнал можно подавать на наушники или динамиче­ский громкоговоритель, преобразующие электрический сигнал в колебание мембраны, или рупоры (диффузора) динамика, которые колеблют воздух в соответствии с электрическим сигналом, по­ступающим на вход.

Напомним, что сам речевой сигнал изменяется во времени до­статочно быстро. Это объясняется особенностями его образова­ния фильтрацией сигналов возбуждения импульсов воздушного давления, толчков воздуха, поступающих с голосовых связок при их колебании, т. е. через открытые голосовые связки из легких при выдохе через резонансную систему (артикуляторные органы гор­тань. язык, полости рта и носа). Свойства же речеобразующего тракта из-за его инерционности меняются медленно. И в вычисли­тельной машине в цифровой форме крайне желательно получать и хранить медленно меняющиеся параметры голосового тракта и ис­точника частоты основного тона, формантные частоты, определя­ющие характер самого речевого сигнала. Поэтому здесь рассмот­рим и способы получения параметров речеобразующего трактаформант и различных связанных с ними характеристик, которые иногда будем называть информативными параметрами. Изменение главного параметра голосового источника частоты основного то­наотносится к просодическим характеристикам речи, некоторые методы его получения уже были рассмотрены.

Если по информативным параметрам и их изменениям во вре­мени (используя модели речеобразования) можно восстановить ре­чевую волну или распознать ее смысл (на основе модели речевос-приятия), то, кроме как с параметрами, вроде бы ни с чем и ра­ботать не надо. Параметры эти очень удобны, слабо меняются во времени, поэтому их гораздо меньше, чем цифровых отсчетов са-'

5 Заказ № 901



65




мого сигнала. Значит, меньший объем памяти можно занять под высказывание, которое анализируется или генерируется. Значит, меньше времени потребует машинная обработка при распознава­нии. Значит, меньшими машинными ресурсами можно снабдить систему автоматического распознавания или синтеза речи и тем сильно снизить ее стоимость. Но как автоматически получить эти параметры (признаки, лежащие в основе машинных моделей рас­познавания и синтеза речи)? Ведь при построении понимающих речь машин, например, мы имеем на входе машины лишь речевой сигнал. Как от него перейти к параметрам? Только создав аппара­туру, которая их выделяет и позволяет вводить в ЭВМ в цифро­вой форме, или разработав алгоритмы и соответствующие програм­мы, которые по оцифрованному речевому сигналу или по спектру позволяют получать эти параметры программным способом. В свя­зи с этим вводить в ЭВМ информацию о речевом сигнале в циф­ровой форме можно тремя способами. Первый способ осуществля­ется с помощью универсального прибора-преобразователя «ана­логцифра», который дает возможность вводить в память ЭВМ отдельные отсчеты речевого сигнала в виде последовательности чисел.

Второй способ включает сложный преобразователь, позволяю­щий вводить в ЭВМ информацию о спектре сигнала за относитель­но короткие временные интервалы. Обычно такая информация вво­дится с гребенки аналоговых полосовых фильтров, каждый из ко­торых пропускает лишь ограниченный диапазон частот. Вместе же фильтры гребенки перекрывают весь частотный диапазон речевого сигнала, прошедшего через технические устройства (микрофон и микрофонный усилитель). Использование устройств речевого ввода этого типа позволяет получать в памяти ЭВМ в цифровом виде картинку так называемой «видимой речи», динамическую спектро­грамму, которая раньше создавалась с помощью спектроанали-заторов, сонографов-приборов, сыгравших большую роль в изу­чении речи и ее параметров лингвистами. В настоящее время ин­формация о кратковременном спектре может быть получена с по­мощью специализированных БИС и СБИС цифровой обработки

66

сигналов, которые реализуют гребенку фильтров цифровыми ме­тодами.

И, наконец, третий способ это устройства ввода в ЭВМ вы­деляемых аналоговым способом непосредственно из речевой волны главных параметров речеобразующего тракта, а также просодиче­ских параметров формантных частот, усредненной мгновенной частоты, усредненной интенсивности сигнала, частоты основного тона и некоторых других признаков. Все эти параметры или их эквиваленты, вообще говоря, можно получить программно по оциф­рованной речи аналого-цифровым преобразователем или по спектру сигнала. Устройства ввода третьего типа позволяют получать эти параметры аналоговым способом в процессе произнесения предло­жения.

В связи с широким распространением микропроцессоров и ми­кроЭВМ, которые становятся основным инструментом анализа речи, и появлением микропроцессорных систем, обеспечивающих обработ­ку оцифрованных речевых сигналов (введенных с универсальных аналого-цифровых преобразователей) с огромной скоростью, дости­гающей сотен миллионов операций в секунду, далее будут рассмот­рены методы первичной цифровой обработки речи. Эти методы ле­жат в основе современных систем автоматического распознавания и синтеза речи и связаны с получением текущей автокорреляции сиг­нала, энергетического спектра, параметров линейного предсказания, гомоморфной обработки, а также клиппированной речи. Будет обра­щено внимание на использование специализированных устройств ввода в ЭВМ информации об информативных признаках речевого сигнала.

2.1. УСТРОЙСТВА ВВОДА РЕЧЕВОЙ ИНФОРМАЦИИ В ЭВМ

Аналого-цифровое преобразование. Преобразователь типа «аналогцифра» это устройство, дающее возможность вводить в ЭВМ дискретные отсчеты речевого Сигнала, представлять непрерыв­ную речевую волну последовательностью чисел, сохраняя все ос­новные свойства сигнала. Как правило, такой ввод применяется,

5*



67




когда не хотят пользоваться аналоговой аппаратурой выделения речевых параметров и когда анализ сигнала не обязательно осущест­влять в реальном масштабе времени. Работа с оцифрованным рече­вым сигналом, вводимым непосредственно с аналого-цифрового преобразователя, обеспечивает более гибкую последующую обра­ботку речи в ЭВМ программными методами.

Теорема отсчетов, связывающая дискретные отсчеты аналогового сигнала и сохранение частотных составляющих сигнала, была пред­ложена еще в 1933 году В. А. Котельниковым: если сигнал x(t) не содержит частотных составляющих выше Fc Гц, то его можно пол­ностью определить собственными значениями в моменты, отстаю­щие друг от друга на 1/2 Fc секунд. Интуитивное подтверждение этой теоремы состоит в том, что если сигнал x(t) не содержит час­тот выше критической частоты Fc, то он не может существенно из­менить свое значение за время, меньше половины периода наивыс­шей частоты. Согласно теореме отсчетов, таким образом, сигнал как функцию времени можно восстановить по значениям в точках отсчета х(кТ), если частота отсчета Ро==1/Г не меньше удвоенной критической частоты Fc. Предположение теоремы отсчетов о суще­ствовании критической частоты не является сильным ограничением, так как все физические устройства в принципе не допускают про­извольно высоких частот, не пропуская их, обрезая. Во всех реаль­ных технических приложениях всегда исходят из того, что сущест­вует некая Fc для любых аналоговых сигналов.


Случайные файлы

Файл
referat.doc
129378.rtf
124837.rtf
182960.rtf
240-1940.DOC




Чтобы не видеть здесь видео-рекламу достаточно стать зарегистрированным пользователем.
Чтобы не видеть никакую рекламу на сайте, нужно стать VIP-пользователем.
Это можно сделать совершенно бесплатно. Читайте подробности тут.