Машины, которые говорят и слушают (part 3)

Посмотреть архив целиком

nOCIPOFHHE СИСТЕМ ДИСКРЕТНОГО РАСПОЗНАВАНИЯ РЕЧИ, РАБОТАЮЩИХ БЕЗ ПОДСТРОЙКИ ПОД ДИКТОРА

§ 2.1. Общие проблемы автоматической подстройки неадаптивных систем распознавания речи

Ьеадаптивные системы дискретного распознавания речи, рас­сматриваемые в настоящей главе, позволяют произвольному диктору-ногитедю нормы произношения данного языка производить автоматичес­кий речевой ввод изолированными словами или короткими спиво-сочетанияуи. Такие системы являются, как правило, аппаратурно-ц рог равным и и основываются на выделении некоторых устойчивых фонетических признаков, проявляццихся у множества дикторов-носи­телей нормы данного языка для различных классов звуков,и на даль­нейшем использовании этих признаков (представленных гистограм­мами их распределения) для декодирования высказывания. Однако фактически и в этих системах осуществляется некая подстройка под множество дикторов (обучение) во время сбора статистики, построения гистограмм параметров для различных звуков и при вы­боре решающих правил. Поэтому, строго говоря, такие системы не следовало бы называть неадаптивными, т.е. термином, достаточно широко распространенным в настоящее время. Кроме того,автомати­ческое разбиение всего множества дикторов-пользователей на груп­пы (кластеры) и формирование обобщенных эталонов слов дяя каж­дой группы само по себе есть обучение на диктора, адаптация универсальной системы к этому множеству пользователей,что также заставляет быть осторожным в применении Термина-"неада^тивные", Если же говорить об использовании этого термина в смысле отсут­ствия адаптации к новому словарю и языку системы, го, действи­тельно, все известные невдаптивные системы [10, 16,25, 166, 167] практически не обеспечивав автоматическое изменение этих ос­новных характеристик. Попытка универсальной сегментации слов, яв-хякхцейся основой подстройки иод словарь, рассмотрена в [133 • Задача настоящей главы - исследовать более широкие аспекты проб­лемы перестройки к новым условиям не адаптивных систем, ориенти­рованных на работу с произвольным диктором. Под адаптацией бу­дем здесь понимать расширение, развитие неадаптивной системы ав­томатического распознавания фраз, составленных мэ изолирований

74

йдов, эа счет некоторого изменения языка этой системы и его сло­варного состава. Как правило, в конкретных задачах речевого уп­равления возникают Проблемы, связанные с обогащением языка, до­бавлением новых слов и понятий. В отдельных случаях требуется медиком заменить словарный состав языка, приспособить системы к совершенно новой задаче. При этом желательно сохранить основные структурные (синтаксические) свойства языка, связи между лингви­стическими уровнями, соотношения между понятиями внутри уровня, т.е. придать свойствам языка универсальный характер, формализовать язык речевого запроса таким образом, чтобы он напоминал язык опи-оанйя баз данных - сетевой, иерархической или реляционной.

Основными лингвистическими вопросами, возникгшцими при этом, явжявтся:

1) как оценить сложность языка речевого общения и попытаться, используя синонимию, свести трудности распознавания сдов, вызван­ные фонетическими неопределенностями, до минимума;

2) каким образом ограничить гибкость проблемно-ориентнрова!:-иого языка, не слыпком сдерживая желания и возможности человека общаться с информационной системой естественными фразами; какие задачи позволяют нам практически использовать относительно прос­той синтаксис языка;

3) как автоматически расширять словарный запас языка;

4) как при этом корректировать язык, на базе которого соз­дана неадаптивная система автоматического распознавания.

(Вопросы о расширении круга пользователей, включая пользо­вателей, говорящих с акцентом иди дефектом речи, а также проб­лемы поиска новых информативных признаков, использования телефон­ного канала опускаем, относя их к техническим вопросам,которые работе не рассматривается.)

Некоторые из перечисленных лингвистических проблем возни­кают и для адаптивных систем, работающих с подстройкой под дик-Юра и словарь. 3 известных работах по аравтическому использо­ванию адаптивных систем [134,140] нет сведений об адаптации си­стем к новому изменяемому языку речевого общения (если не счи­тать замену словаря в системах типа vir-юо подстройкой под язык).

йервой мз проблем посвящен § 2.2, где выбор словаря обус-яовлен точностью распознавания слоя и связанной с ней вероят­ностной оценкой неопределенности распознавания При заданной сово­купности фонетические признаков. Оценка граю-атнческой сложности яэыка, используемого в неадаптивных системах распознавания ре-11^^ (языка, древовидной структуры без сложных внутренних связей)

76

(си. § 2.3), позволяет подойти к решению вышеуказанной проб­лемы 2). Задаче автоматического расширения словарного состава пос­вящена четвертая глава, тесно связанная с пятой главой, где опи­саны эксперименты по построению системы распознавания понятий­ных фраз конкретного языка описания данных информационной системы, для которого строилась модель. Кратко о проблеме 3 говорится в п. 2.3.3 , в котором рассматривается автоматическая подстройка "под язык", изменяющийся с изменением словарного состава.

Рассматривающиеся далее вопросы,на наш взгляд,имеют весьма важное значение как идеологическая основа будущих систем авто­матического речевого запроса информации, ориент грованных на произ­вольного пользователя. Если первые практические неадаптивные сис­темы распознавания речи (СРР) могут и отличаться от аппаратурно-программных, аналогичных нашей (скажем, основываться на мультимик-ропроцессорных системах, в которые речевой сигнал поступает с АЦП), то общие лингвистические проблемы, указанные здесь, неиз­менно будут возникать при любой структуре системы и любом под­ходе к первичному описанию сигнала. Не следует забывать, что неадаптивные системы автоматического распознавания являются основ­ными системами будущего - при общении-, с роботами и информацион­ными системами общего назначения. Вопросы, рассматриваемые далее, будут относиться к неадаптивным системам, ориентированным на пословный ввод речевой информации, а также на ввод информации короткими словосочетаниями, которые можно рассматривать как одно слово. Это связано с тем, что лишь на изолированных словах и коротких словосочетаниях параметры звуков (выцеляемые алпаратурно) являются относительно устойчивыми (обладают малой дисперсией), и можно говорить о возможном использовании характеристик, опреде­ляемых гистограммами параметров, для автоматического распознава­ния .

При распознавании изолированных слов представляется целесооб­разным разработать алгоритм, который обеспечивал бы устойчивое сег­ментирование поступающих на вход реализации слов на участки, соответствующие различи™ способам образования звуков, т.е. на то­нальные отрезки речи, шумные и участки, соответствующие гиухии смычковым (коротким паузам внутри слова). Звонкие фрикативные зву­ки можно было бы отнести к шумным. Существуют различные методы такой классификации в зависимости от первичного описания рече­вых сигналов. Для аппаратурно-программного метода достаточно вы­сокую точность классификации отрезков речи на участки "тон - иум ' Пауза" для произвольного диктора дают бинарные признаки способа образования звуков, выделяемые аппаратурно [97] .

76

Динамика участков "тон - шум - пауза" является хорошим приз­наком распознавания слов для небольших специально подобранных „доварей. Не представляет труда перейти к небольшому новому словарю, используя лишь признаки классификации отрезков речи на вти трч класса и динамику типов участков в слове. Вакно правиль­но выбрать фонетическую структуру слов этого словаря. В зависгзло-стИ от возможностей надежной классификации отрезков речи на эта­пе анализа сигнадоч (первичная сегментация и маркировка) mosko использовать большее число классов сегментов (классов фонетической структуры слова), динамика которых позволит надекно классифициро­вать большее число слов словаря. (В наших работах на начальной уровне анализа речи использовалось как семь типов сегментов (ей. Я, 2.2.2), так и три типа - тональный-шумный-сауза (см. § 5.5).)

В связи с этим Ж.Дрейфу о-Граф для распознавания словар­ного состава разработал специализированный язык речевого общения sotina , состоящий из бессмысленных слов, которым условно при­дается некое смысловое значение, и включал лишь "контрастные" в Пространстве используемых признаков звуки, поэтому легко различае­мые автоматически [127] . Словарный состав языка sotina включал бессмысленные слова, на базе которых предлагалось создать ис­кусственный язык для речевого общения человека и 5ВУ.

§ 2.2. Оценка сложности распознавания словаря речевого общения

2.2.1.Связь точности распознавания с особенностями фонетики слов.Сравнивать качество распознавания существующих СРР и СПР толь­ко по точности распознавания или объему словаря недостаточно по нескольким причинам. Во-первых,разные задачи, естественно, тре­буют различных языков общения,словарный состав которых включает слова, имеющие различные акустические (фонетические) характеристи­ки.Источники информации о таких высших уровнях знаний языка, как синтаксис, семантика, прагматика, накладывают различные ограниче­ния на возможные альтернативы, поэтому задача распознавания упро­щается для различных языков по-разному; даже для словаря с высо­кой степенью фонетической неопределенности можно получить (за счет семантико-синтаксических ограничений) высокую точность иитер-Чрета11ии высказывания. Во-вторых, СРР используют разнообразные ме­тоды первичной обработки и представления речевых сигналов на ниж-них уровнях. С этим связана различная точность фонетической клас­сификации , являющейся основой распознавания. Рассмотрим, как раз-


Случайные файлы

Файл
fizra.doc
83068.rtf
115030.rtf
84771.rtf
157183.rtf




Чтобы не видеть здесь видео-рекламу достаточно стать зарегистрированным пользователем.
Чтобы не видеть никакую рекламу на сайте, нужно стать VIP-пользователем.
Это можно сделать совершенно бесплатно. Читайте подробности тут.