Как слово наше отзовется...

Взаимодействие человека и компьютера становится все более и более простым, а цель заключается в том, чтобы приблизить его к обычному общению между людьми. Правда, наиболее очевидный способ - при помощи речи - оказался и наиболее сложным. Поддержка голосового управления высокотехнологичными устройствами встречается все чаще, но она по-прежнему остается несовершенной.

Голосовое управление базируется на технологии распознавании речи: голос человека улавливается микрофоном, преобразуется в электрические сигналы, которые сравниваются системой с командами, которые в ней записаны. Важно запомнить, что устройство, в котором заявлена поддержка распознавания речи, способно понимать только предварительно заложенные в него команды. Все прочее для него "пустой звук". Впрочем, произношение одних и тех же слов у разных людей также различно и нет гарантии, что система вас поймет. Одной из самых существенных проблем является наличие посторонних шумов, которые воспринимаются компьютером наравне с "полезной командой".

Пионеры вербальных коммуникаций

На точность распознавания оказывают влияние производительность системы (требуется мощный процессор) и длина распознаваемого слова - чем оно короче, тем вероятность ошибки больше, и наоборот. По этой причине голосовые команды, как правило, используются только в не критически важных приложениях, ориентированных в основном на комфорт. Например, в автомобиле можно управлять навигацией или музыкальной системой, эта операция даже делает езду более безопасной, поскольку водителю не приходится отвлекаться от слежения за дорожной ситуацией.

Первым устройством, в котором использовалось распознавание речи, была игрушка, выпущенная в 1922 году компанией 1922 Elmwood Button Co. Она представляла собой собачью конуру Radio Rex, из которой показывался мрачного вида бульдог, если его звали по имени "Рекс!". На иные клички он не откликался.

В 1952 году в Bell Labs появилось электронное устройство, которое могло распознавать короткие слова, главным образом цифры. Общение с машиной происходило по телефону - ведь корпорация Bell на тот момент была крупнейшей телефонной компанией и идея использования распознавания цифр оказалась как нельзя кстати. Правда, использовавшаяся тогда технология производства телефонных микрофонов не могла дать нужного качества, и в итоге телефонные компании стали использовать тональный набор - как собственно для набора номера, так и для интерактивных сервисов и услуг. Кстати, впервые тональный набор был продемонстрирован той же Bell Labs в 40-х годах прошлого века, а его продвижение взяла на себя компания AT&T.

Одним из пионеров и активных разработчиков систем распознавания голоса является корпорация IBM. В 1964 году компания представила устройство IBM Shoebox ("обувная коробка"), которое могло распознавать 16 слов - все цифры от 0 до 9, знаки сложения и вычитания. Результат выводился на принтер, в который была заправлена кассовая лента. Хотя это был вполне законченный продукт - спроса на него не было, и он остался этапной разработкой.

Но IBM не останавливалась на достигнутом и привлекла к дальнейшей работе ученого Джима Бэйкера из Carnegie Mellon University, который представил свою модель распознавания целых предложений. В 1975 году Бэйкер создал в исследовательском центре IBM им. Т. Дж. Уотсона систему, которая оперировала словарем из 1000 слов. Однако для этого требовались чудовищные вычислительные возможности - на расшифровку одного предложения требовался час машинного времени мейнфрейма IBM 370. Очевидно, что, несмотря на явные успехи, коммерческой выгоды такая система принести не могла. Бэйкер покинул IBM и позже организовал свою собственную компанию Dragon Systems, занимающуюся исключительно разработками распознавания голоса. В 1988 году он уже мог похвастаться программой, которая понимала 8000 слов и могла работать на достаточно маломощном персональном компьютере, правда, слова надо было произносить по отдельности. К 1990 году программа была улучшена (она смогла выделять 5000 слов из слитной речи) и могла работать даже на первом в мире карманном компьютере Newton производства корпорации Apple.

К 2000 году программное обеспечение Dragon NaturallySpeaking уже могло оперировать словарем в несколько десятков тысяч слов. На сегодняшний день оно является наиболее популярным программным обеспечением по распознаванию речи. Однако дальнейшую разработку ведет уже индийская компания Nuance Communications, к сожалению, среди поддерживаемых языков нет русского.

Альтернативное на смену традиционному

В России также постоянно ведутся работы по распознаванию речи. В 2001 году компании Intel и Cognitive Technologies представили результаты реализации инвестиционного проекта по развитию систем распознавания русской речи. Был создан речевой корпус русского языка RuSpeech. Тексты для него были созданы 220 дикторами, каждый из которых прочел в среднем более 250 предложений. Фактически это является базой для создания системы распознавания речи. Непосредственные разработки в этом направлении ведет санкт-петербургская компания "Центр речевых технологий", правда, большинство ее работ сосредоточено в области обеспечения безопасности, в том числе технологии выделения ключевых слов, которая позволяет автоматически находить в речи слова и словосочетания, представляющие интерес для пользователя.

В недавно представленном сервере Microsoft Exchange 2010 также реализована возможность голосового управления. "Голосовой доступ с поддержкой распознавания русской речи и чтения русского текста позволяет зайти в свой почтовый ящик, прочитать голосовые сообщения и электронную почту, а также узнать и при необходимости изменить расписание своих встреч", - рассказывает менеджер по маркетингу Exchange Иван Макаров. Microsoft не только ведет активные исследования в этой области, но уже давно встраивает средства голосового управления в свои продукты. Правда, традиционные "ручные" системы ввода и управления по-прежнему работают и быстрее, и точнее. Кроме того, сложно обеспечить селективность: если пользователь включит голосовое управление, то он уже не сможет общаться с коллегами и разговаривать по телефону, и наоборот - возможны "ложные срабатывания" на произнесенные кем-то другим слова. Поэтому сейчас голосовое управление следует рассматривать как альтернативное, применяющееся в тех случаях, когда традиционное по каким-либо причинам не подходит.

Возможность управления голосом есть и в браузере Opera, однако это только основные команды по управлению его функциями и только на английском языке. Да и совсем без клавиатуры обойтись не получится. Opera также реализует возможность диалога с веб-сервисами и страницами, поддерживающими голосовые функции. Можно "попросить" браузер зачитать вам выбранный отрывок текста.

Распознавание голоса включено и в Google Android версии 2.0. Здесь оно используется для управления навигатором и задания ему поисковых запросов. Для рекламы этой возможности был проведен весьма смелый рекламный эксперимент. В течение 20 часов два огромных экрана на центральной площади Нью-Йорка Таймс-Сквер транслировали результаты поиска заданного по специально выделенной телефонной линии. Например, при произнесении слова "пицца", экран демонстрировал карту Google Maps с указанием пиццерий в окрестностях площади. Впрочем, поиск можно усложнить, запросив адреса в другом районе города. Возможность встроить распознавание голоса в свои продукты есть у всех разработчиков приложений для ОС Android - Google поделилась с ними соответствующей документацией.

Аналогичная функция есть и у телефонов под управлением Windows Mobile - еще весной разработчики обещали, что для нее будет доступно приложение Tellme. В настоящий момент оно доступно для бесплатного скачивания только на территории США. На сайте Tellme.com обещают, что программа способна не только набирать телефонные номера, но и оставлять SMS, производить разнообразные поисковые запросы и поддерживает GPS - оптимизируя поисковую выдачу или показ пробок на дорогах в зависимости от местонахождения абонента.