Как установить голосовое управление в windows 7. «О’кей Google» или полное руководство по голосовому управлению Android

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов.

Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

Для работы на компьютере Александр использовал программу «Vocal Joystick» - разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj

Не удержался

Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус».

Это одному мне режет глаз?

Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать.

Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части).

По образу и подобию была написана новая программа (месяца за три).

Собственно, посмотреть, как она работает, можно :

Скачать программу и/или посмотреть исходные коды можно .

Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”):

Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук.

Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения.

Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки).

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:

Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
Воплощение найденных звуков в движение/щелчки мыши

Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно.

Последняя задача просто реализуется при помощи функции SendInput.

Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия.

И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» - набора признаков, которые бы однозначно классифицировали звуковую волну.

Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC).

История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”).

Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов).

Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу.

Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один.

Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов.

Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч).

Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium.
Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe.

В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг	Функция sphinxbase	Суть операции
1	fe_pre_emphasis	Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2	fe_hamming_window	Окно Хемминга – вносит затухание в начале и конце кадра
3	fe_fft_real	Быстрое преобразование Фурье
4	fe_spec2magnitude	Из обычного спектра получаем спектр мощности, теряя фазу
5	fe_mel_spec	Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6	fe_mel_cep	Берём логарифм и применяем DCT2-преобразование к 40 значениям из предыдущего шага. Оставляем первые 13 значений результата. Есть несколько вариантов DCT2 (HTK, legacy, классический), отличающихся константой, на которую мы делим полученные коэффициенты, и особой константой для нулевого коэффициента. Можно выбрать любой вариант, сути это не изменит.

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем.

Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов.

Давайте посмотрим, насколько оправдано применение нейронной сети здесь.

Вспомним, что делают нейроны в искусственных нейронных сетях.

Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает.

Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство.

Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C.

Итого, на выходе нейрона (обозначим его за Y) получаем:

Y=X1*W1+X2*W2+C

(опустим пока тонкости про сигмоидальные функции)

Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y<0.

Проиллюстрируем сказанное конкретными числами.

Пусть W1=1, W2=1, C=-5;

Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах.

Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона.

Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP).

А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках):

И тут уж без третьего слоя не обойтись:

А третий слой – это уже почти Deep Learning…

Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках.

Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так:

Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок.

Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована):

Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки:

Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов:

- Что ты думаешь, доедет то колесо, если б случилось, в Москву или не доедет?
- А ты как думаешь, сойдётся ента нейронная сеть или не сойдётся?

Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость».

Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы:

Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать?

А есть одна маленькая, но очень существенная деталь.

Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве.

Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства.

Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном - тем более.

А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала.

Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей.

Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого?

Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2.

Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2?

Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.
Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее.

И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей:

На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому):

Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу.

Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера.

Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер.

Никакая нейронная сеть не сможет более правильно отделить один звук от другого.

Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны.

Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?).

Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи.

Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть.

Очень скоро вся техника, от телефонов до чайников будет оснащена голосовым управлением. доступно уже давно и сейчас секретные лаборатории крупных корпораций работают над усовершенствованием этой технологии. Но уже сегодня вы можете воспользоваться этими технологиями будущего и поуправлять компьютерной техникой с помощью голоса.

Голосовое управление телефоном
Уже не первый год смартфоны на популярнейших платформах (Android, iOS, Windows Phone) имеют встроенную систему голосового управления.

Siri - одно из лучших воплощений искусственного интеллекта в современной технике. Siri - голосовой помощник встроенный в смартфоны iPhone 4S который понимает человеческую речь и может вести диалог с владельцем смартфона. Siri позволяет управлять основными функциями смартфона, создавать задачи, искать любую информацию и т.д.

Лучше меня о Siri вам расскажет видео которое я для вас подготовил. Это отрывок из презентации iPhone 4S как раз на том месте, где один из разработчиков iPhone рассказывает о Siri (если видео не видно - обновите страницу):

Сегодня в Android смартфонах голосовое управление ничуть не уступает Siri (где-то даже превосходит) и выполяет практически те же задачи.

Голосовое управление компьютером
Кроме телефона вы можете научить понимать команды и ваш компьютер. В Windows Vista и Windows 7 тоже имеется встроенная система голосового управления, только она еще не доступна в русскоязычной версии операционной системы. Для того чтобы воспользоваться например, англоязычной системой голосового управления, ваша операционная система должна быть Ultimate (Максимальная) или Enterprise (Корпоративная) и в ней должен быть установлен английский языковой пакет. Но не смотря на все эти ограничения есть другие варианты для того, чтобы начать управлять компьютером с помощью голоса.

Typle - одна из лучших программ позволяющая создавать различные голосовые команды для компьютера . Вы записываете голосовую команду и назначаете действие которое необходимо выполнить после ее произнесения. Typle вполне неплохо справляется со своими обязанностями. Правда команды придется отдавать четким, механическим голосом, чтобы программа смогла распознать их. И еще программа иногда может принять за голосовую команду посторонние звуки. Поэтому не удивляйтесь если после установки и настройки Typle на вашем компьютере начнут происходить необъяснимые события.

Голосовоеуправление.рф - облачный сервис и программа Speaker от российских разработчиков с очень хорошим распознаванием речи. Speaker намного лучше понимает человеческую речь . Еще одним плюсом программы, в отличии от Typle является то, что она начинает "слушать" команды только после нажатия командной клавиши - на данный момент это колесико мыши. Благодаря этому программа не будет выполнять команды когда это не нужно. Но по моему мнению использование колесика в качестве командной клавиши не совсем удобно, потому как оно часто используется в других случаях.

Голосовое управление в браузере Opera . Для поклонников интернет-браузера Opera есть встроенное голосовое управление позволяющее управлять основными функциями браузера голосом. В Opera нет возможности создавать свои команды, а используются уже имеющиеся команды на английском языке. Но я думаю, что мало кого заинтересует такой функционал, когда с помощью мыши и клавиатуры можно выполнить все те же действия с не меньшей скоростью.

Голосовое управление в Google
заслуживает отдельного внимания. Всем известно что Google всегда создает качественные продукты и сервисы. Многие убедились в этом начав например, пользоваться почтой Gmail . На данный момент есть две известные мне возможности голосового управления сервисами Google.

Первая - это поиск информации с помощью голоса в поисковой системе Google. Помогает намного быстрей работать с поисковой системой.

Вторая - Google переводчик , позволяющий надиктовывать текст (пока только) на английском языке и автоматически получать перевод на нужный язык.

Вполне удобно использовать голосовой ввод в Google Translate при чтении текста с учебника английского языка или например, упаковки товара, для быстрого перевода на русский язык необходимой информации.

Голосовое управление в Google Chrome
Расширение OWeb - дополняет собой уже имеющиеся функции голосового управления в Google Chrome. OWeb добавляет возможность надиктовать голосом текст практически на всех сайтах, где подразумевается ввод текста - в формах поиска, в контактных формах, в поле комментариев и т.д. Это конечно не Siri, но тоже отличный способ освободить руки и сэкономить время на набор текста.

Посмотрите видео в котором я покажу вам возможности расширения Oweb и примеры его применения:

Еще несколько лет назад голосовое управление компьютером можно было увидеть только в фантастических фильмах. Теперь же достаточно скачать соответствующую программу, и вы сможете отдавать команды своему ПК без помощи клавиатуры или мыши. Конечно, подобные утилиты далеки от идеала, но есть среди них те, которые работают на должном уровне. Именно лучшим программам для голосового управления компьютером и посвящена данная статья.

Штатное средство Windows

Не все знают, но система распознавания речи является штатным приложением Windows. Голосовое управление компьютером в данной операционной системе запрятано в настройках звука и, к сожалению, не поддерживает команды на русском языке. Тем не менее упомянуть о нем стоит, ведь это пригодится тем, кто живет, к примеру, в европейских странах.

Итак, чтобы включить распознавание речи:

Подключите микрофон к компьютеру и настройте его, следуя подсказкам.
Откройте «Панель управления». Выберите режим отображения «Мелкие значки».
Зайдите в раздел «Распознавание речи».

После этого откроется «Мастер настройки», выполняя указания которого, вы научите свой компьютер понимать ваш голос. Правда, штатное приложение умеет выполнять только примитивные команды, так что не стоит сильно на него надеяться.

Cortana

Несколько лучше, нежели в предыдущем случае, ситуация обстоит в Windows 10. Голосовое управление компьютером представлено здесь программой Cortana, которая не только открывает по команде нужные вам приложения, ищет информацию в интернете и отправляет письма, но еще и запросто рассказывает свежие анекдоты.

Опять же, Cortana пока что не понимает русский язык. Разработчики уже больше двух лет обещают научить ее распознавать великий и могучий, но пока что в этом нет никакого прогресса. Тем не менее вы всегда можете поменять язык операционной системы на английский (или любой другой, поддерживаемый «Кортаной») и таким образом включить приложение.

Speechka

Ну, а теперь, наконец-то, настала очередь программы, позволяющей осуществлять русское голосовое управление компьютером. Называется она Speechka и примечательна своей простотой использования. Запустив приложение, вы сможете выбирать в нем те или иные действия и привязывать к ним соответствующие Так, утилита умеет открывать страницы в интернете, запускать другие программы, а также открывать определенные файлы и папки.

К сожалению, функционал Speechka, как вы наверняка заметили, несколько ограничен. Тем не менее для простых операций данное приложение подходит идеально.

Typle

А эта утилита для голосового управления компьютером обладает уже куда большим набором функций. Вернее, функции у него почти те же, что и у Speechka, но пользоваться ими в разы удобнее. Например, вы можете задать основную команду «Открыть», а затем привязать к ней названия нужных вам программ или интернет-сайтов. Поначалу интерфейс Typle покажется вам слегка запутанным, но разобраться в нем не так уж и сложно.

Минусом приложения является то, что оно больше не поддерживается разработчиками. Кроме того, программа иногда некорректно распознает русскую речь, так что желательно «общаться» с ней монотонным голосом.

Laitis

Данное приложение для голосового управления компьютером хорошо тем, что в нем есть довольно большой список уже готовых команд. Проще говоря, вам не нужно вручную делать записи для открытия той или иной программы. К примеру, Laitis умеет заходить на сайт «ВКонтакте», открывать Google Chrome, запускать Skype и многое другое.

Интерфейс программы удобный. Все функции разделены на категории, так что вы в них не запутаетесь. Также при необходимости можно редактировать уже записанные команды, если они вас чем-то не устраивают.

Также стоит отметить, что разработчики активно выпускают обновления для своего детища. В каждом новом апдейте добавляются дополнительные функции, которые делают использование программы еще более удобным.

"Горыныч"

Нет, это не сказочный злодей, а очередная программа для голосового управления компьютером. К тому же, приложение сделано отечественными разработчиками, так что русский язык оно распознает на ура. При этом «Горыныч» постепенно приспосабливается к тембру вашего голоса, так что с каждым днем вам будет все проще использовать данную утилиту.

Но есть и ложка дегтя. К сожалению, в программе нет никаких предустановленных команд. То есть вам придется самостоятельно делать все записи, а в том случае, если их много, это занятие может растянуться на несколько дней.

Speaker

Простенькое, но очень приятное в использовании приложение. После его установки запустится небольшой курс обучения, в ходе которого вы, следуя подсказкам, научитесь создавать голосовые команды. Speaker, как и его конкуренты, умеет открывать файлы, запускать программы, фильмы, музыку, а также выключать и перезагружать компьютер.

К сожалению, разработчики больше не выпускают обновления для утилиты, поэтому ее работоспособность на новых версиях Windows (старше «семерки») не гарантируется. Но даже несмотря на вполне подойдет любому среднестатистическому пользователю.

"Алиса"

Разработкой данного приложения занимается небезызвестная компания «Яндекс». Уже сейчас «Алиса» запросто подскажет вам точное время, поделится свежими новостями, включит музыку и так далее. К тому же, программа встраивается в интерфейс операционной системы, что облегчает работу с ней.

Минусы у приложения, конечно же, тоже есть. Например, вы можете пользоваться только предустановленными командами, а добавлять новые пока что нельзя. Также программа находится на относительно ранней стадии разработки, так что иногда в ней проявляются всевозможные баги. Однако разработчики активно исправляют все ошибки, а также постоянно снабжают утилиту новыми функциями.

Общение с вашим устройством теперь не является мечтой или фрагментом фантастического фильма. С каждым годом голосовое управление Андроид расширяет свои возможности. Но такая тенденция распространяется также и на гаджеты с другими операционными системами, например, iOS. Благодаря голосовым командам можно узнать, месторасположение ближайшего кинотеатра, расписание общественного транспорта, прогноз погоды, курс валют и множество другой полезной информации. Кроме этого, они помогают пользователю управлять устройством. Уже сегодня с помощью речи на многих современных девайсах можно активировать будильник, включить Wi-Fi, воспроизвести аудио и видео, отправить текстовое сообщение, . На устройствах торговой марки Apple голосовое управление осуществляется с помощью всем известной вопросно-ответной системы Siri. Можно выделить несколько способов голосового управления на Андроид-устройствах.

Технологии не стоят на месте, и на сегодняшний день они дают нам возможность управлять гаджетами посредством голосовых команд

Приложения для голосового управления ещё не полностью интегрированы с русским языком. Для устройств, функционирующих на платформе Android, наиболее популярным и простым способом управлять смартфоном при помощи речи является команда «OK, Google». Но, к сожалению, она не всегда удовлетворяет потребностям, поскольку изначально разрабатывалась для англоязычных пользователей. В сравнении с англоязычной версией команда имеет меньше возможностей.

Кроме этого, русскоязычная «OK, Google» не так эффективна из-за недостаточного проникновения современных технологий в различные сферы жизни. Например, поиск может не найти расписание фильмов, которые транслируются в кинотеатре маленького города, либо информацию о ближайшей к вашему дому пиццерии.

Аналогичные сложности с интеграцией русского языка наблюдаются и на Apple-устройствах, где широко применяется Siri. Впрочем, если вы не планируете искать что-то привычное, например, расписание межрегиональных поездов, информацию об известном отеле, рецепт яблочного пирога, то голосовое управление способно гораздо облегчить задачу. Пользователи сталкиваются с трудностями, если необходимо оставлять «умные запросы», для которых требуются логика и всесторонний подход.

Как настроить команду «OK, Google»

Команда «OK, Google» активна, если запущено приложение Google либо браузер Google Chrome. Для корректной работы необходимо проверить . Это можно сделать в открытом приложении Google. В верхнем левом углу есть значок, который позволит зайти в настройки. Он представляет собой три параллельные горизонтальные линии и наверняка знаком всем поклонникам продуктов Google. После этого следует выполнить простую команду: Настройки - Голосовой поиск - Распознавание «О’кей, Google». Далее следует активировать параметр «Из приложения Google».

Благодаря такой настройке команда может применяться в любом режиме работы гаджета, например, в активном режиме или режиме заряда аккумулятора. После этого система зафиксирует ваш голос, после чего не должно возникать проблем с распознаванием запросов.

Если команда «OK, Google» не активируется на вашем смартфоне, значит, вы используете устаревшую версию Андроид. Необходимо обновить версию программного обеспечения вашего смартфона. Перед активацией убедитесь, что на девайсе установлена последняя версия приложения Google. Убедитесь, что установленная версия Андроид не ниже 4.4 и приложение Google не ниже версии 3.5.

После того как все параметры настроены, можно протестировать голосовое управление. Необходимо произнести: «О’кей, Google» и сформулировать ваш вопрос или задачу для мобильного устройства. Активные пользователи такого сервиса без проблем могут найти необходимую информацию. Мы рекомендуем ознакомиться с полным списком голосовых команд, которые поддерживает такой способ голосового управления.

Обзор приложения «Ассистент на русском языке»

Недостатком программы голосового управления для Андроид под названием «Ассистент на русском языке» является наличие платной версии. Многие считают такое приложение достойным ответом «Siri». Его без проблем можно установить из магазина . Юзерам даётся семь дней, в течение которых будут доступны все функции приложения. Благодаря тестовому периоду каждый сможет оценить достоинства программы, чтобы решить, насколько важно иметь её на своём смартфоне.

Приложение общается с вами женским голосом. Оно выполнит любой запрос, будь то поиск необходимой информации или активация встроенных функций телефона, таких как будильник, переводчик, напоминания. Такая программа умеет открывать другие установленные приложения по вашему запросу. ПО можно установить на самые разные версии Андроид, начиная с 2.3.

Многие пользователи высоко оценивают возможности «Ассистента на русском языке». В этом можно убедиться, ознакомившись с рейтингом и числом закачиваний такого ПО. Перед тем как начать работу с ним, необходимо установить Голосовой поиск/ввод от Google. Если вы в поисках удобного помощника, советуем вам протестировать «Ассистент на русском языке».

Прошлый век

Разберёмся, что такое голосовое управление компьютером. Проведём некоторую аналогию. Раньше, да и сейчас, очень распространённым способом "освободить руки" от компьютера во время работы являлся найм ещё одного сотрудника - стенографиста или секретаря. Однако мало кто знает, что можно избежать лишних трат путём установки на персональный компьютер ряда программ и утилит, позволяющих осуществлять голосовое управление компьютером на русском языке.

С появлением таких программных продуктов, как "Горыныч" и WebSpeach, вы можете забыть о том, как долгими часами приходилось сидеть и печатать какую-либо работу, например, диплом, приказ или любую другую документацию. С развитием компьютерных технологий появился вариант использования специальной программы распознавания речи.

Встроенные утилиты

Голосовое управление компьютером Windows 8 осуществляется с помощью встроенной утилиты Windows Speech Recognition. К сожалению, в настоящий момент управление компьютером на русском языке невозможно. Компания Microsoft, во всей видимости, старается ориентироваться на наиболее распространённые языки, однако не исключено, что в скором времени будет выпущена поддержка и русского языка.

Если же вы всё-таки хотите попробовать управлять своим железным товарищем с помощью английского языка, следуйте следующей инструкции.

Заходите в панель управления в подпункт "Язык". Вам необходимо установить язык системы - английский. Если он у вас отсутствует, то вам потребуется загрузить соответствующий языковой пакет.
После загрузки и установки языка переходим в начальный экран с "плиткой".
Вводим в поиск Windows Speech Recognition и нажимаем Enter. Так запускается программа распознавания голоса.
При первом запуске вам будет предложено настроить микрофон. Выберите вашу разновидность и произнесите пару слов.
Затем вам будет предложен 20-минутный обучающий курс. Он проводится на английском, поэтому, если вы не понимаете язык, можете смело его пропускать. Интерфейс у программы абсолютно понятный, поэтому разобраться с ним сможет даже ребёнок.
Чтобы включить голосовое управление компьютером, вам будет необходимо произнести ключевую фразу "Start listening". Это означает - "начать прослушивание". Теперь можете запускать необходимую вам программу и начинать надиктовывать текст.

Вообще, возможности этой утилиты неисчерпаемы. Кроме использования базовых команд, вы также можете создавать свои.

Развитие

Было создано множество приложений для распознавания русской и английской речи:

"Диктограф 5";
"Перпетуум мобиле";
Voice_PE;
Lucent;
VoiceType;
Sakrament.

Однако наибольшую популярность набрали:

"Горыныч";
Web Speech;
RealSpeaker;
Speechka.

Займёмся их более подробным рассмотрением.

"Горыныч"

Как можно понять из названия, приложение было создано командой русских программистов и получило название в честь русского сказочного персонажа с именем Горыныч. Голосовое управление компьютером в ней осуществляется на русском языке, впрочем, имеется также и поддержка английского. "Горыныч" позволяет управлять персональным компьютером в пользовательском режиме, то есть совершать все возможные действия, которые вы можете производить с помощью мышки и клавиатуры: работа с окнами, приложениями, процессами, запущенными на персональном компьютере. Более того, "Горыныч" распознаёт речь исключительно одного хозяина, но не всегда.

Однако существует один достаточно большой недостаток. Дело в том, что всю базу команд вам необходимо вводить вручную. То есть, перед тем как вы сможете хоть что-то сделать на компьютере голосом, вам необходимо создать целую базу с записанными вашим голосом командами. Даже если вы это сделаете, в случае если вы вдруг охрипнете или поменяется хоть немного тембр голоса, "Горыныч" напрочь откажется вас понимать.

Очередной подводный камень заключается в том, что если вы хотите надиктовывать тексты на компьютер, вам предварительно потребуется создать огромный словарь для "Горыныча" с хорошим словарным запасом, чтобы он смог понять то, что вы диктуете.

Speechka

Обеспечить это могут помочь сторонние приложения, устанавливаемые на персональный компьютер. Одним из них является Speechka. Так же, как и "Горыныч", русский продукт, созданный на основе технологий Google, "Спичка" позволяет пользователю с помощью заданного набора команд осуществлять голосовое управление компьютером. Speechka достаточно неплохо распознаёт любую речь, и для неё нет необходимости записывать звуковые файлы. Достаточно просто с клавиатуры ввести слово и ассоциировать его с каким-либо действием. Проще говоря, это достойный существования продукт, однако находящийся на стадии разработки, поскольку такие функции, как закрытие окон или запуск программ были добавлены сравнительно недавно.

Набор текста

Разобравшись, что такое голосовое управление компьютером, рассмотрим проблему набора текста. Как было уже сказано, не все приложения позволяют его производить. В большинстве случаев для этого необходимо предварительно составить целый словарь, а если вы являетесь пользователем Windows 8, то еще возникает проблема поддержки русской речи. Для того чтобы решить эту проблему, существует сервис голосового набора, созданный Google.

Доступное только для браузеров Chrome, приложение Google Web Speech распознаёт 32 ведущих мировых языка, в том числе и русский. Для того чтобы вводить текст голосом, вам потребуется соответствующий браузер, Интернет и микрофон. Разработки продвинулись достаточно далеко, поэтому эта утилита способна воспринимать грамотную русскую речь целыми словами и переводить её в печатный текст.

Еще одна программа для распознания речи и надиктовки её на персональный компьютер - RealSpeaker. Она использует современные технологии распознавания мимики лица. Для её использования подойдёт абсолютно любая веб-камера. Единственное неудобство, которое возникает при работе, это то, что лицо говорящего должно быть точно напротив камеры, на расстоянии не более 40 сантиметров. В этой программе существует словарь русского языка, который пользователь при желании может расширить. В целом эта программа намного удобнее "Горыныча".

Итог

Если вы задумались об управлении компьютером голосом, поверьте, это пока не для России. Адекватные программы распознавания на сегодняшний день существуют только на английском языке, а автоматический голосовой набор текста будет содержать столько ошибок, что будет проще написать текст с нуля, чем исправлять все опечатки. Вы, конечно, можете постараться выучить английский язык и управлять компьютером на нём, однако вам потребуется идеальная дикция и произношение.

Как установить голосовое управление в windows 7. «О’кей Google» или полное руководство по голосовому управлению Android

Часть II. Как это устроено?

Задача №2. Получение 13 кепстральных коэффициентов

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

Голосовое управление телефоном

Голосовое управление компьютером

Голосовое управление в Google

Голосовое управление в Google Chrome

Штатное средство Windows

Cortana

Speechka

Typle

Laitis

"Горыныч"

Speaker

"Алиса"

Как настроить команду «OK, Google»

Обзор приложения «Ассистент на русском языке»

Популярное приложение «Ассистент»

Прошлый век

Встроенные утилиты

Развитие

"Горыныч"

Speechka

Набор текста

Итог