Распознавание голоса в смартфоне и умной колонке: полный разбор технологии

Как работает распознавание речи: от звуковой волны до ответа нейросети

23 Июнь 2026

Голосовой помощник в умной колонке сначала превращает речь в текст, затем определяет намерение пользователя и формирует ответ. За десять лет распознавание голоса научилось понимать сложные фразы при разной громкости, акценте и фоновом шуме. Разбираем цепочку: от микрофона до нейросети на сервере и обратно к динамику колонки. Специалисты GOODMi с 2015 года помогают подобрать умные колонки с Алисой в Севастополе, с доставкой СДЭК по Крыму и России.

Ключевые факты

Микрофон передаёт аналоговый сигнал; АЦП оцифровывает его: при 44 кГц одна секунда звука превращается в 44 000 чисел.
Фильтрация оставляет диапазон речи от 75 до 500 Гц и отсекает до 97,5% лишних частот из полного спектра от 20 до 20 000 Гц.
Нейросеть анализирует не волну, а частотную карту: цветовое отображение громкости по частотам, по которому распознают фонемы.
В русском языке около 42 фонем (по отдельным оценкам от 46 до 48); из них собирают слова и предложения.
Основная обработка идёт в облаке: без интернета умная колонка теряет полный функционал голосового помощника.

Зачем обрабатывать звук

Эксперименты с распознаванием речи велись ещё с середины XX века. Уже тогда стало ясно: сырую запись с микрофона нельзя сразу подавать на алгоритм. Люди говорят тише или громче, в комнате всегда есть посторонний шум, и без предобработки растёт доля ошибок.

Современный голосовой помощник проходит три этапа на устройстве: оцифровка, фильтрация и нормализация. Только после этого сигнал уходит в облако, где его разбирает нейросеть.

Оцифровка сигнала

Звук распространяется волной. Микрофон выдаёт аналоговый сигнал, а процессор работает с числами. Между ними стоит АЦП, аналого-цифровой преобразователь, который дискретизирует волну.

При частоте дискретизации 44 кГц каждая секунда записи превращается в массив из 44 000 чисел. Этот поток уже можно фильтровать, сжимать и отправлять на сервер для распознавания голоса.

Фильтрация и нормализация

Фильтрация

Человеческий голос в узком смысле занимает полосу примерно от 75 до 500 Гц, тогда как ухо слышит от 20 до 20 000 Гц. Микрофон умной колонки захватывает широкий спектр, и фильтрация убирает частоты вне речевого диапазона. Так отсекается до 97,5% лишних данных, и дальнейшая обработка идёт быстрее.

Аналоговые фильтры возможны до оцифровки, но цифровой вариант после АЦП даёт более предсказуемый результат.

Нормализация

Нормализация выравнивает громкость: тихий сигнал усиливают, слишком громкий ослабляют. После этого амплитуда записей с разных людей и с разного расстояния до микрофона становится сопоставимой, и нейросеть реже путает похожие слова только из-за уровня звука.

Методы до нейросетей

До массового применения ИИ алгоритмы сравнивали новую запись с эталонными образцами команд. Корреляционный анализ находил наиболее похожий шаблон и запускал заранее прописанное действие. Схема работала для коротких неизменных фраз вроде «включи свет», но плохо масштабировалась на свободную речь с тысячами словоформ.

Ограничение классического подхода: система опиралась на форму сигнала в целом, а не на смысловые признаки речи. Именно этот пробел закрыли нейросети и частотный анализ.

Как нейросети «видят» речь

Нейросеть, как и человек, легче отличает качественные образы, чем считает точное количество. Два разных голоса могут произнести слово «собака» с похожей громкостью, а слова «собака» и «забота» у одного диктора выглядят на осциллограмме схоже, хотя смысл разный. Громкость на графике не равна содержанию речи.

Решение: частотный анализ. Алгоритм разбивает фрагмент записи и для каждой частоты считает уровень энергии. Результат переводят в частотную карту, где громкость закодирована цветом. Такой «снимок» речи ближе к задачам компьютерного зрения, и нейросеть распознаёт на нём паттерны так же, как лица на фото.

На частотной карте ищут не целые слова сразу, а фонемы, минимальные звуковые единицы языка. В русском их около 42, в отдельных классификациях от 46 до 48. Фонемы не совпадают один к одному с буквами: одна буква в разных словах может давать разные звуки. Собрав последовательность фонем, система восстанавливает слова и фразы.

«Нейросеть не слушает ухом: она классифицирует картинку частот, а уже из фонем собирает текст».

От текста к ответу

Распознанный текст голосовой помощник ещё не понимает. Сначала его токенизируют: режут на смысловые единицы. В диалоговых моделях токенами чаще всего становятся слова и знаки препинания.

Затем каждый токен получает эмбеддинг, числовой вектор в многомерном пространстве. Близкие по смыслу слова оказываются рядом: «корова» и «луг» связаны сильнее, чем «корова» и «полёт». Матрицу связей заполняют на больших корпусах текстов машинным обучением: если слова часто встречаются в одном предложении, вес на пересечении растёт.

Семантический теггер определяет роль токенов. На запрос «Кто на лугу?» частица «Кто» и знак вопроса помечают вопросительную конструкцию, а «луг» становится ключевым объектом. Сопоставив вектор «луг» с базой, модель выдаёт ответ вроде «Корова».

Совет: качество ответа голосового помощника зависит от размера языковой модели и объёма обучающих данных, а не от мощности динамиков умной колонки.

Контекст диалога

Одного ответа на изолированный вопрос мало для живого разговора. Рекуррентные нейросети хранят скрытое состояние между репликами: выход предыдущего шага подаётся на вход следующего. Так голосовой помощник помнит, о чём шла беседа несколько фраз назад, и не сбрасывает тему после каждого предложения.

Снаружи это выглядит как разумный собеседник, хотя модель не «понимает» текст в человеческом смысле. Она статистически подбирает наиболее вероятное продолжение на основе обучения на миллиардах примеров из интернета и корпусов книг.

Почему нужен интернет

Обучение нейросети для распознавания голоса требует огромных вычислительных ресурсов, а словари и модели занимают терабайты на дисках дата-центров. Поэтому тяжёлая часть работы голосового помощника выполняется на серверах, а умная колонка лишь записывает звук, показывает индикацию и воспроизводит ответ.

Без стабильного Wi-Fi и доступа в интернет колонка может проигрывать музыку по Bluetooth, но не выполнять сложные голосовые команды, искать факты в сети или управлять умным домом через облако. Именно поэтому при выборе умной колонки важны и качество микрофонов, и надёжность беспроводной связи.

Что выбрать в каталоге GOODMi

Умные колонки. Яндекс Станция с Алисой, массив микрофонов для распознавания голоса, Wi-Fi для связи с облачным голосовым помощником и управления умным домом.
Акустика и колонки. Bluetooth-колонки без голосового ассистента, если нужен только звук без облачного распознавания речи.

Часто задаваемые вопросы

Как голосовой помощник понимает речь?

Микрофон умной колонки оцифровывает звук через АЦП, фильтрует и нормализует сигнал, затем отправляет его на сервер. Нейросеть строит частотную карту, распознаёт фонемы, собирает текст, токенизирует его и определяет намерение пользователя. Ответ синтезируется и возвращается на колонку для воспроизведения.

Где купить умную колонку с голосовым помощником в Севастополе?

В магазине GOODMi в Севастополе (ТЦ «Муссон», ул. Вакуленчука, 29) и ещё пяти точках в Крыму: Симферополь и Ялта. На goodmi.ru в каталоге умных колонок Яндекс Станция с Алисой, доставка СДЭК по России или самовывоз. Консультанты помогут выбрать модель с Wi-Fi и микрофонами для стабильного распознавания голоса.

Какая гарантия на технику Xiaomi в GOODMi?

На новые устройства в GOODMi действует гарантия 1 год на оригинальную технику. Сохраняйте чек и гарантийный талон; при вопросах звоните на 8 (800) 250-17-00 или обращайтесь в магазин в Севастополе. Сеть работает с гаджетами Xiaomi с 2015 года, рейтинг 5.0 по 2000+ отзывам на Яндексе.

Работает ли голосовой помощник без интернета?

Нет, полный функционал недоступен. Распознавание голоса и генерация ответов выполняются на серверах в дата-центрах, куда умная колонка обращается по Wi-Fi. Без интернета останутся локальные функции вроде Bluetooth-воспроизведения, но не поиск, умный дом и сложные диалоги с ассистентом.