28.12.2020      220      2
 

Информационно-развлекательная система Ford SYNC: как работает распознавание голоса

Информационно-развлекательная система Ford SYNC позволяет упросить управление мультимедиа машины водителем. Удобный помощник в дороге, который позволяет не отвлекаться. Повышает безопасность и комфорт управления автомобилем.


Мы живем во время, когда наши смартфоны и другие подобные устройства делают то, что мы хотим, просто реагируя на голосовые команды — находят ближайшее кафе, звонят, пишут текстовое сообщение. Компьютеры могут даже отвечать на наши вопросы или выступать в качестве наших виртуальных помощников; даже если это расстраивает, когда они иногда что-то делают неправильно.

Это называется распознавание голоса и является примером компьютерного обучения. Несмотря на случайные неловкие реакции или неспособность понять некоторые акценты, этот тип технологии добился большого прогресса за несколько лет; достаточно взглянуть на последние версии Apple Siri, Amazon Alexa, Microsoft Cortana и информационно-развлекательной системы SYNC от Ford.

Принцип работы SYNC от Ford

Итак, каким образом наш телефон, планшет или бортовой компьютер автомобиля расшифровывают то, что мы говорим? Вот основная идея:

  1. Дело не в звуке, а в звуковой волне, которая появляется, когда мы что-то говорим

Звук создается через крошечные изменения давления воздуха, и он входит в наши уши как одна непрерывная волна. Но компьютеры не похожи на людей, поэтому им нужен способ «услышать» сказанные слова и превратить их в текст. Поэтому, когда звуки поступают на устройства, они измеряют звуковую волну в определенный момент времени, сохраняют ее и измеряют снова, и делают это снова и снова с каждым звуком. Результат: звук, который вы воспроизвели, теперь оцифрован для понимания компьютером. Как вы можете себе представить, это очень точный процесс, и наши интеллектуальные устройства могут иногда ошибаться в том, что мы говорим. Если компьютер обнаруживает разрыв в волне, то измеряемые значения могут быть неверными.

  1. Звук слова против звука чего-то другого

Как только звук записан в цифровом виде, компьютер должен выяснить, на какие звуки он должен обращать внимание, используя алгоритмы. Чтобы определить, являются ли фрагменты оцифрованного звука на самом деле словами, а не звуками от автомобильного двигателя или радио, компьютер производит ряд математических операций, чтобы отделить то, что является речью, а что нет.

  1. Одно и то же слово, разные акценты

Распознавание голоса работает, разбивая речь на маленькие сегменты, называемые фонемами. Компьютер обучен распознавать, как каждый сегмент речи выглядит в цифровом виде, но они не всегда одинаковы. Например, звуки варьируются в зависимости от акцента, размещения в слове и даже написания. Основываясь на списке слов в словаре и контекстных отношениях, ваши гаджеты могут предположить, что вы говорите. Итак, если ваша подруга Маша находится в вашем списке контактов, команда «Позвонить Маше» связана с этим именем, а не с каким-либо другим.
«Благодаря улучшенному распознаванию голоса вы можете общаться с SYNC 3 с помощью простых реальных голосовых команд, и система естественным образом реагирует на ваш голос», — говорит Марк Портер, руководитель Азиатско-тихоокеанской информационно-развлекательной системы, Ford Motor Company. «Он даже был настроен для работы с австралийским акцентом, а в Китае он может понимать последовательность китайских иероглифов, написанных от руки на его графическом интерфейсе».

  1. Предсказать, каким может быть следующее слово в предложении

В одном речевом потоке может быть много разных словосочетаний просто потому, что, если говорить быстро, есть много фонем, которые звучат похоже друг на друга. Иногда результатом может быть дурацкая последовательность слов, которые на самом деле не имеют смысла. Чтобы избежать этого, компьютерная система применяет модели, основанные на том, как люди на самом деле разговаривают, чтобы выяснить, насколько вероятно следование одного слова за другим.

  1. Представить лучший результат как можно быстрее

После того, как все вычисления выполнены и предположения сделаны, компьютер, наконец, может представить свой лучший результат, будь то на экране, из предварительно заданного меню или с голосовым ответом. «Новая, современная технология распознавания голоса может обеспечить невероятно быстрое время отклика и является более интуитивной, чем когда-либо прежде», — объясняет г-н Портер. «Пользователь SYNC 3 может подать команду своему автомобилю: «Настройка на <частоту> FM », в то время как другие системы по-прежнему требуют, чтобы вы сказали «Радио», затем указывает вам другой список и снова предлагает вам указать частоту вашей радиостанции.

Благодаря более точным технологиям, работающим в режиме реального времени, голосовые команды улучшают нашу жизнь множеством различных способов. Хотя иногда может показаться, что ваше устройство просто раздражает вас своими причудливыми ответами, посмотрите на все утомительные вычисления и сложные преобразования, которые он должен сделать, что называется, «за кадром», чтобы распознать только одно слово, не говоря уж о целом предложении или фразе.


Обсуждение: 2 комментария
  1. Елизавета:

    Иньересно и познавательно, много нового узнала

  2. Роман:

    Куда без новых современных технологий, распознаватель голоса в машине необходим я считаю

Ваш комментарий

Ваш адрес email не будет опубликован.

Для отправки комментария, поставьте отметку, что разрешаете сбор и обработку ваших персональных данных . Политика конфиденциальности