Понедельник, 14 октября, 2024
MNews24.ru
ДомойОбществоГолосовой помощник пришел в каждый второй российский дом. Как он работает

Голосовой помощник пришел в каждый второй российский дом. Как он работает

Для начала — что такое голосовой помощник. Если вкратце, то это программа, которая позволяет взаимодействовать с разными устройствами с помощью голосовых команд. За последние годы такие программы прошли существенную дистанцию по пути прогресса и сегодня активно используют искусственный интеллект для обработки голосовых инструкций и выполнения нужных действий. Причем используются голосовые помощники как частными лицами, так и крупными компаниями, например в качестве электронных секретарей.

При этом важно понимать, что голосовой помощник — это алгоритм, основная часть которого живет где-то в облаке, в то время как клиентская часть — та, которая общается с нами, может быть где угодно: в ноутбуке, смартфоне, умных часах, телевизоре, ну и, разумеется, — в умной колонке. Голосовой помощник может ответить нам как словом, так и делом. Например, включив или выключив то или иное электронное устройство.

Главное, к чему стремятся голосовые помощники в своем прогрессе, — это понимание так называемого естественного языка. Ведь люди зачастую говорят так, что без того самого навыка «понимать с полуслова» и не разобраться. В общении с другими людьми мы опускаем общеизвестные детали, контекст, используем синонимы, упрощения. Судите сами: когда мы спрашиваем помощника, какая погода будет завтра, то опускаем такие очевидные для нас нюансы, как то, что нас интересует погода в Москве, а завтра — это плюс один день к сегодняшнему числу.

А можем спросить вообще что-то вроде «че там с погодой?». И голосовой помощник должен трансформировать эти «че» и «там» и «с погодой» в корректный запрос, чтобы затем найти и выдать на него нужный нам ответ.

Вот собственно этим и занимается искусственный интеллект. В то же время задачи вроде распознавания голоса или затем воспроизведения найденной информации голосом — гораздо более прозаичные.

Вначале голосовой ассистент должен уловить звук запроса. Когда вы произносите фразу, например, «вызови такси», помощник слышит не набор слов, а звуковой сигнал из гласных и согласных. Обычно процесс захвата нужных звуков осложняют окружающие шумы: человек произносит запрос не в идеальной тишине. Кроме этого, существуют особенности произношения, акценты, региональные диалекты.

Так в прошлом веке представляли «умный»дом будущего — со множеством электронныхпомощников. И, в общем, не ошиблись… Фото: Paul R. Alexander

Внутри помощника слова для начала делят на звуковые фрагменты — фонемы. Затем, для наибольшей точности, фонемы разбивают на фреймы. После обработки получаются коэффициенты, описывающие частотные характеристики входящего звукового сигнала. Только после такого вот перевода с человеческого на машинный ассистент может «предположить», что именно сказал пользователь.

Затем система должна привязать запрос к контексту: то самое местонахождение, число, день, время суток и т.п. Есть и специфические вещи вроде временного контекста: известная сетевая шутка про то, что фразу «мальчик в клубе склеил модель» люди разных поколений могут воспринять очень разным образом, на самом деле совсем не шутка.

После того как голосовой помощник услышал, интерпретировал запрос и нашел информацию на него, ему нужно вернуться с ответом к пользователю. Почти всегда найденная информация — текстовая, поэтому ему необходимо считать ее и озвучить. Чтобы речь звучала естественно, для разработки голоса ассистента приглашают профессиональных дикторов или актеров, которые наговаривают тысячи часов речи. Поначалу ответы системы складывались как конструктор из предзаписанных слов и фраз и поэтому звучали очень неестественно. Но сегодня ответы генерируются системой в режиме реального времени, и по этой причине складывается ощущение, что с нами разговаривает живой человек.

В широком смысле голосовой помощник очень удобен. Можно, не отвлекаясь от других дел, узнать погоду, включить нужную музыку, узнать рецепт, включить таймер или будильник. Более сложные системы, интегрированные в «умный дом», могут включить телевизор или конкретный фильм, управлять светом в доме. Самые продвинутые схемы, известные как «сценарии», позволяют одной командой запускать последовательность действий. Например, как только на улице станет светло, — открыть шторы, приоткрыть окно, включить подогрев пола в ванной.

У этого есть свои риски, так как общаться с помощником могут самые разные люди и даже дети. И то, что окажется приемлемым в общении с одним человеком, будет звучать оскорбительно для другого. По этой причине в том числе помощников учат различать голоса, и в первую очередь вычленять голоса детей, чтобы давать им ответы из базы знаний, которая прошла максимальную проверку. Для этого в составе команд разработчиков может быть психолог, а то и несколько: они анализируют ответы помощника, насколько он безопасен и этичен для пользователя. Ранжируется в соответствии с возрастными ограничениями и контент.

Разработчикам искусственного интеллекта стало окончательно ясно, что нет какого-то универсального знания

События последних лет стали еще одним вызовом для голосовых помощников. Возник ряд вопросов, ответы на которые в различных странах и регионах могут звучат абсолютно по-разному. Как полагают собеседники «РГ», занимающиеся разработкой систем с искусственным интеллектом, стало окончательно очевидно, что нет какого-то универсального знания. В результате неизбежно будут формироваться локальные кластеры, в рамках которых системы должны будут учиться давать ответы на запросы пользователей, опираясь на общественно приемлемые или юридически обоснованные позиции. До тех пор, пока это не произойдет, мы все чаще и чаще будем наблюдать, как голосовые помощники будут находить все новые фигуры умолчания при ответе на сложные вопросы.

Конкретно

Какие голосовые помощники представлены на российском рынке

Алиса — разработка Яндекса. Помощник интегрируется с сервисами Яндекс: Музыка, Карты, Такси, Еда. Ищет информацию. Развлекает пользователя. Переводит тексты на другие языки. С помощью Алисы можно переводить тексты на более чем 100 языков. Взаимодействует с детьми. Читает сказки, объясняет уроки. Управляет другими устройствами — умными лампами, кондиционерами, роботами-пылесосами.

Салют от Сбера. На выбор доступны три персонажа — Джой, Афина и Сбер. У каждого из ассистентов свой характер и особенности, а вот набор функций примерно одинаковый. Среди прочего, доступного другим ассистентам, Салют может перевести деньги и оплатить услуги через приложение Сбера. Доступны и другие возможности экосистемы: музыку Салют загружает из Звука, продукты заказывает через СберМаркет, а кино включает через Okko.

Маруся от VK. По функционалу Маруся похожа на других голосовых помощников, однако здесь сделан заметный акцент на возможностях для детей. В частности, Маруся рассказывает сказки, учит выговаривать буквы, проводит зарядку и много другое. Маруся работает с сервисами VK, например Mail Почтой, VK Музыкой. Заказать еду на дом Маруся предложит через «Самокат» или Delivery Club.

Источник

Интересное
- Advertisment -
MNews24.ru

Most Popular