25 декабря 2018 г.
Голосовые помощники в форм-факторе умных динамиков пользуются растущим спросом по всему миру. Вот только в какой мере каждый из них можно считать действительно умным? Оказывается, не все они в равной мере готовы прийти на помощь своим владельцам — особенно когда речь заходит об онлайн-торговле.
Американский венчурный фонд Loup Ventures под конец года провёл предметное сравнение способностей доступных на рынке США умных колонок. Для испытаний подготовили 800 вопросов и команд, с какими пользователи этих гаджетов обыкновенно обращаются к ним: от «Не закажешь ли с доставкой ещё бумажных полотенец?» до «Напомни мне сегодня в два часа дня позвонить Стиву».
Для сравнения были выбраны самые популярные устройства: Amazon Echo с голосовым помощником Алексой, Google Home Mini с безымянным Google Assistant, Apple HomePod с его Сири и Harman Kardon Invoke, который служит аппаратным интерфейсом для разработанной Microsoft Кортаны. Оценку производили по двум основным метрикам: в какой мере голосовой помощник понял вопрос или поручение — и насколько корректно на него ответил либо исполнил.
Победителем на этом смотре цифровых секретарей стал Google Assistant: он верно понял все 800 вопросов и на 88% из них дал верный ответ. У Сири возникли затруднения с пониманием трёх вопросов из тестового списка, а точность её ответов составила 75%. Алекса не поняла уже восемь вопросов и оказалась точна также в 75% ответов. Кортана угодила в конец турнирной таблицы, не сумев понять всего пять вопросов, но корректно ответив лишь на 63%.
Исследователи отмечают, что сложнее всего голосовым помощникам давалось восприятие имён собственных — точнее, вычленение их из контекста. К примеру, в вопросе «Who do the Twins play tonight?» Twins («Близнецы») — название спортивной команды, однако прямого указания на это сама фраза не содержит. В этом случае виртуальный секретарь, который имеет прямой доступ к более развитой и гибклй поисковой системе, очевидно, оказывается в выигрыше.
Восемь сотен вопросов теста Loup Ventures были разбиты на пять категорий: «То, что рядом» (например, «Где находится ближайшая аптека?»), «Коммерция», «Навигация», «Информация общего характера», «Команды». Драматичнее всего разрыв между умными колонками проявился как раз в коммерческой категории, связанной с запросами на онлайновое приобретение товаров или заказ услуг (оформление билетов, запись на приём и т. п.).
Казалось бы, лидерство Алексы в этой категории должно быть гарантировано, — ведь она де-факто служит голосовым интерфейсом для крупнейшей на планете розничной торговой сети. На деле же первенствовал здесь Google Assistant с 86%-ной долей успешно обработанных запросов. За ним с огромным отрывом и практически ноздря в ноздрю расположились Сири (56%) и Алекса (52%), а в отстающие попала Кортана — ей удалось справиться лишь с 31% связанных с онлайновой коммерцией заданий.
Сложность обработки запросов на приобретение товаров и услуг в немалой степени связана с отсутствием стандартизации в этой области — а также с особенностями работы той или иной системы искусственного интеллекта. В отчёте об исследовании Loup Ventures приводится такой пример: на один и тот же вопрос — «Сколько стоит маникюр?» — Алекса и Google Assistant дают принципиально разные ответы.
Алекса, конечно же, первым делом обращается к обширной базе данных Amazon, анализирует её и выдаёт что-то вроде «Лучшее предложение на данный момент — Beurer Electric Manicure & Pedicure Kit за 59 долл. с бесплатной доставкой. Брать будете?» У Google Assistant же ответ совершенно иной: «В среднем услуга маникюра обойдётся вам в 20 долл., однако некоторые его разновидности, такие как акрил, гель, шеллак могут стоить до 50 долл. в зависимости от выбранного салона».
Исследователи отмечают, что за год, прошедший с прошлых аналогичных испытаний, все голосовые помощники продемонстрировали рост качества понимания пользовательских запросов: Google Assistant и Кортана — на 7 процентных пунктов, Алекса — на 9, Сири — на целых 22. Разработчики продолжают совершенствовать алгоритмы, однако до момента, когда между человеком и подобными машинами установится полное взаимопонимание, ещё с очевидностью далеко.
Яндексовская Алиса по понятным причинам в число испытуемых не вошла, однако сравнивать её с американскими по происхождению голосовыми помощниками в любом случае было бы некорректно. Хотя бы из-за неизбежной локальной специфики (и языка, и бизнес-реалий), которую необходимо учитывать в подобных исследованиях. Быть может, по мере более широкого распространения умных колонок на нашем рынке появится смысл в проведении аналогичных испытаний и на российской почве.
Источник: Максим Белоус, crn.ru