Когда заходит разговор о распознавании речи, то большинство людей прежде всего желает реализовать две «простые» возможности: автоматически превращать живую разговорную речь в текст и общаться при помощи автоматического переводчика. Увы, и то и другое еще далеко от реализации, но — хорошая новость — и то и другое возможно. Пока промышленные технологии распознавания речи позволяют делать более скромные, но все же весьма полезные вещи. И они стоят денег, хотя как сегмент рынка автоматизация распознавания речи пока на стадии зарождения.
В этой области есть несколько интересных направлений: распознавание команд и синтез голосовых сообщений (применяется в бытовой технике), распознавание команд в зашумленной среде (в основном управление светом, связью, замками автомобиля), обучение языкам, обработка переговоров и голосовая навигация в электронной коммерции и колл-центрах. Самый обширный сегмент, по общему мнению аналитиков, — автомобильная телематика. По прогнозам Datamonitor, мировой рынок систем распознавания речи (ASR) для мобильных телефонов в следующие пять лет вырастет в три раза. Европейский рынок распознавания речи в мобильных устройствах в 2012 г. оценивался примерно в 25,09 млн. долл. и к 2018 г. может достигнуть 63,39 млн. долл. (данные предоставлены Центром речевых технологий).
Во всяком случае, уже можно смело говорить о существовании рынка автоматической обработки речи, считает генеральный директор фирмы «Центр речевых технологий» (ЦРТ) Михаил Хитров. Игроков на нем пока немного, поэтому не вовлеченному в эту сферу человеку легче столкнуться с автоматизацией при помощи речевых технологий на других, более крупных и развитых рынках, таких как контактные центры. Там автоматизация процессов при помощи речевых технологий — это только часть целого, но уже немаловажная и все более популярная и востребованная, подчеркивает Хитров. Кстати, по данным компании Verint, в России рынок контактных центров ежегодно растет примерно на 30%.
Имеются в виду системы голосового самообслуживания (IVR на базе речевых технологий), системы управления качеством обслуживания (запись и речевая аналитика, анализ эмоционального состояния операторов и клиентов контакт-центров и автоматический анализ больших баз фонограмм, записываемых в контакт-центрах), а также системы голосовой (и мультимодальной) биометрической аутентификации в контакт-центрах. Такие инновационные системы нацелены на оптимизацию работы контактных центров, сокращение издержек, повышение лояльности клиента.
Конечно, поясняет Михаил Хитров, пока речь идет только о нескольких внедрениях в год, что обусловлено масштабом внедрения таких систем и недостаточной интегрированностью потенциальных заказчиков. Тем не менее он говорит: «Мы исполнены оптимизма: рынок контакт-центров растет, предложение на рынке труда для контакт-центров при высокой текучести в индустрии, по нашим наблюдениям, не соответствует спросу и оставляет актуальным вопрос качества обслуживания. Такие тенденции вынуждают контакт-центры выводить управление качеством в процессы, закрепленные средствами автоматизации и контроля качества. К тому же организация фронт-офиса компаний и организаций (в том числе государственных) в формате контакт-центра становится трендом, что дает нам также основания для большого оптимизма в этом направлении».
Кроме контакт-центров существуют и другие сферы, где применяется или может применяться автоматизация при помощи речевых технологий: медицина, образование, ЖКХ, энергетика, безопасность и другие. Во всех этих областях, уверены в ЦРТ, речевые технологии позволяют существенно оптимизировать рабочий процесс, снизить трудозатраты и операционные издержки. По данным ЦРТ, практически половину рабочего времени медперсонал тратит на заполнение бланков и документов. Заменить ручку и бумагу на голосовое заполнение карт и форм заманчиво. Речевые технологии способны также упростить сбор показаний счетчиков ЖКХ без существенных капиталовложений в систему учета как со стороны потребителей, так и обслуживающих организаций, поскольку гораздо дешевле поставить одну многоканальную систему автоматического приема показаний и напоминаний об оплате по телефону, чем повсеместно заменять «обычные» счетчики на «продвинутые», умеющие отправлять показания по каналам связи, да и конечный потребитель избавляется от дополнительных трат, считают в ЦРТ.
Надо сказать, что как только речь заходит о потенциальном росте, возможностях, гипотетических сферах применения систем распознавания, энтузиазм всех производителей переходит всякие границы. Аналитики прогнозируют, что в будущем мы будем управлять не только телефонами, автомобилями, но и кофеварками, разговаривать с принтерами и давать указания освещению, чтобы оно выключалось, замечает Екатерина Пшехотская, руководитель отдела лингвистики компании InfoWatch.
Директор департамента консалтинга компании Verint Стив Роже отмечает, что в ряде секторов бизнеса специалисты компании наблюдают активно растущий спрос на аналитику, как речевую, так и текстовую. «Клиентам в России мы показываем, как обеспечить интенсивный возврат инвестиций, так как у нас уже есть опыт работы с глобальными заказчиками там, где рынок аналитики намного старше», — говорит Роже. Компания разрабатывает необходимые дополнения своих продуктов, необходимые для российских клиентов. Стив Роже отмечает: «Мы видим в России потенциально большой рост рынка аналитики. В наших текущих планах — внедрение речевого анализа и анализа текста. Финансовые показатели нашей компании за последние пять лет отражают конъюнктуру рынка. Сумма выручки выросла до 788 млн. долл. Валовая прибыль увеличилась на 69%, операционная прибыль превысила 20%». В России подразделение Verint работает с ноября 2012 г.
Игроков на российском рынке решений для аналитики речи пока немного, и «Центр речевых технологий» — один из наиболее заметных вендоров, считает Роман Франтов, руководитель направления call-центров компании «Крок». Среди международных производителей, по его мнению, признанные лидеры NICE и Verint. Причем у зарубежных вендоров, поясняет Франтов, аналитика речи часто входит в комплексный пакет решений для оптимизации деятельности предприятия. В этом случае решение для аналитики речи интегрируется с другими системами, которые зачастую уже используются российскими компаниями, например с решением для управления трудовыми ресурсами (WFM), мониторинга качества обслуживания и т. д. В России многие компании созрели для таких систем, уверен Франтов, и интерес к этой технологии постоянно растет — в том числе потому, что завершенные проекты весьма успешны. Так, в Национальной службе взыскания на 9% сократилось среднее время разговора, значительно повысилась степень выявления ошибок операторов, отмечает он и поясняет: «Это был первый в стране проект, сейчас мы делаем похожие в call-центрах нескольких банков».
Однако колл-центры — это та часть «айсберга», которая у всех на виду. Есть же и иные грани. «InfoWatch специализируется на технологиях распознавания письменной речи, но поскольку голосовой канал передачи также необходимо учитывать при обеспечении информационной безопасности, мы разрабатываем решения с интеграцией технологий, разработанных нашими партнерами и позволяющих успешно распознавать устную речь, — говорит Екатерина Пшехотская и приводит пример: — Современные организации в целях повышения эффективности бизнес-процессов разрешают своим сотрудникам использовать средства аудио- и видеоконференций для общения с клиентами, контрагентами, профессиональными сообществами для обеспечения некоторых сервисов, таких как техническая поддержка клиентов, колл-центр, „продавцы на телефоне“. Использование подобных технологий — необходимое условие предоставления современных услуг. Контроль соблюдения политики безопасности без специализированного средства сводится к прослушиванию аудиозаписей оператором. Это требует значительных ресурсов, вводит дополнительный риск человеческого фактора и сомнительно с юридической точки зрения. Другим источником голосовой информации могут служить записанные внутри организации обучающие видео, инструкции, тренинги. Для компаний, предоставляющих сервисные услуги или работающих на конкурентном рынке, подобная информация является ноу-хау, а ее утечка может нанести серьезный финансовый ущерб».
Максим Ромашин, руководитель департамента продаж «ИнтелТелеком Софт», отмечает, что в распознавание речи входят системы контроля анализа эмоций и системы распознавания ключевых слов. В первом случае вообще не анализируется содержание разговора, только громкость и общий эмоциональный фон. Это позволяет оперативно реагировать на конфликтные ситуации. Распознавание ключевых слов позволяет в режиме реального времени анализировать голосовую информацию и при обнаружении в речи ключевых слов, например «бомба», «откат», «коммерческая тайна», тут же передавать информацию заданному адресату, обычно это служба безопасности организации, поясняет Ромашин.
Немного физики
Речь — это устная составляющая языка, в физическом понимании — это акустический сигнал, который генерируется артикуляционными органами человека, передается через физическую среду и воспринимается ухом человека. При естественной или искусственной генерации речи в речевом сигнале изменяются физические параметры, траектории которых во времени воздействуют на мембрану уха и создают звуковые образы, воспринимающиеся человеком как соответствующие звуки данного языка.
Системы распознавания речи — это системы, анализирующие физический акустический сигнал алгоритмами, основанными на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующих его в различной полноте в текстовую или транскрипционную нотацию.
Основным недостатком существующих систем распознавания является неполная точность распознавания. Ограничения точности, на мой взгляд, связаны с тем, что для выделения из акустического сигнала признаков определения звуков используют Фурье-преобразование акустического сигнала в спектр и последующий анализ этого спектра с использованием алгоритмов, основанных на скрытых Марковских моделях (HMM), нейроалгоритмах и динамическом программировании. В полученные таким образом из спектральной информации параметры, создающие ощущения звуков, теряют динамическую составляющую и ассоциируются со многими другими параметрами, не относящимися к речи, которые зашумляют сигнал и влияют на точность распознавания. Такой подход обеспечивает точность распознавания свободной речи около 85% только в строго фиксированных условиях, неустойчив к голосу говорящего и влиянию внешней среды. Подобная точность распознавания недостаточна для разработки коммерческих систем. Этот подход разработан более 40 лет назад и за это время не позволил создать массовые коммерческие системы в области распознавания речи.
Под коммерческим массовым продуктом я понимаю продукт:
- комфортный для конечного потребителя;
- интерфейс которого не вызывает отторжения;
- нет ошибок основного функционала и требований, ограничивающих естественное взаимодействие с ним пользователя.
Эммануил Кнеллер, генеральный директор ЗАО «ИстраСофт», вице-президент консорциума «Российские речевые технологии».
Что мешает?
Почему же применение систем распознавания речи еще не стало стандартом де-факто? Роман Франтов считает, что одно из основных препятствий для массового внедрения — неготовность части компаний к речевой аналитике. Ведь она, полагает Франтов, нужна в первую очередь игрокам рынка с крупными колл-центрами, которым уже не хватает традиционного функционала. В России же пока далеко не все компании используют технологии записи речи.
Распространению технологий препятствует слабая осведомленность средних и малых компаний о возможностях оптимизации и автоматизации с помощью речевых технологий, считает Михаил Хитров: «Крупные компании более восприимчивы к инновациям, пробуют наши технологии и присылают положительные отзывы».
Может быть, дело не только в открытости. Для того чтобы компания проявила интерес к использованию речевых технологий, она должна своего рода «дорасти», поскольку далеко не сразу можно увидеть выгоды от использования сервисов автоматического распознавания и синтеза в краткосрочной и среднесрочной перспективе, уверен Максим Ромашин. Это связано, подчеркивает он, в первую очередь с экономической составляющей — текущая стоимость коммерческих систем такого класса, а также цена их внедрения достаточно высока: «Зачастую дешевле нанять персонал для обслуживания вызовов. Экономическая выгода появляется только при значительном количестве одновременно обслуживаемых вызовов (как исходящих, с целью автоиформирования, так и входящих, для первичного распределения звонков)».
Скорее всего, технологии распознавания еще не достигли промышленного уровня зрелости. Или же достигли, но только в английском языке. Во всяком случае в России ситуация пока напоминает времена, когда появились первые пакеты распознавания текста. Производители активно провели агитацию, много было споров о технологиях, клиенты часто сомневались и спрашивали «а может, лучше посадить сто девушек и они...». Однако как только качество распознавания печатного текста превысило некий критический, устраивавший бизнес уровень (очень осторожно можно говорить о точности распознавания большей, чем 75–80%), пошел вал проектов, и продажи коробочных продуктов резко возросли. Можно предположить, что примерно так же получится и с речью: «как только, так сразу». Но пока технологическую грань еще не перешли.
Все попытки улучшить распознавание напоминают поиски под «фонарем», где все уже осмотрено и найти новое невозможно. Не лучше ли поискать новые подходы в других местах, задается вопросом Эммануил Кнеллер, генеральный директор ЗАО «ИстраСофт». Об этом же, по его мнению, говорит поддержка американским ведомством DARPA компаний, разрабатывающих подходы по полному выделению транскрипционной составляющей речевого сигнала, которая, по мнению экспертов, должна привести к 95%-ному распознаванию и позволит создать коммерческие речевые продукты. Одним из таких новых подходов и занимается «ИстраСофт». Кнеллер поясняет: «Для первичной обработки сигнала мы разработали алгоритмы, основанные на математической модели улитки уха как первичного анализатора фонетико-акустической информации, позволяющие выделить и количественно измерить, независимо от говорящего, физические параметры речевого сигнала, отвечающие за ощущение того или иного звука речи. Данный подход позволяет разработать новые алгоритмы для преобразования речи в полноаннотируемое текстовое представление (звуки + метаданные) — систему полного фонетического транскрибирования непрерывной речи. Система позволит обеспечить 95%-ную точность распознавания звуков речи (фонем) и создать многие коммерческие приложения».
Разработанные алгоритмы «Истрасофт» применяет в своих коммерческих программах обучения языку серии «Профессор Хиггинс» (английский, русский, немецкий и др.), для выделения, визуализации и оценки правильности произнесения отдельного звука, звуков в словах, интонации в предложениях, относительно эталонного произнесения, что позволяет пользователю не только слышать, но, главное, увидеть свои ошибки в произношении и научиться слышать и правильно произносить звуки речи другого языка. По мнению Кнеллера, это пример одного из возможных успешных коммерческих применений технологии полной транскрипции.
Технологический экскурс
При разработке технологий распознавания речи приходится сталкиваться сразу с рядом проблем. Во-первых, это проблема вариативности произношения одного и того же слова. При общей тенденции к ускорению темпа речи, данный аспект становится особенно важным. На входящий сигнал также могут влиять шумы и искажения. Плюс к этому в разговорной речи часто встречаются слова-паразиты. «Смазанные» границы слов, нечеткое произношение — всё это затрудняет работу системы. Во-вторых, некоторые системы распознавания устной речи чувствительны к эмоциональной окраске, привносимой говорящим. Здесь появляется сразу несколько параметров, которые необходимо учитывать для корректного распознавания: это спектрально-временные признаки (среднее значение спектра речевого сигнала, длительность фонемы и др.), кепстральные признаки (они используются для отделения сигнала возбуждения от сигнала речевого), амплитудно-частотные признаки (эти признаки несут достаточную информацию для человека по речевому сигналу при минимальном времени восприятия), а также ряд других признаков. В-третьих, существуют системы, которые способны работать только с изолированными командами (подобные системы часто используются в телефонии), и те, которые могут распознавать связную речь. Естественно, вторая задача более трудоемкая. И, в-четвертых, существуют трудности, связанные со спецификой славянских языков, в том числе русского. Для русского языка характерны свободный порядок слов и богатая морфология, что требует большого числа речевых корпусов. (Пояснение Э. Кнеллера: «Речевой корпус — это большой набор размеченных звуковых файлов русской речи, с большим количеством дикторов и акцентов, охватывающих все многообразие речи. Он нужен для настройки и тестирования программ распознавания»).
На мой взгляд, технологии распознавания речи уже созрели для массового применения. Пример: Google добавила персональное распознавание в голосовой поиск телефонов под управлением Android в 2010 г., а также в свой браузер Chrome в 2011 г. Google распознает 230 млрд. слов. Так же, как и система Google Voice Search, система Siri корпорации Apple может сгенерировать ответ на заданный вопрос. Здесь уже можно говорить даже о «чувстве юмора» системы.
Екатерина Пшехотская, руководитель отдела лингвистики компании InfoWatch.
Максим Ромашин не согласен с тем, что инструменты анализа речи еще не настолько совершенны, чтобы употребляться для массового применения. «Скорее стоит говорить о том, что компании пока просто не готовы тратить необходимые средства на качественную и дорогую настройку. Именно поэтому это продукт пока элитарный», — говорит он.
Существующий уровень технологий (качество синтеза, надежность распознавания и биометрической аутентификации) позволяет уже сейчас существенно повышать качество автоматического обслуживания, утверждает Михаил Хитров: «Позвоните в РЖД и поинтересуйтесь доступностью билетов на популярные направления — именно они автоматизированы в системе голосового самообслуживания». Но даже если это отлично работает, все же о массовом продукте речь не идет и в этом случае.
Хитров уверен, что за «передовиками» освоения речевых технологий последует и массовый потребитель, сначала в лице B2B/B2G-организаций. У интеграторов и реселлеров хорошие перспективы, полагает он, поскольку ЦРТ стремится использовать отраслевые стандарты при реализации своих продуктов, что существенно упрощает интеграцию технологий в конечные решения. Хитров замечает, что действительно «массовому» клиенту также доступны речевые технологии в виде мобильных приложений — «Читатель» для озвучивания текстов книг синтезом и Radio RSS для «воспроизведения» новостей из Интернета.
А пока создатели технологий совершенствуют свои подходы, интеграторы внедряют то, что есть. «Системы записи речи и управления речевой информацией мы внедряем давно, и технология речевой аналитики — логичное развитие наших компетенций, — говорит Роман Франтов. — На рынке систем аналитики речи мы начали активно работать примерно год назад, сделали первые проекты». Аналитика речи — естественный шаг в развитии технологий общения с клиентами, поэтому, по мере развития спроса на такие системы, ИТ-компаний, предлагающих соответствующие услуги, будет все больше, уверен он.
Рассказывает Екатерина Пшехотская: «Наша компания и „Центр речевых технологий“ предлагают решение для автоматизированного контроля над исполнением политик безопасности при использовании средств голосовой связи и передачи информации в голосовом формате. Решение состоит из интегрированных программных систем — STC Voice Monitor, разработки „Центр речевых технологий“ и Traffic Monitor Enterprise компании InfoWatch. Как это работает: перехватчики голосового трафика передают данные на анализ STC Voice Monitor, где производится распознавание речи, поиск в ней ключевых слов и определение тематики. Набор ключевых слов и тематик определяется в рамках общей политики безопасности, которая задается в InfoWatch Traffic Monitor. После распознавания анализа копия трафика передается в хранилище InfoWatch Forensic Storage для дальнейшего рассмотрения офицером безопасности». Пшехотская рассчитывает, что подобная синергия технологий распознавания устной и письменной речи поможет вывести системы DLP на качественно новый уровень.
Максим Ромашин приводит примеры экономически оправданного применения пакетов распознавания: «Автоинформирование с использованием синтеза речи часто используется в службах такси, в том числе и в продукте Infinity TAXI. Система самостоятельно дозванивается до клиента и сообщает необходимую индивидуальную информацию о статусе заказа. Ведь для таких узких задач можно использовать гораздо более простые и дешевые решения, чем для комплексных. В результате для служб такси это действительно выгодное вложение средств».
Так что уже сейчас имеются возможности применения распознавания и синтеза речи во многих видах бизнеса. Интерес к этим подходам со стороны клиентов, по общему мнению, высок и продолжает увеличиваться. Похоже, распознавание речи — область, за которой стоит следить, ведь уже сейчас ее осваивают крупнейшие интеграторы, а как только появятся массовые продукты, спрос резко пойдет вверх.