April 23rd, 2006

мартовский кот

Поисковые системы учатся разговаривать

Компания Google получила патент на голосовой интерфейс. Это уже не первая попытка совместить технологии распознавания и синтеза речи с поиском в интернете.

Американский патент № 7,027,987, зарегистрированный на корпорацию Google, описывает «речевой интерфейс для поисковой системы». В нем описывается метод «использования лингвистической модели, фонетического словаря и акустических моделей для того, чтобы сервер генерировал список n-лучших гипотез или словарную диаграмму».

Патент был опубликован только позавчера, но заявка на него была подана еще в феврале 2001 г. Это значит, что Google, возможно, довольно долгое время работает над этой технологией. Специалисты из компании Google еще в 2002 г. публиковали в соавторстве научные статьи о технологиях для голосового поиска (PDF). На сайте Google Labs уже давно размещена демо-версия голосового поиска Google Voice Search (временно не работает из-за большой нагрузки). Эта система позволяет продиктовать поисковый запрос по телефону и сразу же увидеть результат поиска на экране компьютера.

Два года назад технический директор Google Крейг Сильверштейн делал прогноз, что очень скоро поисковые системы начнут говорить на человеческом языке, а в будущем и вовсе будут подключаться напрямую к человеческому мозгу. В то же время о голосовом интерфейсе он говорил практически как о свершившемся факте.

Представители Google объяснили, что патент не является описанием некоего конкретного продукта. Это совокупность разнообразных идей. Некоторые из них могут найти воплощение в реальных разработках, а другие — нет.

Демо-версия Google Voice Search распознает голосовой запрос и показывает результат на экране компьютера. В коммерческом приложении результаты этого поиска можно отправлять на экран мобильного телефона или на автомобильный компьютер. Как вариант — отправлять их на синтезатор речи и диктовать по телефону в ответ.

Интеграция речевых интерфейсов с поисковым движком — это весьма перспективное направление развития современных технологий. Например, в мае 2005 г. команда израильских ученых под руководством д-ра Мейрав Тайеб-Маймон (Dr. Meirav Taieb-Maimon) объявила о создании полноценного голосового интерфейса Maestro для поиска в интернете.

В Америке уже появились несколько стартапов, которые специализируются на рынке мобильного поиска – по прогнозу Piper Jaffray, этот рынок в 2008 г. вырастет до $11 млрд. Например, компания 4INFO обрабатывает поисковые запросы по SMS и делает это лучше, чем Google. Другие сервисы, вроде PromptU, частично используют голосовые технологии. Много шуму вызвала демонстрация на последней выставке CTIA технологии от компании V-Enable, способной обрабатывать голосовые поисковые запросы с точностью 90% и отправлять их обратно на мобильник в течение одной секунды.

Посмотреть эту запись в моем журнале