потоковое распознование голоса

Добрый день, господа! Кто-нибудь пробовал сращивать Астериск с Yandex SpeechKit Cloud API в потоковом режиме?

Потоковое распознавание

Для обеспечения высокой скорости технология распознавания речи поддерживает режим потокового распознавания с промежуточными результатами. Как только человек начинает говорить, его речь сразу же маленькими частями передается на сервис распознавания.

Потоковое API работает по принципу websocket, но по более простому протоколу. Клиент начинает соединение с http-рукопожатия, посылая:

GET /asr_partial HTTP/1.1\r\n User-Agent:KeepAliveClient\r\n Host: voice-stream.voicetech.yandex.net:80\r\n Upgrade: dictation\r\n\r\n

Далее клиент должен получить от сервера 101: Receive HTTP 101 Switched response. Это означает, что соединение переключилось в дуплексный потоковый режим. В этом режиме обмен данными происходит через сообщения.

Сообщения передаются в следующем формате:

[hex size]\r\n[message body serialized with protobuf]

Сначала размер сообщения в hex виде, затем \r\n, затем сериализованное protobuf-сообщение.

В текущем протоколе от клиента может прийти только ConnectionRequest и далее сообщения AddData. Примечание. Клиент посылает ConnectionRequest, затем AddData, а вычитает сначала ConnectionResponse, а затем по одному AddDataRespons

удалить закрыть спам изменить тег редактировать

спросил 2015-02-09 19:09:32 +0400

GreyMag
170 ● 8 ● 1 ● 10

обновил 2015-02-10 11:33:38 +0400

Comments

Напишите в Яндекс, мне давали python-скрипт, который в потоковом режиме обрабатывает речь.

obamo ( 2015-02-10 19:03:27 +0400 )редактировать

Можете рассказать подробнее о результатах тестирования и что удалось реализовать с помощью этого скрипта.

GreyMag ( 2015-02-10 19:33:44 +0400 )редактировать

>> что удалось реализовать с помощью этого скрипта

ничего

Подробная история:

Была идея пропускать через распознавание записи разговоров менеджеров продаж с целью конспектирования и поиска матерных слов. Поскольку записи могут быть больше лимитов стандартного API Яндекса, я узнал у них цены и возможность распознавания больших файлов. они мне прислали скрипт.

Дальше интерес топа к этому делу исчез, а я написал враппер для стандартного Яндекс Speech API https://github.com/antirek/yandex-speech и прикрутил его к астериску http://habrahabr.ru/post/248263/, потом я попробовал прикрутить google распознавание и сейчас его использую - короткие фразы и фамилии лучше распознает.

В итоге: заказ воды в офис теперь только через быстрый голосовой набор делаю, а до потокового распознавания так дело и не дошло. : )

obamo ( 2015-02-10 20:13:47 +0400 )редактировать

http://habrahabr.ru/post/225179/

Баловство это понимаю, но всёж)

ссылка удалить спам редактировать

ответил 2015-02-09 19:11:38 +0400

Zavr2008

2886 ● 11 ● 9 ● 40
http://mh.otx.ru/

Comments

Спасибо, Zavr2008 Мне интересен потоковый вариант, чтобы астериск рулил живую речь сразу на сервера яндекса. Если конечно это возможно.

GreyMag ( 2015-02-09 19:45:50 +0400 )редактировать

и как вы себе представляете потоковый http api?

meral ( 2015-02-09 20:03:31 +0400 )редактировать

нет, технически, конечно, возможно вычленение отдельных слов из потока и отправка их на сервер. но будет задержка в длину слова + 2-3 секунды и стоить это будет $1000+(оцениваю по стоимости своего времени, может какойто убер c/c++ программист сможет сделать и протестировать дешевле). но все равно баловство. точность фиговая(ибо словарь большой)

meral ( 2015-02-09 20:06:27 +0400 )редактировать

ну у яндекса для этого как раз есть Transfer-Encoding: chunked читать прям из файла или через eagi и скармливать тому api...

так что теоретически по окончании разговора транслит достаточно быстро получится.

komrad123 ( 2015-02-09 21:48:38 +0400 )редактировать

да не вопрос. быстро. но с задержкой в 2 секунды и не особо точно.

meral ( 2015-02-10 11:17:42 +0400 )редактировать

Вообще я помню была тема со скайпом, когда делались отдельные каналы. http://asmodeus.com.ua/library/soft/asterisk/skype2sip.html

GreyMag ( 2015-02-10 14:19:29 +0400 )редактировать

ну так делайте. я выше написал приблизительную стоимость если делать будет експерт. во всех остальных случаях будет больше 20 часов.

meral ( 2015-02-11 14:00:40 +0400 )редактировать

потоковое распознование голоса

Comments

1 Ответ

Comments

Ваш ответ

Закладки и информация

Статистика

Похожие вопросы: