Распознавание речи для переводчика

Распознавание речи для переводчика

Как, зачем и для кого?

Наконец-то добралась до доклада Сергея Корниенко, прочитанного на конференции ЮТИК 2016 (ссылка на видео — ниже на странице).

В основу сегодняшней заметки в основном легли  сделанные Сергеем практические выводы о работе систем распознавания речи с русским языком.

Диктовку в комбинации с инструментами CAT неоднократно упоминали в качестве способа в несколько раз повысить производительность переводчика. Вот только есть один тонкий момент: к славянским языкам  этот потенциал относится лишь косвенно.

Еще одна важная особенность. Помимо собственно ПО качество и эффективность распознавания речи зависят от:

  • навыков устного перевода (дикция, темп речи);
  • оборудования и его расположения (необходим действительно качественный микрофон);
  • быстродействия компьютера;
  • фоновых шумов;
  • взаимодействия с программами автоматизации перевода.

Какие же возможности есть у тех, кто работает с русским и украинским языками? На сегодняшний день серьезно рассматривать в качестве рабочего инструмента можно три варианта: системы Google и Siri и программу Dragon Naturally Speaking.

GOOGLE

Компания разработала облачные технологии распознавания речи, встроенные, например, в сервис GoogleDocs. Вопрос интеграции с CAT-инструментами решается с помощью сторонних программ. Для русского языка в качестве примера предлагаются RealSpeaker (платная, требует веб-камеру) и SpeechPad (платная, 800 руб. на 12 месяцев).

Приложение SpeechPad устанавливается на жесткий диск компьютера и действует в связке с CAT-программой. При работе с ним важно непрерывно отслеживать ввод текста, поскольку сбои здесь — не редкость. Возникают проблемы с распознаванием нестандартной лексики при техническом переводе. Также важно формулировать мысль достаточно быстро, поскольку после паузы программа начинает новую запись в буфер.

Совет. Чтобы окошко с распознанной речью всегда было перед глазами, закрепите его с помощью служебной программы Easy Services Optimizer.

Достоинство. Непрерывное распознавание и работа с буфером. Не нужно нажимать лишних кнопок — достаточно диктовать и вставлять текст из буфера, параллельно редактируя.

Недостаток. Сбои, отсутствие пунктуации кроме запятых и точек.

SIRI

Особенность этой встроенной технологии от Apple — непрерывное распознавание речи в течение примерно одной минуты. Процесс распознавания запускается кнопкой (и останавливать, если говорить нужно меньше минуты, его тоже придется вручную).

При этом система записывает все фрагменты — выбросить ошибочный вариант до вставки в сегмент не получится.

При работе на Windows-компьютерах использовать систему Siri можно через сторонние приложения. Например, myEcho (1,99 евро), которое получает текст с облачного сервера и вставляет в программу для ПК, отслеживая положение курсора. Впрочем, обойтись без Apple все равно не получится: для работы приложение нужно запускать и на устройстве под управлением iOS, и на ПК на базе Windows. Привязка приложения к ПК выполняется с помощью QR-кодов, причем к одному мобильному устройству можно привязать сразу несколько компьютеров.

Еще один вариант для работы по такой схеме — бесплатное приложение TeamViewer Remote Control для Android. Приложение позволяет дистанционно управлять компьютером, вводя его уникальный номер и пароль. После подключения компьютера к мобильному телефону остается положить телефон перед собой и сосредоточиться на компьютере. Помещаете курсор на нужную строку, нажимаете кнопку на мобильном устройстве и начинаете диктовать.

Достоинство. Удобнее диктовать длинные предложения.

Недостатки. При работе через iPad часть экрана занимает клавиатура. В этом случае удобнее сначала надиктовать текст, а уж потом править его на компьютере. Размер шрифта тоже, естественно, оставляет желать лучшего.

DRAGON

Есть языки, для которых программа Dragon NaturallySpeaking (Windows) или Dragon Dictate (Mac) вне конкуренции:

  • подстраивается под особенности дикции;
  • «запоминает» нужные термины;
  • полностью интегрирована с рядом CAT-инструментов, включая memoQ (поддержка команд копирования, вставки и пр.).

Но на данный момент таких языков всего восемь, и, к сожалению, на русский и украинский вся эта красота не распространяется. В программном решении для ПК нет поддержки русского языка. Русский язык есть только в приложении Dragon Dictation для мобильных устройств (App Store и Google Play). А эта версия а) не настраивается под терминологию; б) не работает с «кошками».

Кстати, здесь можно прочесть о том, как определяют совместимость Dragon с CAT-программой.

В остальном все просто. Жмете красную кнопку и начинаете диктовать. А потом копировать и вставлять, копировать и вставлять. Есть и альтернативное решение. Для платформы Android доступна клавиатура Swipe (0,75 евро). Нажимаете кнопочку с микрофоном — и наговариваете текст сразу в нужном приложении.

Достоинство. Высокое качество распознавания.

Недостаток. Отсутствие интеграции.

Выводы

Похоже, что варианты с диктовкой переводов пока остаются уделом технических энтузиастов и экспериментаторов.

По результатам проверки на точность распознавания места в докладе Сергея Кириенко распределены следующим образом:

  1. Dragon
  2. Google
  3. Siri

Самый удобный вариант по мнению докладчика: Mac + Siri. Для владельцев Windows-компьютеров без гаджетов Apple оптимальной представляется схема: Google > Chrome > SpeechPad.

Что касается эффективности, то даже без учета ограничений, налагаемых русским языком, нужно помнить, что диктовка подходит не для всех заказов. Без особой подготовки диктующего такой вариант уместнее для достаточно простых предложений и не слишком формального стиля. Во всех остальных случаях проще повышать свою продуктивность с помощью функций CAT-программ.

При работе через мобильное устройство есть два пути: а) экспортировать двуязычный документ, надиктовать перевод и передать все это обратно в CAT-программу (здесь есть определенные технические тонкости, но в целом реализуемо); б) использовать мобильное устройство в качестве интерфейса для основного компьютера.

В первом случае нас ждет проблема с тэгами в файле .docx в том виде, в котором с ними работает, например, Trados. Или возникнет вопрос поддержки форматов: устройства на базе iOS больше не поддерживают файлы RTF. Да, все это решаемо, но в той или иной мере сложности будут.

Преимущества работы с программами распознавания речи:

  • освоение новых навыков;
  • снижение нагрузки на руки и спину (особенно при туннельном синдроме);
  • улучшение дикции и повышение культуры речи;
  • приятное разнообразие в рабочих процессах.

Для любителей экспериментов более подробная статья о системах «речь в текст» без привязки к переводческому процессу.

Интересен и другой потенциальный способ их применения — перевод текста в речь. Например, в качестве вспомогательного процесса при вычитке и редактировании переводов. Прослушивание текста одновременно с просмотром поможет повысить концентрацию и выловить мелкие ошибки, не дав им проскользнуть незамеченными.

3 комментария
  • Oleksandr Ivanov

    02/11/2017 at 14:45 Ответить

    Кстати, Office 365 уже получил «штатную» кнопку «озвучивания» текстов: вкладка «Рецензування», кнопка «Читати вголос», но пока не читает ни по-русски, ни по-украински.

    • Спасибо огромное, Саша! Обязательно учту. Пока я доберусь до Office 365, он уже будет читать на всех языках мира… 🙂

    • По результатам нашей утренней встречи о повышении качества добавлю сюда комментарий Андрея Вовченко о функции синтеза речи (text-to-speech) в Office 365. Для русского языка используется встроенная функция Office 365 для Word, Excel и PowerPoint (опробовано в Windows 10). Настройка в Office, например: https://www.youtube.com/watch?v=e0hJbe5Qyrk. Настройка языков в Windows 10: https://support.microsoft.com/ru-ru/help/22797/windows-10-narrator-tts-voices. После этого через классическое приложение «Панель управления» (не шестигранник «Параметры») можно переключить язык на русский и настроить скорость (оптимальная — примерно +25%).
      Украинского языкового пакета распознавания в Windows нет. Но можно взять стороннюю программу. Из всех перечисленных здесь вариантов методом научного тыка была выбрана программа Anatol http://www.trosti.com.ua/ua/anatol.html. После установки (см. Readme к программе) ничего заметного не происходит, но Anatol появляется в раскрывающемся списке в той же классической «Панели управления». Выбираем и слушаем украинские тексты в Office 365.

Post a Comment