Преобразование речи в текст: четыре способа

Те, кто планирует конференции, семинары и прочие мероприятия с наличием зрителей и слушателей, сталкиваются с растущим спросом на транскрибирование, то есть субтитры в реальном времени. В прошлом такие субтитры были дорогостоящим предложением, требующим от организаторов включать в бюджет мероприятия расходы на профессионального транскрибера.

К счастью, достижения в области автоматического преобразования речи в текст предоставили более широкий выбор способ создания субтитров в реальном времени. Но как выбрать наиболее подходящий вам вариант? В этой статье мы расскажем о плюсах и минусах четырёх разных способов:

1. Нанять транскрибера-человека

В прошлом найм профессионального транскрибера был единственным вариантом для субтитров в реальном времени. Этот подход предполагает человека, который на месте или удалённо слушает выступление и на лету преобразует его в текст.

У транскриберов есть свои преимущества. Человек может может правильно разобрать тихую или не совсем внятную речь, в то время как система на основе искусственного интеллекта может оказаться не в состоянии достичь того же уровня точности. Медицинские, научные или юридические мероприятия могут потребовать от транскрибера наличия определённых профессиональных знаний. Хотя опытный специалист может заранее проанализировать отраслевую терминологию или сленг, с которыми ему придётся столкнуться.

Но транскриберы-люди могут сильно различаются по качеству и надёжности. Тот, кто расшифровывает одну 20-минутную речь, может быть очень точным, но этот показатель точности может измениться, если придётся записывать четыре часа лекций. Точно так же этот транскрибер может быть выведен из строя из-за неожиданной болезни или личных чрезвычайных ситуаций. Наконец, не все транскриберы имеют оборудование, необходимое для обмена субтитрами в режиме реального времени. Помимо того, что вы забронируете кого-то с оборудованием, которое может подключиться к аудио-видео оборудованию, вам, скорее всего, придётся найти способ трансляции расшифровки речи в режиме реального времени.

Цена:

Сильно колеблется и может доходить до десятков долларов в час в случае самых опытных и квалифицированных транскриберов. В случае длительных мероприятий придётся также оплачивать сверхурочную работу, что ещё больше увеличивает расходы.

ЗА

Люди лучше понимают звук низкого качества
Опытные транскриберы лучше работают с отраслевыми терминами, сленгом или неформальный языком

ПРОТИВ

Дорого, особенно со специализированными навыками
Переменная надёжность
Вывод субтитров на аудиторию потребует отдельного оборудования
Низкая доступность, высокий спрос

Вывод:

Несомненно, есть случаи, где требуется транскрибер-человек, но цена может оказаться непомерно высокой. Высокий спрос на услуги транскрибирования в реальном времени только продолжает повышать эту цену, и это может означать, что профессиональный транскрибер окажется недоступен на время вашего мероприятия.

2. Купить аппаратное решение

Не так давно на рынке появились специализированные устройства для автоматического транскрибирования. Устройство включает в себя систему захвата и записи звука, преобразования речи в текст в режиме реального времени и вывода этого текста на экран. Как правило, эти устройства подключаются напрямую к локальному источнику звука, что обеспечивает максимально возможное звука, что улучшает распознавание, а также имеют стандартный видеовыход для вывода результата на внешние мониторы.

Специализированное устройство также устраняет возможные «точки отказа», присутствующие в решениях для автоматического транскрибирования, что опираются на обычный компьютер или мобильное устройство. Аппаратный транскрибер не выдаст в самый неподходящий момент «синий экран смерти», не начнёт сигнализировать о получении сообщений во время важной презентации.

Специально разработанное аппаратное решение будет также включать дополнительные функции в зависимости от разработчика оборудования. LiveScrypt, собственное решение Epiphan Video для автоматического транскрибирования в реальном времени, поддерживает более чем 30 языков и диалектов. Оно включает в себя дополнительные функции, такие как фильтры ненормативной лексики или настройку формата, размера и оформления выводимого текста, чтобы обеспечить его максимальную разборчивость на подключённых мониторах.

Подобные устройства имеют более высокую начальную стоимость, выраженную в цене самого оборудования. Для некоторых эта цена может быть слишком высокой, но в случае организаций и людей, нуждающиеся в регулярном транскрибирование, эти затраты достаточно быстро окупятся.

Примерами могут служить колледж или университет, намеревающийся снабдить субтитрами несколько лекций в день, или организатор конференций, которому нужно транскрибировать десятки выступающих на каждом мероприятии, что он устраивает. Даже с учётом высокой стоимости самого оборудования, почасовая стоимость транскрибирования получится намного ниже стоимости услуг профессиональных транскриберов.

Цена:

Варьируется. Люди и организации, покупающие специализированные устройства, должны будут оплатить как само оборудование, так и расходы облачного сервиса транскрибирования. Однако стоимость этих услуг по-прежнему намного ниже стоимости найма транскрибера, и соотношение цены и качества улучшается с увеличением использования оборудования.

ЗА

Доступность
Надёжность
Скорость
Аудиовходы профессионального уровня
Стандартный видеовыход для вывода результата на экран
Простая настройка

ПРОТИВ

Высокие начальные затраты

Вывод:

Специализированные устройства являются наиболее подходящим вариантом в случае необходимости транскрибирования большого количества выступлений.

3. Использовать облачное решение для транскрибирования

Такие сервисы, как Google Speech-to-Text, Amazon Transcribe и IBM Watson Speech to Text, используют очень похожую технологию для преобразования речи в текст. Если коротко, эти службы автоматического транскрибирования принимают цифровой аудиосигнал, разбивают этот его на более мелкие сегменты звука и сравнивают эти сегменты (также называемые фонемами) с существующей базой данных. Когда совпадение найдено, служба определяет, какое слово формируют эти фонемы, и возвращает результат в виде текста.

Этот процесс обычно требует больших вычислительных мощностей, поэтому эти службы используют облачные вычисления для получения быстрых результатов. Точность распознавания речи системами с поддержкой искусственного интеллекта уже сопоставима с транскриберами-людьми, и разрыв между ними стремительно сокращается.

Стоимость этих услуг также значительно ниже, чем работа с профессиональным транскрибером, что делает их привлекательными для продолжительных мероприятий с многочасовыми выступлениями, а также для организаций, проводящих много таких мероприятий.

Низкая цена также означает, что вы сможете обеспечить субтитрами в реальном времени всё мероприятие. Организатор конференции, использующий профессионального транскрибера, может быть вынужден по бюджетным причинам ограничиться субтитрами лишь к одному или двум основным выступлениям. Но за небольшую часть этой цены, служба автоматической транскрипции может снабдить субтитрами все выступления – от первого и до последнего слова.

Но облачные сервисы также требуют определённой компьютерной компетентности, которая выходит за рамки многих организаций. Эти сервисы обеспечивают преобразование цифрового звука в текст, но для начала этот цифровой звук надо получить и отправить сервису, что требует наличия кодировщика. То есть потребуется локальная консоль, например, персональный компьютер, который может преобразовывать аналоговый аудиосигнал в цифровой, отправлять этот сигнал в облако, получать оттуда результат и как-то выводить его на экран.

Но большинство персональных компьютеров не имеют входов для аудиосигнала профессионального уровня, например, XLR. Это проблема решается с помощью дополнительной встроенной или внешней звуковой карты, но это усложняет систему и увеличивает её стоимость, не говоря о проблемах с настройкой такого оборудования.

Цена:

Среди самых доступных вариантов цены варьируются от $0.96 в час для Google Text-to-Speech до $1,44 в час для Amazon Transcribe. Цена также может снизиться с объёмом. Например, IBM предлагает скидки для пользователей, которым необходимо транскрибировать более 250 000 минут, 500 000 минут или один миллион минут речи.

Вам также понадобится отдельный компьютер, чтобы отправлять аудио в облако, получать транскрипцию и делиться ею со своей аудиторией.

ЗА

Бюджетный
Высокая надёжность
Точность
Скорость

ПРОТИВ

Сложность настройки
Требуется локальный интерфейс для использования облачного сервиса
Требуется выделенный компьютер, возможно с расширенными возможностями

Вывод:

Низкая стоимость делает этот вариант привлекательным, но облачные сервисы всё ещё полагаются на то, что вы сами найдёте способ в реальном времени подготовить и отправить аудио, а затем вывести результат на экран. Дополнительные сложности, связанные с поиском локальной консоли, способной сделать это, могут сделать этот вариант неудобным для людей и организаций, которые ищут максимально простой способ добавлять субтитры в реальном времени.

4. Найти программу для преобразования речи в текст

Программы для распознавания речи, например, для мобильных устройств, имеют множество эффективных применений, но они ограничены аппаратным обеспечением, к которому они привязаны. Смартфоны и планшеты ограничены ёмкостью хранения и обработки, а качество микрофона может очень сильно варьироваться. Так что их применение в большинстве случаев ограничивается транскрибированием разговора один на один или небольшого собрания, а не большой лекции, в зале, где говорящий может находиться далеко от транскрибирующего телефона.

Решения на основе таких программ также зависят от того, какие функциональные возможности предусмотрены их разработчиками. Более популярные приложения будут реагировать на потребности пользователей, так как разработчики регулярно выпускают обновления, чего не скажешь о программах, разработанных независимыми фирмами или отдельными пользователями, которые могут просто прекратить поддержку продукта.

Вам также потребуется найти способ поделиться расшифровкой выступления с аудиторией. Но смартфоны и планшеты, способные использовать эти приложения, обычно не предназначены для вывода видеосигнала. Так что отправка расшифровки на большой экран потребует серьёзных дополнительных усилий. Кроме того, решения, использующие смартфон, уязвимы для неожиданных телефонных звонков, СМС и сообщений мессенджеров, а также обновлений программного обеспечения.

Цена:

Варьируется. Многие приложения бесплатны для отдельных пользователей, но требуют, чтобы вы платили за ежемесячный или поминутный тарифный план после превышения определённого количества минут. Некоторые сервисы имеют месячный лимит минут, который может стать решающим фактором для тех, кому требуются большие объёмы транскрибирования.

ЗА

Захват аудио уже встроен
Простая настройка

ПРОТИВ

Дорого
Качество звука варьируется, влияя на точность транскрибирования
Ограничения, связанные с аппаратным обеспечением смартфона или планшета
Поддержка зависит от разработчика программы
Некоторые программы имеют лимиты по времени
Нет простого способа вывести расшифровку на внешний экран

Вывод:

Стоимость относительно низкая, качество транскрибирования, как правило, довольно высокое. Но трудности с получением аудио и выводом результата на широкую аудиторию делает это решение не самым подходящим для организаторов больших мероприятий.

Самый простой способ

Только вы сможете определить, какое из этих решений лучше всего подходит для вашего мероприятия. Небольшие мероприятия могут без проблем использовать приложение для смартфона, в то время как более опытным пользователям может подойти создание компьютера с профессиональными аудиовходами для использования облачного решения.

Тем не менее, дополнительные функциональные возможности, встроенные в специализированные устройства, означают, что организаторам, которые хотят регулярно обеспечивать свои мероприятия субтитрами в реальном времени, обязательно стоит взглянуть на этот вариант.

LiveScrypt предназначен для транскрибирования в реальном времени широкого спектра мероприятий, обеспечивает поддержку более 30 языков и предлагает дополнительные функции, такие как, например, фильтр ненормативной лексики, а также запись расшифровки в текстовой файл или файл с разметкой по времени.

LiveScrypt также поддерживается разработчиками Epiphan и собственной группой технической поддержки, обеспечивая постоянное создание новых обновлений и решение проблем, с которыми вы сталкиваетесь. LiveScrypt просто настроить и им просто управлять, что сводит к минимуму все технологический сложности обеспечения транскрибирования вашего мероприятия.

Статьи