Субтитры в реальном времени для ваших мероприятий

Участники вашего мероприятия могут многое упустить. С каких-то мест может быть сложно услышать, что говорят на сцене из-за проблем со звуком или из-за болтливых соседей. А для людей со слабым слухом ваше мероприятие может оказаться полностью недоступно. К счастью, есть решение этих проблем: субтитры в реальном времени. Вопрос в том, что выбрать – человека или машину?

Машинное или автоматическое транскрибирование – далеко не новое изобретение. Это одно из многих приложений технологии автоматического распознавания речи (ASR), которое существует уже более полувека. Технология ASR продвинулась за эти годы очень далеко. И с учётом последних достижений в области искусственного интеллекта (ИИ) и машинного обучения технология автоматического транскрибирования уже готова к реальной работе.

Как работает автоматическое транскрибирование

Системы автоматического транскрибирования сопоставляют звуки, составляющие человеческую речь, со словами в цифровом словаре. Когда эти звуки имеют несколько возможных совпадений – те же омонимы или омофоны, или из-за нечёткой речи или плохого звука – программа автоматического транскрибирования анализирует общий контекст и назначает каждому возможному слову вероятность, выбирая слово, которое оно считает наиболее подходящим. Этот анализ основан на алгоритмах глубокого обучения, основанных на широком спектре входных данных, которые различаются в зависимости от решения.

Тот же самый базовый процесс работает, когда вы взаимодействуете с Siri, Alexa, Cortana, Google или Алисой, только в этом случае система выводит результат в виде текста.

Большинство решений для автоматического транскрибирования, представленных сегодня на рынке, созданы для постпроизводства. Некоторые работают, когда вы загружаете аудиозапись. Службы такого рода пропустят ваш аудиофайл через программу автоматической транскрипции и отправят вам результат. Обработка обычно происходит в облаке, но также доступны локальные речевые и текстовые решения. Конечно, подобные пост-продакшн-решения не подходят для живых событий, будь то научная конференция, судебное заседание, законодательное собрание или корпоративное мероприятие.

Два способа транскрибирования живого события

Если вам требуется обеспечить субтитры в реальном времени, то у вас есть два варианта:

Нанять одного или нескольких человек-транскриберов (для работы на месте или удалённо)
Использовать сервис автоматического транскрибирования, способный анализировать речь и выводить субтитры достаточно быстро, чтобы поспевать за выступающим.

Первый вариант довольно прост. Работая на месте или дома, люди-транскриберы фиксируют то, что говорят ведущие в режиме реального времени. Сложнее понять, как отобразить текст на мониторе, планшете или другом устройстве. Прямая транскрипция – это игра, совершенно отличная от работы с предварительно записанным звуком, тут не помешает специалист с подготовкой уровня квалифицированной судебной стенографистки.

Второй вариант является немного более сложным с технической точки зрения, но он предлагает значительные преимущества по сравнению с человеческим транскрибированием. Вы можете найти решения для транскрибирования в реальном времени от таких известных компаний, как Google, Amazon и IBM.

На первый взгляд, живая транскрипция, управляемая искусственным интеллектом, ничем не отличается от человеческой транскрипции. Представьте себе человека на сцене, выступающего с основным докладом. Микрофон, в который он говорит, подключён к ноутбуку или другому устройству с облачным программным обеспечением для автоматического транскрибирования. Все, что говорит докладчик, проецируется через акустическую систему конференц-зала, а также отправляется в виде звука в облако. В облаке технология обработки естественного языка сопоставляет различные звуки со словами в цифровом словаре. Затем программа отправляет обратно текст для отображения на мониторе, чтобы любой мог за ним следить. Передаваемые данные имеют очень маленький объём, поэтому всё это происходит достаточно быстро.

Автоматическое транскрибирование против «человеческого»

Как и во многих других вещах, при выборе между транскрипцией, управляемой человеком и искусственным интеллектом, есть смысл. Да, люди все еще лучше в некоторых вещах. Мы все имели дело с машинами самообслуживания, которые настаивают на том, что в области укладки багажа есть предмет, когда его нет в поле зрения, только для того, чтобы его выручил покорный (и очень человечный) самопроверка. Но машины часто побеждают, когда речь заходит о таких основных бизнес-задачах, как стоимость и удобство.

Мы сравним человеческое и автоматическое транскрибирование по пяти ключевым критериям:

Точность
Стоимость
Удобство
Надёжность
Конфиденциальность

1. Точность

Исследования показывают, что точность транскрибирования даже у подготовленного человека составляет около 95%. Это одна ошибка на 20 транскрибированных слов. Исследователи распознавания речи стремятся к тому, чтобы уровень ошибок был не превышал этот показатель.

И Microsoft, и IBM утверждают, что достигли уровня точности, близкого к этому, благодаря своим собственным решениям преобразования речи в текст. Но транскрибирование на основе искусственного интеллекта не всегда идёт так же хорошо, как в идеальных условиях корпоративной лаборатории. Фоновый шум, плохая акустика, тяжёлые акценты и диалекты, специализированный словарный запас и низкокачественное записывающее оборудование могут снизить точность автоматического транскрибирования. В действительно неблагоприятных условиях вы можете оказаться в «салате из слов», озадачивая (или вызывая смех) любого из присутствующих в аудитории.

Люди, как правило, более успешны в транскрибировании нескольких говорящих. Машины борются с этим, что может или не может быть проблемой в зависимости от характера вашего мероприятия. Но ИИ в этом отношении уже сокращает разрыв – например, технология диаризации (распознавания говорящих) искусственного интеллекта Google, которая сделает возможной автоматическое транскрибирование панельных дискуссий и других форматов с несколькими участниками.

Благодаря нейронным сетям, которые обеспечивают технологию распознавания речи, автоматического транскрибирования улучшается с каждым днём. Некоторые действия, которые вы можете предпринять перед мероприятием, позволят точней интерпретировать конкретного говорящего, потенциально более эффективно справляясь со сложными акцентами или диалектами, чем человек-транскрибер. Кроме того, обычно имеется возможность добавлять слова и термины в словарь программы для облегчения распознавания. Эта функция неоценима для событий, в которых используется специализированный язык или жаргон – таких, например, как конференция для учёных, инженеров, программистов или врачей.

На этом возможности ИИ в плане точности не заканчиваются. Напомним, что программы для распознавания речи анализируют контекст, чтобы помочь разрешить неоднозначность использования слов. Системы для транскрибирования в реальном времени могут вносить исправления на лету, когда говорящий делает паузу (в то же время предоставляя системе больше контекста для работы). Да и люди тоже не застрахованы от смешения похоже звучащих слов – мы можем даже с большей вероятностью ошибиться, когда приходится торопиться. Разница в том, что у людей-транскриберов нет времени, чтобы исправить эти ошибки – если они не хотят отстать от говорящего.

2. Стоимость

«Живые» мероприятия и сами по себе дорогая штука. Расходы на аренду помещения, питание, проезд и проживание приглашённых докладчиков могут оставить в бюджете очень мало средств на всё остальное. Это может создать проблему, если вы хотите (или должны) обеспечить аудиторию субтитрами в реальном времени.

Ставки и модели оплаты человека-транскрибера могут очень сильно варьироваться. Одни берут плату поминутно, у других она почасовая. Транскриберы, которые умеют не отставать от живых выступления, стоят гораздо дороже, чем те, кто работает с аудиофайлами или видео. Если транскрибер не местный, то добавляются расходы на его. Оплата также может быть привязана ко всему времени, что он проведёт на мероприятии, а не только ко времени собственно транскрибирования, и в этом случае вы платите ему, даже во время обеда или перерывов в выступлениях. А если мероприятие длится долго? Правильно – сверхурочные.

Как бы то ни было, плата за транскрибирование может серьёзно возрасти, если вы полагаетесь на помощь человека, особенно если ваше мероприятие проводится в течение нескольких дней или включает в себя сеансы, которые проводятся параллельно. Когда бюджеты ограничены, организациям иногда приходится снабжать субтитрами не все выступления или сессии. Это может поставить организаторов мероприятия в неудобное положение, поскольку приглашённые докладчики могут задаться вопросом, почему их доклады не сочли важными и не обеспечили их доступность для всех.

Системы автоматического транскрибирования помогут вам избежать подобных проблем. Услуги по транскрибированию, основанные на искусственном интеллекте, по-прежнему платные, но их цена значительно ниже средней ставки оплаты для человека. Вы можете запустить программу лишь тогда, когда это требуется. А благодаря более низкой стоимости ИИ-транскрибирования, менее вероятно, что вам придётся выбирать, что снабжать субтитрами, а что нет. Потенциальная экономия будет еще более впечатляющей, если вы проводите несколько мероприятий в год.

3. Удобство

Организовать «человеческие» субтитры в реальном времени не всегда возможно. Например, в случае срочного мероприятия может просто не хватить времени на приглашение специалиста. Также могут нарисоваться мероприятия, проводимые в то же время, что и ваша, и свободного транскрибера с нужным вам набором навыков может просто не оказаться. А что произойдёт, если нанятый вами специалист не сможет принять участие в вашем мероприятии, потому что он болен или его рейс задерживается?

Обо всё об этом не придётся беспокоиться в случае использования ИИ-транскрибирования. Машины не заняты профессиональной жизнью, как люди. Программу вы сможете запустить в любой момент. А ещё вы всегда можете проверить её перед мероприятием и оценить её точность, что не всегда можно сделать с людьми (не говоря уж о том, что это тоже стоит денег). А ещё вы сможете оперативно настроить программу для распознавания любой отраслевой слов.

Дополнительную гибкость системам автоматического транскрибирования придаёт ещё и то, что многие из них поддерживают несколько языков. Что избавляет вас от необходимости искать транскрибера с нужными знаниями.

4. Надёжность

Способность транскрибирования у людей широко варьируются (чаще всего это зависит от опыта). А производительность может варьироваться даже у одного и того же человека – например, если нанятый вами человек просто не выспался.

Всё это вызывает беспокойство. Будет ли способен человек, которого вы наняли (или его замена) выполнить поставленную задачу? Будет ли он в хорошей форме в день мероприятия? Достаточно ли он знаком со лексической спецификой мероприятия? С системами автоматического транскрибирования таких проблем не возникнет. Конечно, факторы окружающей среды, такие как фоновый шум и качество используемого вами аудио-видео оборудования, будут влиять на способность программы обеспечить правильное транскрибирование. Но, но этим можно управлять, и это можно планировать.

5. Конфиденциальность

Стенограммы отлично подходят для тех, кто пропустил большую встречу, и удобны для всех, кто был там. Но что, если на этой встрече были обсуждены незапатентованные технологии или другие секреты компании? Ни один бизнес не хочет, чтобы посторонние лица были осведомлены о таких вещах, но этого нельзя избежать, если вы привлекаете внешнего транскрибера. Соглашения о неразглашении – это хорошо, но бдительности никогда не бывает слишком много, а утечки информации случаются постоянно.

Выбор в пользу автоматического транскрибирования снизит риски конфиденциальности. Это не обязательно устранит их полностью, поскольку многие системы отправляют аудио в облако для обработки. В любом случае, риск утечки намного ниже, что делает ИИ-транскрибирование, предпочтительным выбором с точки зрения конфиденциальности.

Используйте лучшее!

Автоматическое транскрибирование – это реальная альтернатива для конференций, совещаний и других мероприятий, где нужны субтитры в реальном времени. Однако многое зависит от условий. Epiphan LiveScrypt упрощает выполнение многих из этих условий. Устройство работает на основе передовой технологией распознавания речи Google и оснащён профессиональными аудиовходами (XLR, TRS), благодаря которым умеет захватывать кристально чистый звук, способствующий точному транскрибированию. Наше решение для автоматического транскрибирования также включает в себя входы HDMI и SDI, встроенный экран для настройки и систему QR-кодов для удобной потоковой передачи. Это упрощает настройку автоматического транскрибирования и уменьшает количество точек отказа.

Статьи