Статьи

Пре­об­ра­зо­ва­ние речи в текст: че­ты­ре спо­со­ба

Те, кто пла­ни­ру­ет кон­фе­рен­ции, се­ми­на­ры и про­чие ме­ро­при­я­тия с на­ли­чи­ем зри­те­лей и слу­ша­те­лей, стал­ки­ва­ют­ся с рас­ту­щим спро­сом на транс­кри­би­ро­ва­ние, то есть суб­тит­ры в ре­аль­ном вре­ме­ни. В про­шлом такие суб­тит­ры были до­ро­го­сто­я­щим пред­ло­же­ни­ем, тре­бу­ю­щим от ор­га­ни­за­то­ров вклю­чать в бюд­жет ме­ро­при­я­тия рас­хо­ды на про­фес­си­о­наль­но­го транс­кри­бе­ра.

К сча­стью, до­сти­же­ния в об­ла­сти ав­то­ма­ти­че­ско­го пре­об­ра­зо­ва­ния речи в текст предо­ста­ви­ли более ши­ро­кий выбор спо­соб со­зда­ния суб­тит­ров в ре­аль­ном вре­ме­ни. Но как вы­брать наи­бо­лее под­хо­дя­щий вам ва­ри­ант? В этой ста­тье мы рас­ска­жем о плю­сах и ми­ну­сах че­ты­рёх раз­ных спо­со­бов:

1. На­нять транс­кри­бе­ра-че­ло­ве­ка

В про­шлом найм про­фес­си­о­наль­но­го транс­кри­бе­ра был един­ствен­ным ва­ри­ан­том для суб­тит­ров в ре­аль­ном вре­ме­ни. Этот под­ход пред­по­ла­га­ет че­ло­ве­ка, ко­то­рый на месте или уда­лён­но слу­ша­ет вы­ступ­ле­ние и на лету пре­об­ра­зу­ет его в текст.

У транс­кри­бе­ров есть свои пре­иму­ще­ства. Че­ло­век может может пра­виль­но разо­брать тихую или не со­всем внят­ную речь, в то время как си­сте­ма на ос­но­ве ис­кус­ствен­но­го ин­тел­лек­та может ока­зать­ся не в со­сто­я­нии до­стичь того же уров­ня точ­но­сти. Ме­ди­цин­ские, на­уч­ные или юри­ди­че­ские ме­ро­при­я­тия могут по­тре­бо­вать от транс­кри­бе­ра на­ли­чия опре­де­лён­ных про­фес­си­о­наль­ных зна­ний. Хотя опыт­ный спе­ци­а­лист может за­ра­нее про­ана­ли­зи­ро­вать от­рас­ле­вую тер­ми­но­ло­гию или сленг, с ко­то­ры­ми ему при­дёт­ся столк­нуть­ся.

Но транс­кри­бе­ры-люди могут силь­но раз­ли­ча­ют­ся по ка­че­ству и на­дёж­но­сти. Тот, кто рас­шиф­ро­вы­ва­ет одну 20-ми­нут­ную речь, может быть очень точ­ным, но этот по­ка­за­тель точ­но­сти может из­ме­нить­ся, если при­дёт­ся за­пи­сы­вать че­ты­ре часа лек­ций. Точно так же этот транс­кри­бер может быть вы­ве­ден из строя из-за неожи­дан­ной бо­лез­ни или лич­ных чрез­вы­чай­ных си­ту­а­ций. На­ко­нец, не все транс­кри­бе­ры имеют обо­ру­до­ва­ние, необ­хо­ди­мое для об­ме­на суб­тит­ра­ми в ре­жи­ме ре­аль­но­го вре­ме­ни. По­ми­мо того, что вы за­бро­ни­ру­е­те кого-то с обо­ру­до­ва­ни­ем, ко­то­рое может под­клю­чить­ся к аудио-видео обо­ру­до­ва­нию, вам, ско­рее всего, при­дёт­ся найти спо­соб транс­ля­ции рас­шиф­ров­ки речи в ре­жи­ме ре­аль­но­го вре­ме­ни.

Цена:

Силь­но ко­леб­лет­ся и может до­хо­дить до де­сят­ков дол­ла­ров в час в слу­чае самых опыт­ных и ква­ли­фи­ци­ро­ван­ных транс­кри­бе­ров. В слу­чае дли­тель­ных ме­ро­при­я­тий при­дёт­ся также опла­чи­вать сверх­уроч­ную ра­бо­ту, что ещё боль­ше уве­ли­чи­ва­ет рас­хо­ды.

ЗА

  • Люди лучше по­ни­ма­ют звук низ­ко­го ка­че­ства
  • Опыт­ные транс­кри­бе­ры лучше ра­бо­та­ют с от­рас­ле­вы­ми тер­ми­на­ми, слен­гом или нефор­маль­ный язы­ком

ПРО­ТИВ

  • До­ро­го, осо­бен­но со спе­ци­а­ли­зи­ро­ван­ны­ми на­вы­ка­ми
  • Пе­ре­мен­ная на­дёж­ность
  • Вывод суб­тит­ров на ауди­то­рию по­тре­бу­ет от­дель­но­го обо­ру­до­ва­ния
  • Низ­кая до­ступ­ность, вы­со­кий спрос
Вывод:

Несо­мнен­но, есть слу­чаи, где тре­бу­ет­ся транс­кри­бер-че­ло­век, но цена может ока­зать­ся непо­мер­но вы­со­кой. Вы­со­кий спрос на услу­ги транс­кри­би­ро­ва­ния в ре­аль­ном вре­ме­ни толь­ко про­дол­жа­ет по­вы­шать эту цену, и это может озна­чать, что про­фес­си­о­наль­ный транс­кри­бер ока­жет­ся недо­сту­пен на время ва­ше­го ме­ро­при­я­тия.

2. Ку­пить ап­па­рат­ное ре­ше­ние

Не так давно на рынке по­яви­лись спе­ци­а­ли­зи­ро­ван­ные устрой­ства для ав­то­ма­ти­че­ско­го транс­кри­би­ро­ва­ния. Устрой­ство вклю­ча­ет в себя си­сте­му за­хва­та и за­пи­си звука, пре­об­ра­зо­ва­ния речи в текст в ре­жи­ме ре­аль­но­го вре­ме­ни и вы­во­да этого тек­ста на экран. Как пра­ви­ло, эти устрой­ства под­клю­ча­ют­ся на­пря­мую к ло­каль­но­му ис­точ­ни­ку звука, что обес­пе­чи­ва­ет мак­си­маль­но воз­мож­ное звука, что улуч­ша­ет рас­по­зна­ва­ние, а также имеют стан­дарт­ный ви­део­вы­ход для вы­во­да ре­зуль­та­та на внеш­ние мо­ни­то­ры.

Спе­ци­а­ли­зи­ро­ван­ное устрой­ство также устра­ня­ет воз­мож­ные «точки от­ка­за», при­сут­ству­ю­щие в ре­ше­ни­ях для ав­то­ма­ти­че­ско­го транс­кри­би­ро­ва­ния, что опи­ра­ют­ся на обыч­ный ком­пью­тер или мо­биль­ное устрой­ство. Ап­па­рат­ный транс­кри­бер не вы­даст в самый непод­хо­дя­щий мо­мент «синий экран смер­ти», не нач­нёт сиг­на­ли­зи­ро­вать о по­лу­че­нии со­об­ще­ний во время важ­ной пре­зен­та­ции.

Спе­ци­аль­но раз­ра­бо­тан­ное ап­па­рат­ное ре­ше­ние будет также вклю­чать до­пол­ни­тель­ные функ­ции в за­ви­си­мо­сти от раз­ра­бот­чи­ка обо­ру­до­ва­ния. LiveScrypt, соб­ствен­ное ре­ше­ние Epiphan Video для ав­то­ма­ти­че­ско­го транс­кри­би­ро­ва­ния в ре­аль­ном вре­ме­ни, под­дер­жи­ва­ет более чем 30 язы­ков и диа­лек­тов. Оно ​​вклю­ча­ет в себя до­пол­ни­тель­ные функ­ции, такие как филь­тры ненор­ма­тив­ной лек­си­ки или на­строй­ку фор­ма­та, раз­ме­ра и оформ­ле­ния вы­во­ди­мо­го тек­ста, чтобы обес­пе­чить его мак­си­маль­ную раз­бор­чи­вость на под­клю­чён­ных мо­ни­то­рах.

По­доб­ные устрой­ства имеют более вы­со­кую на­чаль­ную сто­и­мость, вы­ра­жен­ную в цене са­мо­го обо­ру­до­ва­ния. Для неко­то­рых эта цена может быть слиш­ком вы­со­кой, но в слу­чае ор­га­ни­за­ций и людей, нуж­да­ю­щи­е­ся в ре­гу­ляр­ном транс­кри­би­ро­ва­ние, эти за­тра­ты до­ста­точ­но быст­ро оку­пят­ся.

При­ме­ра­ми могут слу­жить кол­ледж или уни­вер­си­тет, на­ме­ре­ва­ю­щий­ся снаб­дить суб­тит­ра­ми несколь­ко лек­ций в день, или ор­га­ни­за­тор кон­фе­рен­ций, ко­то­ро­му нужно транс­кри­би­ро­вать де­сят­ки вы­сту­па­ю­щих на каж­дом ме­ро­при­я­тии, что он устра­и­ва­ет. Даже с учё­том вы­со­кой сто­и­мо­сти са­мо­го обо­ру­до­ва­ния, по­ча­со­вая сто­и­мость транс­кри­би­ро­ва­ния по­лу­чит­ся на­мно­го ниже сто­и­мо­сти услуг про­фес­си­о­наль­ных транс­кри­бе­ров.

Цена:

Ва­рьи­ру­ет­ся. Люди и ор­га­ни­за­ции, по­ку­па­ю­щие спе­ци­а­ли­зи­ро­ван­ные устрой­ства, долж­ны будут опла­тить как само обо­ру­до­ва­ние, так и рас­хо­ды об­лач­но­го сер­ви­са транс­кри­би­ро­ва­ния. Од­на­ко сто­и­мость этих услуг по-преж­не­му на­мно­го ниже сто­и­мо­сти найма транс­кри­бе­ра, и со­от­но­ше­ние цены и ка­че­ства улуч­ша­ет­ся с уве­ли­че­ни­ем ис­поль­зо­ва­ния обо­ру­до­ва­ния.

ЗА

  • До­ступ­ность
  • На­дёж­ность
  • Ско­рость
  • Аудиов­хо­ды про­фес­си­о­наль­но­го уров­ня
  • Стан­дарт­ный ви­део­вы­ход для вы­во­да ре­зуль­та­та на экран
  • Про­стая на­строй­ка

ПРО­ТИВ

  • Вы­со­кие на­чаль­ные за­тра­ты
Вывод:

Спе­ци­а­ли­зи­ро­ван­ные устрой­ства яв­ля­ют­ся наи­бо­лее под­хо­дя­щим ва­ри­ан­том в слу­чае необ­хо­ди­мо­сти транс­кри­би­ро­ва­ния боль­шо­го ко­ли­че­ства вы­ступ­ле­ний.

3. Ис­поль­зо­вать об­лач­ное ре­ше­ние для транс­кри­би­ро­ва­ния

Такие сер­ви­сы, как Google Speech-to-Text, Amazon Transcribe и IBM Watson Speech to Text, ис­поль­зу­ют очень по­хо­жую тех­но­ло­гию для пре­об­ра­зо­ва­ния речи в текст. Если ко­рот­ко, эти служ­бы ав­то­ма­ти­че­ско­го транс­кри­би­ро­ва­ния при­ни­ма­ют циф­ро­вой аудио­сиг­нал, раз­би­ва­ют этот его на более мел­кие сег­мен­ты звука и срав­ни­ва­ют эти сег­мен­ты (также на­зы­ва­е­мые фо­не­ма­ми) с су­ще­ству­ю­щей базой дан­ных. Когда сов­па­де­ние най­де­но, служ­ба опре­де­ля­ет, какое слово фор­ми­ру­ют эти фо­не­мы, и воз­вра­ща­ет ре­зуль­тат в виде тек­ста.

Этот про­цесс обыч­но тре­бу­ет боль­ших вы­чис­ли­тель­ных мощ­но­стей, по­это­му эти служ­бы ис­поль­зу­ют об­лач­ные вы­чис­ле­ния для по­лу­че­ния быст­рых ре­зуль­та­тов. Точ­ность рас­по­зна­ва­ния речи си­сте­ма­ми с под­держ­кой ис­кус­ствен­но­го ин­тел­лек­та уже со­по­ста­ви­ма с транс­кри­бе­ра­ми-лю­дь­ми, и раз­рыв между ними стре­ми­тель­но со­кра­ща­ет­ся.

Сто­и­мость этих услуг также зна­чи­тель­но ниже, чем ра­бо­та с про­фес­си­о­наль­ным транс­кри­бе­ром, что де­ла­ет их при­вле­ка­тель­ны­ми для про­дол­жи­тель­ных ме­ро­при­я­тий с мно­го­ча­со­вы­ми вы­ступ­ле­ни­я­ми, а также для ор­га­ни­за­ций, про­во­дя­щих много таких ме­ро­при­я­тий.

Низ­кая цена также озна­ча­ет, что вы смо­же­те обес­пе­чить суб­тит­ра­ми в ре­аль­ном вре­ме­ни всё ме­ро­при­я­тие. Ор­га­ни­за­тор кон­фе­рен­ции, ис­поль­зу­ю­щий про­фес­си­о­наль­но­го транс­кри­бе­ра, может быть вы­нуж­ден по бюд­жет­ным при­чи­нам огра­ни­чить­ся суб­тит­ра­ми лишь к од­но­му или двум ос­нов­ным вы­ступ­ле­ни­ям. Но за неболь­шую часть этой цены, служ­ба ав­то­ма­ти­че­ской тран­скрип­ции может снаб­дить суб­тит­ра­ми все вы­ступ­ле­ния – от пер­во­го и до по­след­не­го слова.

Но об­лач­ные сер­ви­сы также тре­бу­ют опре­де­лён­ной ком­пью­тер­ной ком­пе­тент­но­сти, ко­то­рая вы­хо­дит за рамки мно­гих ор­га­ни­за­ций. Эти сер­ви­сы обес­пе­чи­ва­ют пре­об­ра­зо­ва­ние циф­ро­во­го звука в текст, но для на­ча­ла этот циф­ро­вой звук надо по­лу­чить и от­пра­вить сер­ви­су, что тре­бу­ет на­ли­чия ко­ди­ров­щи­ка. То есть по­тре­бу­ет­ся ло­каль­ная кон­соль, на­при­мер, пер­со­наль­ный ком­пью­тер, ко­то­рый может пре­об­ра­зо­вы­вать ана­ло­го­вый аудио­сиг­нал в циф­ро­вой, от­прав­лять этот сиг­нал в об­ла­ко, по­лу­чать от­ту­да ре­зуль­тат и как-то вы­во­дить его на экран.

Но боль­шин­ство пер­со­наль­ных ком­пью­те­ров не имеют вхо­дов для аудио­сиг­на­ла про­фес­си­о­наль­но­го уров­ня, на­при­мер, XLR. Это про­бле­ма ре­ша­ет­ся с по­мо­щью до­пол­ни­тель­ной встро­ен­ной или внеш­ней зву­ко­вой карты, но это услож­ня­ет си­сте­му и уве­ли­чи­ва­ет её сто­и­мость, не го­во­ря о про­бле­мах с на­строй­кой та­ко­го обо­ру­до­ва­ния.

Цена:

Среди самых до­ступ­ных ва­ри­ан­тов цены ва­рьи­ру­ют­ся от $0.96 в час для Google Text-to-Speech до $1,44 в час для Amazon Transcribe. Цена также может сни­зить­ся с объ­ё­мом. На­при­мер, IBM пред­ла­га­ет скид­ки для поль­зо­ва­те­лей, ко­то­рым необ­хо­ди­мо транс­кри­би­ро­вать более 250 000 минут, 500 000 минут или один мил­ли­он минут речи.

Вам также по­на­до­бит­ся от­дель­ный ком­пью­тер, чтобы от­прав­лять аудио в об­ла­ко, по­лу­чать тран­скрип­цию и де­лить­ся ею со своей ауди­то­ри­ей.

ЗА

  • Бюд­жет­ный
  • Вы­со­кая на­дёж­ность
  • Точ­ность
  • Ско­рость

ПРО­ТИВ

  • Слож­ность на­строй­ки
  • Тре­бу­ет­ся ло­каль­ный ин­тер­фейс для ис­поль­зо­ва­ния об­лач­но­го сер­ви­са
  • Тре­бу­ет­ся вы­де­лен­ный ком­пью­тер, воз­мож­но с рас­ши­рен­ны­ми воз­мож­но­стя­ми
Вывод:

Низ­кая сто­и­мость де­ла­ет этот ва­ри­ант при­вле­ка­тель­ным, но об­лач­ные сер­ви­сы всё ещё по­ла­га­ют­ся на то, что вы сами най­дё­те спо­соб в ре­аль­ном вре­ме­ни под­го­то­вить и от­пра­вить аудио, а затем вы­ве­сти ре­зуль­тат на экран. До­пол­ни­тель­ные слож­но­сти, свя­зан­ные с по­ис­ком ло­каль­ной кон­со­ли, спо­соб­ной сде­лать это, могут сде­лать этот ва­ри­ант неудоб­ным для людей и ор­га­ни­за­ций, ко­то­рые ищут мак­си­маль­но про­стой спо­соб до­бав­лять суб­тит­ры в ре­аль­ном вре­ме­ни.

4. Найти про­грам­му для пре­об­ра­зо­ва­ния речи в текст

Про­грам­мы для рас­по­зна­ва­ния речи, на­при­мер, для мо­биль­ных устройств, имеют мно­же­ство эф­фек­тив­ных при­ме­не­ний, но они огра­ни­че­ны ап­па­рат­ным обес­пе­че­ни­ем, к ко­то­ро­му они при­вя­за­ны. Смарт­фо­ны и план­ше­ты огра­ни­че­ны ём­ко­стью хра­не­ния и об­ра­бот­ки, а ка­че­ство мик­ро­фо­на может очень силь­но ва­рьи­ро­вать­ся. Так что их при­ме­не­ние в боль­шин­стве слу­ча­ев огра­ни­чи­ва­ет­ся транс­кри­би­ро­ва­ни­ем раз­го­во­ра один на один или неболь­шо­го со­бра­ния, а не боль­шой лек­ции, в зале, где го­во­ря­щий может на­хо­дить­ся да­ле­ко от транс­кри­би­ру­ю­ще­го те­ле­фо­на.

Ре­ше­ния на ос­но­ве таких про­грамм также за­ви­сят от того, какие функ­ци­о­наль­ные воз­мож­но­сти преду­смот­ре­ны их раз­ра­бот­чи­ка­ми. Более по­пу­ляр­ные при­ло­же­ния будут ре­а­ги­ро­вать на по­треб­но­сти поль­зо­ва­те­лей, так как раз­ра­бот­чи­ки ре­гу­ляр­но вы­пус­ка­ют об­нов­ле­ния, чего не ска­жешь о про­грам­мах, раз­ра­бо­тан­ных неза­ви­си­мы­ми фир­ма­ми или от­дель­ны­ми поль­зо­ва­те­ля­ми, ко­то­рые могут про­сто пре­кра­тить под­держ­ку про­дук­та.

Вам также по­тре­бу­ет­ся найти спо­соб по­де­лить­ся рас­шиф­ров­кой вы­ступ­ле­ния с ауди­то­ри­ей. Но смарт­фо­ны и план­ше­ты, спо­соб­ные ис­поль­зо­вать эти при­ло­же­ния, обыч­но не пред­на­зна­че­ны для вы­во­да ви­део­сиг­на­ла. Так что от­прав­ка рас­шиф­ров­ки на боль­шой экран по­тре­бу­ет се­рьёз­ных до­пол­ни­тель­ных уси­лий. Кроме того, ре­ше­ния, ис­поль­зу­ю­щие смарт­фон, уяз­ви­мы для неожи­дан­ных те­ле­фон­ных звон­ков, СМС и со­об­ще­ний мес­сен­дже­ров, а также об­нов­ле­ний про­грамм­но­го обес­пе­че­ния.

Цена:

Ва­рьи­ру­ет­ся. Мно­гие при­ло­же­ния бес­плат­ны для от­дель­ных поль­зо­ва­те­лей, но тре­бу­ют, чтобы вы пла­ти­ли за еже­ме­сяч­ный или по­ми­нут­ный та­риф­ный план после пре­вы­ше­ния опре­де­лён­но­го ко­ли­че­ства минут. Неко­то­рые сер­ви­сы имеют ме­сяч­ный лимит минут, ко­то­рый может стать ре­ша­ю­щим фак­то­ром для тех, кому тре­бу­ют­ся боль­шие объ­ё­мы транс­кри­би­ро­ва­ния.

ЗА

  • За­хват аудио уже встро­ен
  • Про­стая на­строй­ка

ПРО­ТИВ

  • До­ро­го
  • Ка­че­ство звука ва­рьи­ру­ет­ся, влияя на точ­ность транс­кри­би­ро­ва­ния
  • Огра­ни­че­ния, свя­зан­ные с ап­па­рат­ным обес­пе­че­ни­ем смарт­фо­на или план­ше­та
  • Под­держ­ка за­ви­сит от раз­ра­бот­чи­ка про­грам­мы
  • Неко­то­рые про­грам­мы имеют ли­ми­ты по вре­ме­ни
  • Нет про­сто­го спо­со­ба вы­ве­сти рас­шиф­ров­ку на внеш­ний экран
Вывод:

Сто­и­мость от­но­си­тель­но низ­кая, ка­че­ство транс­кри­би­ро­ва­ния, как пра­ви­ло, до­воль­но вы­со­кое. Но труд­но­сти с по­лу­че­ни­ем аудио и вы­во­дом ре­зуль­та­та на ши­ро­кую ауди­то­рию де­ла­ет это ре­ше­ние не самым под­хо­дя­щим для ор­га­ни­за­то­ров боль­ших ме­ро­при­я­тий.

Самый про­стой спо­соб

Толь­ко вы смо­же­те опре­де­лить, какое из этих ре­ше­ний лучше всего под­хо­дит для ва­ше­го ме­ро­при­я­тия. Неболь­шие ме­ро­при­я­тия могут без про­блем ис­поль­зо­вать при­ло­же­ние для смарт­фо­на, в то время как более опыт­ным поль­зо­ва­те­лям может по­дой­ти со­зда­ние ком­пью­те­ра с про­фес­си­о­наль­ны­ми аудиов­хо­да­ми для ис­поль­зо­ва­ния об­лач­но­го ре­ше­ния.

Тем не менее, до­пол­ни­тель­ные функ­ци­о­наль­ные воз­мож­но­сти, встро­ен­ные в спе­ци­а­ли­зи­ро­ван­ные устрой­ства, озна­ча­ют, что ор­га­ни­за­то­рам, ко­то­рые хотят ре­гу­ляр­но обес­пе­чи­вать свои ме­ро­при­я­тия суб­тит­ра­ми в ре­аль­ном вре­ме­ни, обя­за­тель­но стоит взгля­нуть на этот ва­ри­ант.

LiveScrypt пред­на­зна­чен для транс­кри­би­ро­ва­ния в ре­аль­ном вре­ме­ни ши­ро­ко­го спек­тра ме­ро­при­я­тий, обес­пе­чи­ва­ет под­держ­ку более 30 язы­ков и пред­ла­га­ет до­пол­ни­тель­ные функ­ции, такие как, на­при­мер, фильтр ненор­ма­тив­ной лек­си­ки, а также за­пись рас­шиф­ров­ки в тек­сто­вой файл или файл с раз­мет­кой по вре­ме­ни.

LiveScrypt также под­дер­жи­ва­ет­ся раз­ра­бот­чи­ка­ми Epiphan и соб­ствен­ной груп­пой тех­ни­че­ской под­держ­ки, обес­пе­чи­вая по­сто­ян­ное со­зда­ние новых об­нов­ле­ний и ре­ше­ние про­блем, с ко­то­ры­ми вы стал­ки­ва­е­тесь. LiveScrypt про­сто на­стро­ить и им про­сто управ­лять, что сво­дит к ми­ни­му­му все тех­но­ло­ги­че­ский слож­но­сти обес­пе­че­ния транс­кри­би­ро­ва­ния ва­ше­го ме­ро­при­я­тия.



Последние статьи

Подпишитесь на нашу рассылку, чтобы узнавать о новых статьях:
Ваше имя:*

Ваш e-mail:*
Все статьи

!-- -->