Расшифровка аудио в текст нейросетью в 2024 — насколько качественно?

Как журналисту, мне приходится довольно много проводить времени за расшифровкой взятых интервью. Сказать, что мне это не нравилось – не сказать ничего! До сих пор считаю, что это самая неприятная часть работы в журналистике.

Разумеется, как и многие, я пробовала найти разные инструменты, чтобы облегчить эту задачу. Были и speechpad, и загрузка в YouTube с последующей выгрузкой субтитров. Все это несколько облегчало работу, но времени на исправление ошибок уходило практически столько же, сколько и расшифровка вручную.

Но недавно решила еще раз поискать программы транскрибации и была очень удивлена. Сервис расшифровки аудио и видео в текст Speech2Text показал потрясающие результаты: он не только отлично распознал речь в аудиозаписи, но и поделил текст на спикеров. Сервис использует нейросети для поиска участков речи и распознает в них слова, параллельно дополняя предложение знаками препинания.

Результат можно скачать в формате docx в виде обычного текста. Вот пример автоматически распознанного подкаста:

Юрий Мурадян: Привет-привет, Саша, привет! Очень рад тебя видеть И, конечно, тема животрепещущая, интересная И есть что о ней сказать именно с позиции тех, кто преподает.

Саша Рудко: Давай начнём, наверное, с причин, почему мы, люди обычные, бесконечно скупаем обучение. Одна из причин, которую я смогла придумать, это, возможно, что нам всё время кажется, что мы недостаточно хороши в чём-то или для чего-то. Правильна ли эта причина, и есть ли есть какие-то ещё?

Юрий Мурадян: Причин тут несколько. Она, конечно, может быть индивидуальна у каждого, но я хотел бы пойти сначала с фундамента. То, что ты сказал, это частный случай. Я думаю, что я не ок, и я решу эту проблему, закрою свой дефицит в уверенности в себе каким-то дополнительным дипломом. Да, но это лишь частный случай. Общая канва следующая, что у человека есть потребность познавать новое. Раньше у животных, ну и сейчас у животных, это связано с осваиванием новых территорий.

Как видите все на месте: на 99,9% корректная орфография и пунктуация. Спикеров можно переименовать, используя функционал сервиса.

Делать статью из такого документа — одно удовольствие. Теперь технологии действительно позволяют тратить всего 30-40 минут на часовое интервью!

Еще одна функция сервиса мне показалась очень полезной — интерактивный плеер с таймкодами. Некоторые участки иногда требуют дополнительного прослушивания и, нажимая на временную отметку, плеер автоматически играет запись именно с этого места:

Наверняка, многие подумают, что это стоит больших денег, но я убедилась, что это не так.

Во-первых, сервис дает бесплатные три часа расшифровки при регистрации — достаточно, чтобы попробовать самостоятельно и убедиться в качестве.

Во-вторых, стоимость после окончания бесплатного доступа очень демократичная — около 60 рублей за часовой аудио или видео материал. Для тех, у кого потребность в больших объемах, есть пакетные тарифы с еще более выгодными ценами.

Судя по информации на сайте, сервисом уже пользуются крупнейшие СМИ в России, что, наверное, не удивительно, учитывая сколько сил и времени он позволяет сэкономить.

В качестве заключения хотела бы сказать, что технологии меняют нашу жизнь вокруг и очень радостно, что они существенно меняют теперь и журналистику.


РЕКЛАМА

ООО «СОВРЕМЕННЫЕ РЕЧЕВЫЕ ТЕХНОЛОГИИ»

ИНН  9704223433

Токен 2Vtzqwr5fuf