Яндекс.Метрика

Мастерская

Yandex-SpeechKit

Применение технологий синтеза
и распознавания речи в Linux Mint 19

Средства для транскрибации и озвучивания текста.


Звук и текст
Голос в текст, и наоборот.




  Для работы с описываемыми средствами требуется операционная система Linux Mint или Ubuntu. Должны быть установлены:

- Текстовый редактор Xed или Gedit, Pluma, или подобный. В нём записывается текст.
- Плеер аудио и видео файлов MPV. Другие плееры не предоставлят соответствующих удобств.
- Пакет ffmpeg. С его помощью выполняюися все необходимые действия над файлами, такие как разрезание файлов на минутные порции, преобразование форматов аудио, извлечение аудио из видео.
- Офисный текстовый процессор для заключительного оформления текста. Автор применяет LibreOffice Writer.

  До оформления файла вся работа ведётся в окне эмулятора терминала. Все операции по подготовке файлов и извлечению текста, а также передача файлов и текста в сервисы Яндекса выполняется автоматически.

- Необходимо иметь регистрацию в ЯндексОблаке.
- После регистрации доступны необходимые для работы FolderID и OAuthToken. Эти токены необходимо внести в файлы скриптов (кроме плеера) в раздел "авторизация".

  Скрипты автоматически получают IamToken каждый раз, когда это необходимо. Пользователю в процессе работы не надо заходить на сайт Облака ни для чего, кроме проссмотра статистики расходов. Расходы за счёт автоматизации работы оптимизируются по сравнению с ручной работой в Облаке, и скорее всего не станут обременительными для пользователя.

  При отсутствии статьи о скрипте (они в процессе подготовки) В самом скрипте достаточно информации для опытного пользователя.

  Возможно, что вам потребуется предварительная обработка аудио. В этом окажет помощь программа Audacity. Лучше её установит заранее.
  Может быть, в некоторых случаях окажется полезной программа Аудиоконвертер (soundconverter).

  Все программы устанавливаются штатными средствами системы.
 





1 Плеер. Скрипт для запуска сеанса просмотра и прослушивания источников голоса.
Запуск выполняется из каталога, где лежит аудио или видео. Каталог открывается в терминале, далее вводится команда:
./player 00:00:00 - это имя скрипта, если вы его не изменили, и нулевая метка времени hh:mm:ss.




Ссылка на статью и файл



2 Скрипт для преобразования текста в речь. Одним действием позволяет выполнить черновое преобразование текта в речь. Далее возможна работа над тектом для улучшения его звучания.
Запуск выполняется из каталога где лежит текст и куда будет сохранен аудиофайл. Каталог открывается в терминале, далее вводится команда:
./opus_ogg_text_out  X Y - это имя скрипта, если вы его не изменили, и нномера начальной и конечной строки текста из необходимого интервала. Или номер первой (1) и последней строки текста в файле. Дополнительные параметры для изменения голоса и темпа подскажет сам скрипт при запуске. Если будет введён четвёртый параметр в виде любой цифры, по окончании перевода текста в аудио будет включено его воспроизведение.




Ссылка на статью и файл



3 Скрипт для преобразования речи из аудио-файла в текст. Одним действием позволяет выполнить черновое распознавание голоса и преобразование его в текст. Чем выше качество записи, тем меньше впоследствии приходится корректировать текст. Но в любом случае очень ускоряет работу по расшифровке или созданию субтитров. Каталог открывается в терминале, далее вводится команда:
./string_to_speech_out  имя файла (audio.mp3) . Аудио извлекается из видео, и преобразуется в формат opus, и фрагментами по одной минуте распознаётся. Тект окажется в файле result.txt. Чем чище голос, тем качественнее выполняется перевод. Фоновая музыка приводит ошибке распознавания и такой фрагмент помечается сообщением об ошибке. В качестве контрольного файла-примера можно использовать файл Kashtanka.mp3. Этот файл создан из текста при помощи ./opus_ogg_text_out.




Ссылка на статью и файл




Статья об интеграции AppImage в систему linux. Рассматривается интеграция программы Musescore, которая по сути является синтезатором музыки из нотного текста. Статья здесь.




       Принимаю заказы на транскрибацию и преобразование текста в речь.

       Транскрибация от 15 руб/1 минута. Цена зависит от объёма, качества голоса и срочности.

       Текст в речь 
50 руб плюс 1руб/100 символов текста без пробелов (приблизительно 500 руб. / час речи.). Выполняется подбор голоса, интонации, темпа речи, корректируется произношение.

       Пример озвученного текста - первая глава рассказа А.П. Чехова Каштанка. Стоимость подобной работы от 200  руб.




Вопросы и заказы принимаются по Email:
tx-mm@mail.ru
Обсуждения деталей возможны по
Skype или WatsApp.