Обо всём
Посторонние разработчики получили доступ к технологии по синтезу речи от Google
- Ольга Филипова
Google добавила возможность доступа к своей технологии по переводу печатного текста в аудио. Если использовать Google Cloud Platform, у создателей приложений появится возможность пользования синтеза речи, чтобы внедрять функцию автоответчика, вместе с озвучиванием любого из текстов. У разработчиков есть выбор из 32 голосов и двенадцати языков.
В настройках есть возможность корректировки тембра, скорости и громкости. Существует возможность поддержки разных форматов аудио, вместе с MP3 и WAV. Основой технологии является обновленная версия WaveNet, по этой причине авторы уверены в сбалансированном звучании даже непростого текста. С помощью облачного процессора Google TPU, происходит генерация искусственной речи в 1000 раз быстрее: 1 секунда текста, который воспроизводится, создается за 50 миллисекунд.
Чтобы достичь более природного звучания, показатель качества звуковых сэмплов увеличен с 8 до 16 бит. Чтобы оценить качество речи, привлекли добровольцев. Все эти аудиозаписи смогли получить в среднем 4,1 балла. При этом, даже голос живого человека оценили максимум на 4,59 баллов из 5. Цена сервиса связана с объемом работы: стоимость стандартной системы озвучивания — 4 $ за каждый 1 млн. из озвученных символов, а WaveNet — 16 $. Подробности о технологии доступны в документации.
Ранее сообщалось, что фирма Baidu провела обновление Deep Voice — системы, которая служит для преобразования обычного текста в речь человека. Обновленная версия может в быстром режиме создавать электронные копии человеческих голосов, включая изменение женского тембра на мужской, и наоборот.
Для синтезирования голоса, ей потребуется изучение записей с речью реального человека, с учетом манеры произношения. Начальную версию системы разработали в начале прошлого года. Она смогла работать быстрее, чем Google WaveNet, для смены которой в декабре была выпущена Tacotron 2.