• Что бы вступить в ряды "Принятый кодер" Вам нужно:
    Написать 10 полезных сообщений или тем и Получить 10 симпатий.
    Для того кто не хочет терять время,может пожертвовать средства для поддержки сервеса, и вступить в ряды VIP на месяц, дополнительная информация в лс.

  • Пользаватели которые будут спамить, уходят в бан без предупреждения. Спам сообщения определяется администрацией и модератором.

  • Гость, Что бы Вы хотели увидеть на нашем Форуме? Изложить свои идеи и пожелания по улучшению форума Вы можете поделиться с нами здесь. ----> Перейдите сюда
  • Все пользователи не прошедшие проверку электронной почты будут заблокированы. Все вопросы с разблокировкой обращайтесь по адресу электронной почте : info@guardianelinks.com . Не пришло сообщение о проверке или о сбросе также сообщите нам.

Система Deep Voice От Baidu Научилась Быстро Синтезировать Человеческую Речь

Sascha Оффлайн

Sascha

Заместитель Администратора
Оффлайн
Команда форума
Администратор
9 Май 2015
1,063
282
155
48
Китайская компания

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

систему, позволяющую преобразовывать написанный текст в человеческую речь, и делает она это лучше и быстрее, чем

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

от Google.

По словам компании, Deep Voice может научиться говорить всего за несколько часов, причем говорить достаточно естественно и реалистично.

Как работает эта система?


Инструмент WaveNet от Google тоже умеет синтезировать реалистичную человеческую речь, но для его использования требуется достаточно мощное железо, что затрудняет его использование в реальной жизни. Baidu решила данную проблему благодаря глубинному обучению. Deep Voice конвертирует текст в

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

, самые маленькие единицы речи. После этого система преобразует фонемы в звуки, используя сеть для синтеза речи. Например, слово «Hello» система преобразует в «(тишина, HH), (HH, EH), (EH, L), (L, OW), (OW, тишина)», после чего Deep Voice произносит слово.

Оба шага работают благодаря машинному обучению и не требуют вмешательства человека. Однако система не может определять, какие звуки находятся под ударением и как долго их произносить. Этим занимаются люди, переставляя звуки и фонемы, тем самым передавая выразительность речи.

Хотя Deep Voice и решила проблему WaveNet, ей по-прежнему требуется очень много вычислительной мощности. Для того, чтобы говорить как человек, компьютер должен генерировать слова за 20 микросекунд. В компании объяснили, что они стараются не синтезировать одни и те же слова по несколько раз. Вместо этого синтезированные слова хранятся в кэше процессора, что позволяет оптимально использовать вычислительные модули.


Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

.