Google разработала нейросеть, которая генерирует музыку в любом жанре из текстового описания. Специалисты Google Research представили нейросетевую модель MusicLM, которая генерирует «высококачественную» музыку на основе текстового описания. Примеры её работы можно услышать на специальной странице. https://google-research.github.io/seanet/musiclm/examples/ MusicLM обучена на наборе данных из 280 000 часов музыки. Нейросеть способна создать аудиокомпозицию в 24 кГц и в любом жанре, уловив описанные в аннотации нюансы: например, «динамичный и оптимистичный саундтрек аркадной игры с запоминающимся риффом электрогитары». Кроме того, MusicLM может объединить несколько последовательных аннотаций и создать «музыкальную историю», в которой один фрагмент перетекает в другой. А ещё модели можно задать уровень музыканта: например, на запросы «начинающий пианист» и «пианист-виртуоз» MusicLM выдаст совершенно разные результаты. Тем не менее, в некоторых представленных примерах заметно искажённое качество. Уязвимое место MusicLM — генерация вокала: в большинстве случаев синтезированная речь больше похожа на тарабарщину. https://rozetked.me/news/27459-goog...uzyku-v-lyubom-zhanre-iz-tekstovogo-opisaniya