Czy Google MusicLM spełnia oczekiwania?

Czy Google MusicLM spełnia oczekiwania?
Czytelnicy tacy jak ty pomagają wspierać MUO. Kiedy dokonujesz zakupu za pomocą linków na naszej stronie, możemy otrzymać prowizję partnerską. Czytaj więcej.

W styczniu 2023 roku Google ogłosił MusicLM, eksperymentalne narzędzie AI, które może generować muzykę na podstawie opisów tekstowych. Wraz z wiadomościami Google opublikował oszałamiający artykuł badawczy dla MusicLM, który pozostawił wiele osób oszołomionych możliwością wyczarowania muzyki z powietrza.





WYKORZYSTAJ WIDEO DNIA PRZEWIŃ, ABY KONTYNUOWAĆ TREŚĆ

Otrzymawszy monit tekstowy, model obiecał produkować muzykę o wysokiej wierności, która zawierała wszelkiego rodzaju opisy, od gatunku, przez instrument, po abstrakcyjne podpisy opisujące słynne dzieła sztuki. Teraz, gdy MusicLM jest otwarty dla publiczności, postanowiliśmy go przetestować.





Próba Google stworzenia generatora muzyki AI

  Aplikacja internetowa dla Google's MusicLM AI music generator

Przekształcenie zachęty tekstowej, takiej jak „relaksujący jazz”, w utwór gotowy do odtworzenia, jest prawdopodobnie świętym Graalem eksperymentów w muzyce AI. Podobnie jak w przypadku słynnych generatorów obrazów AI, takich jak Dall-E lub Midjourney, nie musisz mieć odrobiny muzycznego know-how, aby stworzyć utwór, który ma melodię i rytm.





W maju 2023 r. ci, którzy zarejestrowali się w Google AI Test Kitchen, mogli po raz pierwszy wypróbować wersję demonstracyjną. Powitana przez przyjazną dla użytkownika stronę internetową i kilka zasad przewodnich — instrumenty elektroniczne i klasyczne działają najlepiej i nie zapomnij określić „wibracji” — wyprodukowanie fragmentu muzyki jest niewyobrażalnie łatwe.

Szybkość jest jedną z niewielu rzeczy, które MusicLM naprawdę zapewnia, obok próbek o stosunkowo wysokiej wierności. Jednak prawdziwego testu nie można było zmierzyć samym stoperem. Czy MusicLM może stworzyć prawdziwą, słuchalną muzykę opartą na kilku słowach? Niezupełnie (za chwilę do tego dojdziemy).



Jak korzystać z MusicLM w kuchni testowej sztucznej inteligencji Google

Korzystanie z MusicLM jest łatwe, możesz zapisać się na listę oczekujących Kuchnia testowa sztucznej inteligencji Google jeśli chcesz spróbować.

W aplikacji internetowej zobaczysz pole tekstowe, w którym możesz skomponować podpowiedź od kilku słów do kilku zdań opisujących rodzaj muzyki, której chcesz słuchać. Aby uzyskać najlepsze wyniki, Google radzi, aby „być bardzo opisowym”, dodając, że powinieneś spróbować uwzględnić nastrój i emocje związane z muzyką.





Kiedy będziesz gotowy, naciśnij Enter, aby rozpocząć przetwarzanie. W ciągu około 30 sekund dwa fragmenty audio będą dostępne do przesłuchania. Z tych dwóch masz możliwość przyznania trofeum najlepszej próbce, która pasuje do Twojego monitu, co z kolei pomaga Google trenować model i poprawiać jego wyniki.

co się stało z projektem cichego miejsca?

Jak brzmi MusicLM

Ludzie tworzą muzykę od co najmniej 40 000 lat temu, nie mając ostatecznego pojęcia, czy muzyka pojawiła się przed, po, czy w tym samym czasie co rozwój języka. Więc pod pewnymi względami nie jest zaskakujące, że MusicLM nie do końca złamał kod tej starożytnej uniwersalnej sztuki.





Artykuł badawczy Google MusicLM zasugerował, że MusicLM może generować muzykę z podpisów należących do znanych dzieł sztuki i postępować zgodnie z instrukcjami, takimi jak zmiana gatunku lub nastroju w płynny sposób, po sekwencji różnych podpowiedzi.

Zanim jednak przystąpiliśmy do tak wysokich zamówień, odkryliśmy, że MusicLM miał kilka podstawowych problemów do pokonania.

Trudność w utrzymaniu tempa

Najbardziej podstawowym zadaniem każdego muzyka jest po prostu granie w czasie. Innymi słowy, trzymaj się tempa. Co zaskakujące, nie jest to coś, co MusicLM może zrobić w 100% przypadków.

W rzeczywistości, używając tego samego monitu 10 razy, co daje 20 utworów muzycznych, tylko trzy zmieściły się w czasie. Pozostałe 17 sampli było szybszych lub wolniejszych niż określone tempo zapisane w „uderzeniach na minutę”, powszechnie używanym określeniu muzyki.

W tym przykładzie użyliśmy podpowiedzi „solowy fortepian klasyczny grany z prędkością 80 uderzeń na minutę, spokojny i medytacyjny”. Przy bliższym słuchaniu muzyka często przyspieszała lub zwalniała na małej długości próbki.

W muzyce również brakowało mocnego beatu i brzmiało to tak, jakby ktoś włączył odtwarzanie w połowie utworu. Niezależnie od tego, czy było to zamierzone, czy nie, trudno jest ocenić, czy MusicLM może rzeczywiście skomponować właściwy początek lub koniec utworu muzycznego oprócz trzymania się rytmu.

Losowy wybór instrumentu

Być może MusicLM nie nauczył się jeszcze grać w ścisłym timingu, więc przeszliśmy do innego wspólnego parametru muzycznego. Chcieliśmy zobaczyć, czy spełni naszą prośbę o niektóre instrumenty.

zamień stary telefon w tracker GPS

Napisaliśmy kilka różnych podpowiedzi, które zawierały opisy, takie jak „Solo syntezator” i „Solo gitara basowa”. Inne to większe zespoły, takie jak „Kwartet smyczkowy” czy „Zespół jazzowy”. Ogólnie rzecz biorąc, wydawało się, że szansa na uzyskanie tego, o co prosiłeś, wynosi 50:50.

Jedna z teorii głosi, że model kojarzy niektóre instrumenty z popularnymi gatunkami muzycznymi. Weźmy na przykład monit „Solo syntezator, progresja akordów. Żywy i optymistyczny”. Zamiast samodzielnie uzyskać dźwięk syntezatora, MusicLM wyprodukował elektroniczny utwór wraz z perkusją i basem.

Możliwe, że model po prostu nie miał wystarczającej ilości danych i wystarczającego szkolenia, aby zrozumieć konkretne żądanie dotyczące instrumentu.

Wokale są poza równaniem

Zgodnie z ówczesnymi ograniczeniami model nie mógł produkować muzyki zawierającej wokale. Drażliwe problemy z prawami autorskimi MusicLM i wadliwy wokal jest prawdopodobnym czynnikiem powodującym, że Google zdecydowało się zachować ostrożność, ustawiając to ograniczenie.

Ale po pewnym czasie eksperymentowania z MusicLM zdaliśmy sobie sprawę, że kontrola Google nad danymi wyjściowymi modelu nie była do końca żelazna. Co dziwne, monit w rodzaju „gitara akustyczna” wytworzyłby utwór zawierający w tle przypominający duchy wokal, który brzmiał stłumiony i odległy.

Chociaż nie jest to częste zjawisko, zastanawiasz się przede wszystkim nad zdolnością MusicLM do tworzenia przekonujących wokali.

Dzięki oprogramowaniu, takiemu jak VOCALOID i Synthesizer V, które wiodą prym Technologia syntezy wokalnej wspomagana sztuczną inteligencją , pomijając wokale z obecnego modelu, zastanawiamy się, czy nie jest on jeszcze wystarczająco dobry, aby konkurować z istniejącą technologią. MusicLM może mieć długą drogę do przebycia, zanim muzycy będą śpiewać jego pochwały.

Przyszłość generatorów muzycznych AI

  Różne podpowiedzi w MusicLM's web application

Chociaż MusicLM posunął naprzód generatywną technologię muzyczną AI, musi wrócić do szkoły i nauczyć się jeszcze kilku rzeczy, zanim będzie mógł podjąć praktyczną pracę w branży muzycznej.

Do tej pory najlepszą próbą generatywnej muzyki AI był model o nazwie JukeboxAI firmy OpenAI. Nie był dokładnie w stanie gotowym do użycia, a wyrenderowanie zaledwie jednej minuty muzyki zajęło aż dziewięć godzin.

W zamian za swoje wysiłki prawdopodobnie odzyskałeś prawdziwie obco brzmiący utwór pełen zniekształceń i artefaktów. Z drugiej strony nie zamierzałeś się nudzić słuchając dziwacznych kreacji, które wyczarowuje Jukebox .

W świetle tego MusicLM poczynił znaczące postępy w kierunku przyjaznego dla użytkownika generatora muzyki AI. Moglibyśmy prawie wybaczyć modelowi jego losowe wyjścia, gdy przestaniesz myśleć o tym, jak bardzo skomplikowane jest generowanie muzyki w surowej formie audio.

Jednak po uruchomieniu modelu MusicLM wydaje się na wpół upieczony w porównaniu z tym, co Google opublikowało w swoim początkowym artykule badawczym. Rzadko zdarza się, że generator obrazów AI źle odbiera obraz Apple, podobnie generator muzyki AI powinien mieć kilka podstaw, takich jak tempo i instrumenty.

Google MusicLM nie spełnia oczekiwań

Ponieważ firmy technologiczne ścigają się, aby prześcignąć się nawzajem na froncie sztucznej inteligencji, MusicLM ma wrażenie, jakby wszedł do publicznych testów, zanim był gotowy. Zamiast zająć się podstawami, model wydaje się przyjmować znacznie bardziej niejasne i subiektywne podejście do tworzenia muzyki.

Google może zachęcać Cię do sprecyzowania podpowiedzi, ale nie radzi sobie dobrze z tempem i nie ma gwarancji, że za każdym razem otrzymasz instrumenty, o które prosiłeś. MusicLM może być interesujący i stanowi dobrą demonstrację potężnych postępów AI, ale jeśli muzyka jest celem końcowym, wciąż ma przed sobą długą drogę.