Basta un prompt con Lyria 3 in Gemini per un brano

Bob Dylan aveva ragione: dietro ogni cosa bella c’è una qualche forma di dolore. Ma da quest’anno Alphabet Inc. ha deciso che il dolore, la sofferenza, le notti insonni e persino la capacità tattile minima di chi sa mettere le dita su un manico di chitarra o sulla tastiera di un desktop in uno studio di registrazione sono solo roba vintage. Per creare bellezza, oggi, basta un prompt. E lo sapevamo. Magari non sapevamo invece che con l’integrazione del modello Lyria 3 direttamente nell’app Gemini, Google ha trasformato il suo chatbot onnipresente in uno studio di registrazione tascabile, diverso da Suno, Udio e similari, e senza attriti e senza anime (…) in vendita. Il mercato della generazione musicale AI non è più il parco giochi di quattro smanettoni con connessioni instabili e bitrate da walkman: è un’industria da 60 miliardi di dollari proiettati. Finora il settore era feudo di piattaforme verticali come quelle citate sopra. L’ingresso di Google, però, cambia le carte in tavola: ora chiunque abbia compiuto 18 anni e un abbonamento a Google One può trasformare la descrizione di uno stato d’animo, o persino la foto del proprio cane, in un brano completamente prodotto in pochi secondi. Tu lo pensi, tu lo dici, lui lo fa. E mentre Suno festeggia una valutazione da 2 miliardi di dollari e una causa colossale per pirateria musicale da parte di Universal, Warner e Sony, la domanda per chi ha orecchie e competenza resta una sola: lo strumento di Gemini è un serio competitor o solo un distributore automatico di paccottiglia algoritmica tarata sul metabolismo cognitivo di TikTok?

Dal punto di vista dell’ingegneria audio pura, Lyria 3 è oggettivamente un mostro. Niente più lo-fi granuloso e glitch da primi esperimenti: il modello sputa fuori file WAV stereo PCM a 16 bit, 48 kHz di sample rate, una trasparenza che fa impallidire i vecchi code e si, amici produttori, i transienti sono mica male. I primi blind test della comunità audiofila dicono che la sintesi vocale ha raggiunto un livello di “non artificialità” inquietante, niente a che vedere con il robot autotunato che ha infestato i primi anni la generazione generatori. Eppure, nonostante la patina patinata, lo strumento musicale di Gemini sa di Lego per adulti con deficit di attenzione. È rigidamente limitato a 30 secondi e quindi va bene per jingle o spot. Gli arrangiamenti sono lindi, puliti, “radio-ready” nel senso più asettico del termine. Ma mettetelo accanto ai competitor e sentirete la differenza: Lyria 3 manca di profondità strumentale, di stratificazione, di quella produzione complessa che distingue un tormentone usa-e-getta da un pezzo che regge l’ascolto. Google stesso lo ammette senza troppi giri di parole: non vogliono aiutarvi a creare un capolavoro, ma un momento condivisibile. E tanta gamification. E per essere sicuri che nessuno si sogni di spacciare quel momento per arte, ogni output viene marchiato a fuoco con SynthID, una filigrana steganografica impercettibile ma indelebile, cucita direttamente nella forma d’onda. Provate a fare un pezzo da otto minuti con ‘sta roba.

Spoiler: non si può. Perché se Gemini è il drive-through del content creator affamato, Suno e Udio restano le postazioni da lavoro per chi la musica la vuole davvero scolpire. Suno v5 è il re indiscusso del pop patinato. Esegue arrangiamenti elettronici aggressivi a 128 BPM con una percussione chirurgica che in discoteca ci sta tutta. Ma la vera killer feature, quella che fa impallidire l’offerta Google, è la possibilità di esportare tracce fino a 8 minuti e, soprattutto, la separazione in 12 stem. Per i producer veri, questa è manna: isoli un assolo di sassofono generato dall’AI, lo butti dentro Ableton e ci lavori sopra. Gemini non sa nemmeno cosa siano gli stem. Zero separazione, zero utilità professionale. Poi c’è Udio, fondato da ex ingegneri DeepMind, che è il musicista sessionale geniale e intrattabile del lotto. È ostico, non ti segue quasi mai al primo prompt, ti fa litigare per un’ora sulla pronuncia di una sillaba. Ma la sua gamma dinamica, il calore acustico e il realismo da studio di registrazione sono inavvicinabili. Udio è per il paradosso Rick Rubin: ci vuole un orecchio da curatore per mettere insieme pezzi da 15 minuti con tool di inpainting avanzati. È la scelta obbligata per jazz, colonne sonore e chi cerca strumentazione organica.

Intanto, sul lato B, il mercato continua a sanguinare. I compositori indipendenti che campavano di licenze sincronizzate per spot e videogiochi guardano Gemini e tremano. Perché pagare 1.000 euro per un jingle quando un marketer può generare 30 secondi di mood music perfetta dalla foto del prodotto, direttamente in Google Workspace, gratis? L’estinzione dei generi musicali di serie B non è un’iperbole, è un’analisi costi-benefici. Ma chi pensa che l’AI sostituirà l’artista umano non ha capito perché la gente ascolta musica. Gli strumenti generativi stanno diventando sampler evoluti, intelligentissimi. Il futuro è ibrido: generi una progressione malinconica su Udio, ci tagli gli stem su Suno e ci metti sopra la voce tua, organica, vera. Gemini Lyria 3 è un trionfo tecnico, un gioiello di ingegneria del suono compresso in 30 secondi di fruizione fastidiosa. Democratizza l’idea di musica, abbassa la soglia d’ingresso a zero. Ma l’anima, il rumore di fondo, l’ossessione tattile di chi la musica la produce ancora con le mani, resta saldamente nelle piattaforme dedicate. E nelle mani di chi le sa usare.

Prova qui https://gemini.google/overview/music-generation/