L’ultima edizione del Festival Pordenonelegge ha dato ampio spazio a riflessioni e implementazioni pratiche relative all’Intelligenza Artificiale (IA), alla luce della pervasività sempre maggiore che questa tecnologia ha assunto in ogni circuito dell’esistenza, comprese le interrelazioni con il mondo artistico, considerato in tutte le sue forme.
In effetti, non è più possibile parlare di letteratura, cinema, musica o arte senza tenere conto degli impatti, positivi o negativi, dei rischi e delle opportunità che l’IA e i suoi utilizzi stanno portando con sé anche in questi ambiti, rendendo necessari nuovi paradigmi interpretativi e un affinato pensiero critico, indispensabile per districare e valutare un ecosistema ad alto grado di complessità, completamente interconnesso e sempre più lontano dal potere essere analizzato mediante formule semplificatrici e banalizzanti.
In questo contesto, dunque, così sensibile al tema, ha trovato casa il format “Societry. La Società raccontata con la poesia”, da me ideato insieme a Cristina Daglio, Matteo Fantuzzi e Chiara Materazzo nel 2023, qui declinato nello studio del dialogo tra IA e Poesia, partendo da tre prospettive di indagine differenti, quali quella del linguaggio, dell’immagine e della memoria, ponendo di volta in volta a confronto un poeta e un esperto della materia.
Nel primo incontro abbiamo ascoltato Vincenzo Della Mea, professore associato di Sistemi di Elaborazione delle Informazioni e autore, per la collana Gialla di pordenonelegge – Samuele editore di Clone 2.0, e il ricercatore in Filosofia e Teoria dei Linguaggi Damiano Cantone.
Di seguito i testi che hanno donato per riprendere, anche qui, le loro considerazioni sul tema.
Chi è il Clone?
Di Vincenzo Della Mea
Parte del mio lavoro come ricercatore nell’ambito dell’informatica medica si basa sulla sperimentazione di sistemi di intelligenza artificiale (o più propriamente di machine learning) per il supporto alla decisione in ambito medico. Io mi occupo prevalentemente di due aree: le immagini di anatomia patologica, che sono ottenute tramite microscopio, e la codifica di documenti clinici con classificazioni biomediche (grossomodo, dei dizionari di termini specialistici standardizzati).
Nel primo caso, l’obiettivo principale è classificare: capire per esempio quale diagnosi è ottenibile da un’immagine, o che tipo di cellula è ritratta in una porzione di immagine; e compiti derivati, quali per esempio la segmentazione (delineare tutti i nuclei in un’immagine, o le tipologie di tessuti presenti, eccetera). Nel secondo caso, l’obiettivo è tipicamente identificare quali entità (diagnostiche, procedurali, anatomiche, eccetera) sono identificabili dentro un testo clinico, e possibilmente anche a quali sequenze di caratteri corrispondono.
Anche se apparentemente il secondo caso d’uso, relativo al testo, è più vicino all’ambito poetico, l’origine dei miei primi esperimenti di generazione di versi è dovuta alle immagini da microscopio. Infatti erano comparsi i primi sistemi in grado di produrre immagini verosimili, le cosiddette Reti Generative Avversariali (GAN). All’epoca si trattava di immagini relativamente grezze, con numerose allucinazioni, cani e gatti con più di due occhi o mani con sei dita. Così nel 2019, assieme ad un tesista ed un paio di colleghi, ho addestrato una di queste reti su immagini istopatologiche di metastasi, e poi mostrate ad un patologo per vedere se erano realistiche (e lo erano).
Io avevo pubblicato da relativamente poco tempo la raccolta di tutte le mie poesie (Storie Naturali, Raffaelli Editore 2016), con cui avevo deciso di chiudere con un certo tipo di scrittura, e non avevo ancora trovato una strada nuova. Ma esistevano già da un po’ alcuni modelli di reti neurali fatte per generare testo, e anche a seguito dell’esperimento sulle immagini, ho deciso di sperimentare uno di questi modelli, in particolare le Reti Neurali Ricorrenti. Poiché avevo bisogno di testi, ho iniziato a fare a mano ciò che fanno i motori di ricerca automaticamente: ho setacciato il Web, ovviamente sapendo dove andare a parare, per raccogliere poesie di autori italiani, e qualcosa in traduzione. Ad un certo punto ho raccontato del mio esperimento a Mario Turello, un critico letterario udinese appassionato di combinatoria e altre cose peculiari che mi ha accompagnato negli anni nelle mie incursioni tra poesia e informatica, e mi ha regalato una collezione di CD di poesie usciti molti anni fa con il Corriere della Sera. Ho dovuto fare lavoro di reverse engineering per capire come erano codificate nel CD ed ho estratto pure quelle. Con un training set di circa 12000 poesie ho quindi fatto i miei primi addestramenti utilizzando un software open source che semplifica le varie operazioni [https://github.com/minimaxir/textgenrnn/].
Avendo stabilito fin dall’inizio di non ritoccare il prodotto della rete, prima di tutto ho dovuto fare in modo che l’a-capo dei versi e l’a-capo delle strofe fossero presenti e distinti, perché volevo che fossero parte di ciò che la rete doveva apprendere e non qualcosa da determinare a posteriori. Questo l’ho fatto codificando opportunamente i testi con un programmino scritto apposta.
L’esito di quel primo esperimento era molto grezzo: erano versi che presentavano spesso errori sintattici, o anche ortografici. Per gli ultimi ho realizzato un programma che confrontava tutto con un vocabolario italiano, scartando i tesi con errori evidenti. Quelle poesie le ho comunque presentate pubblicamente in un paio di occasioni nel 2019 e 2020 come “Clone 0.9”, ma nel frattempo era comparsa GPT-2, con grande impatto mediatico perché pareva generare testo di ottima qualità.
Diversamente dai modelli più recenti, GPT-2 era addestrata solo inglese, ma era open source, per cui un gruppo di ricercatori pisani aveva riaddestrato la stessa architettura su documenti italiani, ottenendo quindi un modello usabile nella nostra lingua [https://huggingface.co/LorenzoDeMattei/GePpeTto/]. Si noti che i modelli del linguaggio come GPT-2 non sono fatti per rispondere a domande come ChatGPT: sono in grado di generare testo a completamento di un incipit fornito dall’utente, prendendo come contesto ciò che è stato fornito e prodotto in precedenza. Poiché anche il modello italiano era stato messo a disposizione, ho raffinato il suo addestramento sottoponendogli lo stesso training set che avevo usato per il primo esperimento, sempre con un software dello stesso autore del precedente [https://github.com/minimaxir/aitextgen]. L’esito è stato immediatamente superiore, perlomeno dal punto di vista ortografico e sintattico, a meno di qualche errore di concordanza di genere e di tempo. Ho però ripetuto l’addestramento più volte variando la composizione del training set e iterando l’addestramento con sottoinsiemi più ridotti perché, con un contenuto iniziale dominato da poesie relativamente antiche, il linguaggio riprodotto era antiquato. Inoltre, avendo in mente già quella che poi sarebbe diventata la prima sezione del libro, ho anche introdotto testi non poetici relativi a neuroscienze e reti neurali, in modo da introdurre anche del linguaggio relativo all’esperimento stesso.
Da qui a considerare poesie tutto il prodotto però c’era molta strada, fatta essenzialmente controllando e scartando buona parte della produzione. Inoltre il modello ogni tanto restituiva interi versi delle poesie di addestramento, per cui con un altro programma che ho scritto apposta ho confrontato tutti i testi prodotti con quelli di addestramento, scartando quelli che presentavano troppe citazioni esplicite (chiamiamole così…). Dato che c’ero, ho scartato automaticamente i testi troppo lunghi, perché la tenuta sul lungo era scadente. Alla fine, posso stimare il meno del 10% la percentuale di testi che ho ritenuto di inserire nella raccolta, rispetto al totale di quelli generati. Riguardo la generazione, può avvenire in due modi: a partire da un incipit fornito dall’utente, oppure in modo del tutto casuale (dove la prima parola è generata a caso e diventa incipit per quella successiva, e via così). Inoltre, poiché questi sistemi sono probabilistici, è possibile determinare l’”improbabilità” di una generazione con un parametro detto “temperatura”.
In sostanza, il sistema genera ogni volta un insieme di continuazioni candidate da cui pescarne una a caso. Se la temperatura è bassa, solo le parole più probabili in un determinato contesto entrano a far parte dei candidati; se è alta, potranno essere scelte anche parole meno probabili. Io ho sperimentato con temperature diverse, e prima di tutto con la generazione totalmente casuale. Questi esperimenti si ritrovano nelle due sezioni “Predizioni” ed “Alta temperatura”. La sezione “Il Clone secondo il Clone” è invece ottenuta con degli incipit che ho scelto per stimolare delle risposte in qualche modo introspettive (“Il clone”, “La mia rete”, “Generare poesie”, …). Alla fine ho deciso di mettere questa sezione in apertura perché è una sorta di presentazione della “personalità” del Clone; e probabilmente è il lato più interessante dell’esperimento. Pensando di creare un Clone che fosse più mio, ho provato anche a passargli come incipit i primi versi di alcune mie poesie (quelle de “I sogni della guerra”, che erano comparse anni fa su Nuovi Argomenti), per vedere cosa avrebbe potuto scrivere, ma il risultato non è stato interessante.
Quello che mi preme sottolineare è che la lingua che parliamo, quella che scriviamo con i mezzi correnti produce delle ricadute (poesie in misura di SMS e poi di Tweet, Google poetry, ecc.).
Per me si tratta di situazioni estemporanee che si evolvono con la velocità della tecnologia. Quando nel 2007 con Lietocolle ho curato l’antologia “Verso i bit – Poesia e computer”, l’impressione complessiva che ne ho avuto era di un’adesione tutto sommato superficiale alle novità, a meno di qualche guizzo interessante. Anche il mio Clone parla una lingua tutto sommato “nota”. Semmai, nella prima sezione, è interessante cosa riesce a dire di sé; ma lo fanno molto bene anche i “Ciberneti” di Terzago, le macchine che sono già tra noi e di cui non ci rendiamo conto.
Posso invece riportare di alcuni influssi peculiari nell’ambito della letteratura scientifica. Come è noto anche da notizie recenti sui giornali, c’è chi utilizza ChatGPT per la scrittura di articoli scientifici, prima di tutto per revisionare la lingua, ma anche per riassumere lo stato dell’arte, fare sintesi, ecc. Uno studio ha di recente dimostrato che anche i peer reviewer usano ChatGPT per valutare gli articoli: ed è stato notato perché la frequenza di alcuni aggettivi e avverbi (un po’ pomposi, nello stile di ChatGPT, ed anomali nella scrittura scientifica) è aumentata in modo evidente dopo l’uscita di questi sistemi. Questo è un effetto tangibile di ChatGPT sullo stile di un tipo particolare di scrittura.
Un modello del linguaggio diventa una sorta di grande memoria collettiva da cui si può attingere con rapidità, più di quanto si faccia usualmente con i motori di ricerca (che in fondo condividono la stessa base di testi). Se lo pensiamo come strumento per il poeta, idealmente potrebbe fornire una scorciatoia per l’accesso a testi di vario tipo, ma per il discorso fatto prima sulla questione diritti, non è detto che il modello restituisca intatti i contenuti del suo training set (anzi, di solito proprio no).
Comunque sia, questa grande memoria è collettiva anche nel senso che è spersonalizzata, e al momento non apprende qualcosa dell’utente dalla storia delle sue chat, anche se ChatGPT ha appena introdotto una nuova funzione appunto in questa direzione. Si tratterà di capire come questa nuova memoria fattuale ma discreta e volontaria possa interagire con la memoria umana, e come questo possa portare ad una sorta di ibridazione, ad un vero Clone di noi stessi sotto forma di ciò che decidiamo di affidare alla macchina per essere ricordato (mentre noi ci ricordiamo anche ciò che varrebbe la pena di dimenticare). Da qualche anno in ambito scientifico si usa il termine “digital twin” per indicare la riproduzione digitale di un oggetto, processo o sistema che, grazie ad un continuo interscambio di dati, evolve in parallelo al suo gemello fisico. In ambito biomedico il digital twin è visto come un metodo per predire l’evoluzione della malattia, o la risposta ad un trattamento. Un sistema di IA con qualche forma di memoria in grado di fornire l’individualizzazione del suo comportamento potrebbe effettivamente diventare un nostro gemello digitale almeno dal punto di vista intellettuale.
Il Clone 2.0 da questo punto di vista è un esperimento ancora immaturo. Io ho cercato di raffinare il modello verso i miei gusti e contenuti, ma la tecnologia utilizzata permette fino ad un certo punto di fare ciò che Roberto Cescon mi aveva suggerito, cioè addestrare sulle mie letture e sui miei poeti preferiti e basta. Ciononostante, penso si capisca anche da come ne scrivo, ho una percezione ambivalente del Clone e di ciò che ha scritto. Ho firmato io il libro ma ho dovuto pensarci; sono io l’autore perché la scelta dei testi è in un certo senso dominante rispetto al metodo con cui sono stati scritti; ma ne parlo spesso come se fosse qualcun altro. E questo mi permette anche di mantenere una certa distanza: c’è un io, ma non sono io.
Le macchine e la poesia. Una riflessione sui linguaggi artificiali
Di Damiano Cantone
È sensato produrre poesie con l’Intelligenza Artificiale? È sensato non farlo? Capisco lo sconcerto di fronte a un lavoro come Clone 2.0 di Vincenzo Della Mea, l’irritazione e forse la preoccupazione di fronte a quella che – con tutta evidenza – pare un’invasione di campo. D’altra parte, la filosofia ci insegna, fin da Aristotele, che l’uomo è l’“animale dotato di linguaggio”, ovvero che la capacità di parlare, ascoltare e scrivere è connaturata alla nostra essenza e segna un discrimine tra noi e le altre forme di vita.
Fino a pochi decenni fa, parlare di linguaggi artificiali significava riferirsi a sistemi simbolici come la matematica, l’informatica o le lingue costruite a tavolino, come l’Esperanto. Oggi, invece, i linguaggi artificiali sono progettati per simulare il linguaggio umano, al punto che diventa talvolta difficile distinguere un testo prodotto da una persona da uno generato da un software. Questo mutamento ha generato l’idea che i linguaggi artificiali possano competere con quelli naturali, mettendone in discussione il primato.
Il ragionamento, per quanto fallace, si impone da solo: siccome siamo gli unici esseri dotati di linguaggio – finora – allora, se incontro un essere che parla e scrive come me, quello è un essere umano. Capite bene che c’è una differenza sostanziale tra comunicare con le macchine – cosa che non ci pone particolari problemi – e parlare con esse. Da qui prendono forma tutti quegli scenari fantascientifici secondo i quali le macchine sarebbero sul punto di sviluppare una coscienza, diventare intelligenti ed emanciparsi dal nostro controllo.
Tale competizione, tuttavia, poggia su un presupposto problematico: l’idea che il linguaggio sia una capacità biologica innata, paragonabile alla memoria o alla percezione. Ci sentiamo così spossessati di qualcosa di nostro, minacciati nella nostra identità più intima. Vorrei proporvi una prospettiva alternativa, che consiste nel considerare il linguaggio come una tecnologia sociale, ovvero come una pratica costruita collettivamente nel corso dell’evoluzione umana.
Il linguaggio, infatti, non è sempre esistito, ma è il risultato di un processo di innovazione tecnologica giunto a compimento circa 100.000 anni fa. Non è un’invenzione particolarmente antica, se si pensa che la specie Homo è presente sul nostro pianeta da quasi tre milioni di anni. In questa direzione si muovono autori come Michael Tomasello e Daniel Dor, per i quali il linguaggio non risiede “dentro” i parlanti, ma nello spazio intersoggettivo che li collega.
Il linguaggio emerge in stretta continuità con altre tecnologie fondamentali che lo precedono, come la costruzione di utensili, e si sviluppa insieme a pratiche cooperative, rituali, forme di accudimento condiviso e di trasmissione culturale. Non è il cervello ad aver prodotto il linguaggio, ma il linguaggio, come tecnologia sociale, ad aver progressivamente modellato alcune capacità cognitive che gli preesistevano. Si è poi rivelato una tecnologia così efficace da innervare di sé l’intero ambiente di vita degli esseri umani. L’Homo sapiens, l’unica specie di Homo sopravvissuta, ha dovuto adattare le proprie abilità a un mondo sempre più caratterizzato linguisticamente.
In questa prospettiva, il linguaggio si distingue da altri sistemi comunicativi perché permette di istruire l’immaginazione degli interlocutori. Attraverso il linguaggio, gli esseri umani possono condividere esperienze non direttamente vissute, coordinare azioni complesse e trasmettere conoscenze astratte. Proprio per questo il linguaggio non è una tecnologia “multiuso”: risulta spesso insufficiente o inadeguato in contesti che richiedono un apprendimento eminentemente pratico o corporeo, come lo sport o la musica. La sua funzione specifica è quella di rendere comunicabile ciò che non può essere mostrato direttamente.
Come tutte le tecnologie, anche il linguaggio subisce trasformazioni e modificazioni. Pensiamo, ad esempio, a un’innovazione relativamente recente come l’invenzione della scrittura: una tecnologia considerata molto pericolosa già da Platone, che aveva colto con acume il suo potenziale di trasformare radicalmente la cultura e le capacità cognitive degli esseri umani.
Oggi ci troviamo di fronte a una serie di trasformazioni altrettanto epocali. Il rilascio della quinta versione di ChatGPT ha reso evidente come la simulazione del linguaggio naturale sia ormai entrata stabilmente nella vita quotidiana. In parallelo, si sono sviluppate con rapidità crescente le cosiddette Brain–Machine Interfaces (BMI), interfacce cervello-macchina capaci di bypassare il linguaggio simbolico tradizionale e di mettere in comunicazione diretta il pensiero umano con dispositivi artificiali. Tecnologie nate in ambito medico per restituire capacità comunicative a soggetti con gravi disabilità, ma che oggi promettono applicazioni ben più ampie, come dimostrano progetti di ricerca e iniziative industriali di grande visibilità.
Considerare il linguaggio come una tecnologia, e dunque stabilire una linea di continuità tra i primi vocalizzi, la scrittura e i Large Language Models, aiuta anche a comprendere i limiti di questi ultimi. Sistemi come ChatGPT sono in grado di generare testi formalmente coerenti e stilisticamente raffinati grazie all’addestramento su enormi quantità di dati e all’uso di reti neurali di tipo “trasformatore”. Tuttavia, essi operano esclusivamente sul piano statistico e non possiedono una reale competenza linguistico-funzionale: possono emulare il comportamento linguistico umano senza comprendere il contesto.
Questa differenza emerge chiaramente se si considera la distinzione tra competenza linguistica formale e competenza funzionale. La prima riguarda la padronanza delle regole e delle strutture linguistiche; la seconda implica capacità cognitive più ampie, come la conoscenza del mondo, il ragionamento pragmatico e la cognizione sociale. I Large Language Models eccellono nella prima, ma falliscono sistematicamente nella seconda. Per questo motivo, il loro funzionamento richiama il celebre esperimento mentale della “stanza cinese” di Searle: un comportamento linguisticamente corretto non implica comprensione.
In questo senso, parlare di una competizione tra linguaggi naturali e linguaggi artificiali risulta profondamente fuorviante. I due non operano sullo stesso piano né rispondono agli stessi scopi. I linguaggi artificiali, per quanto sofisticati, non emergono da pratiche sociali condivise, non sono il risultato di un’evoluzione culturale incarnata e non partecipano a quella rete di relazioni, intenzioni, aspettative ed esperienze che costituisce il linguaggio umano. Sono strumenti progettati per simulare determinati comportamenti linguistici in contesti specifici, ottimizzati per l’efficienza e la prevedibilità, non per la costruzione di senso condiviso.
I linguaggi naturali, al contrario, non sono semplici sistemi di codifica dell’informazione, ma tecnologie sociali che modellano l’immaginazione, l’identità e le forme di vita di una comunità. Non c’è dunque competizione, perché non c’è sostituibilità: i linguaggi artificiali possono affiancare, estendere o supportare alcune funzioni del linguaggio umano, ma non possono rimpiazzarne il ruolo costitutivo nella vita sociale e cognitiva dell’uomo. Pensare questa relazione in termini di competizione significa proiettare sui linguaggi artificiali una concezione riduttiva del linguaggio naturale, scambiandolo per un mero mezzo di trasmissione dell’informazione anziché per una pratica storicamente e socialmente situata.
Di fronte a questi scenari, appare evidente che il confronto tra linguaggi naturali e linguaggi artificiali non può essere ridotto a una gara di prestazioni. Il linguaggio umano non è solo un mezzo di comunicazione, ma una tecnologia che ha contribuito a costruire l’umano stesso. Comprenderne la natura significa riconoscere che nessuna simulazione, per quanto sofisticata, può sostituire la dimensione sociale, immaginativa e storica da cui il linguaggio trae origine. In tale dimensione nasce la poesia e da essa trae il suo significato. E forse un testo come quello di Vincenzo Della Mea può insegnarci proprio questo: che la poesia non sta dentro questo o quel poeta, in questo o in quel libro, ma in tutti coloro che la praticano.

Parole a capo” è una iniziativa dell’Associazione culturale “Ultimo Rosso”.
Ma se il linguaggio come suggeriva Burroughs fosse un parassita dell’ inconscio? Perché non pensare all’IA e specialmente ai chatbot come varianti di questo virus?