Free cookie consent management tool by TermsFeed

Generatoarele text-imagine reprezintă cea mai recentă tendință în materie de inteligență artificială. Aceste programe primesc orice text ca intrare și generează imagini corespunzătoare care sunt remarcabil de precise. Rezultatul poate corespunde unei game de stiluri, de la picturi în ulei la randări CGI și chiar fotografii. În multe privințe, singura limită este imaginația dumneavoastră.

Generatoarele text-imagine au o gamă largă de aplicații potențiale. De exemplu, acestea ar putea fi utilizate pentru a crea modele 3D realiste din descrieri textuale sau pentru a genera date de antrenament pentru alte sisteme de inteligență artificială. Cu toate acestea, cea mai interesantă posibilitate este că ar putea fi utilizate pentru a crea forme de artă complet noi. Nici nu ne putem imagina ce creativitate va înflori atunci când artiștii vor începe să folosească aceste instrumente pentru a-și realiza viziunea.

Încă din primele zile ale inteligenței artificiale, cercetătorii au lucrat la crearea unor algoritmi care să poată genera imagini din descrieri de text. Rezultatele au fost adesea impresionante, dar a existat întotdeauna o diferență clară între calitatea imaginilor produse de AI și cele create de oameni. În ultimii ani, însă, acest decalaj s-a micșorat treptat. Până în prezent, liderul în acest domeniu a fost DALL-E, un program creat de laboratorul comercial de inteligență artificială OpenAI (și actualizat chiar în aprilie). Ieri, însă, Google a anunțat propria sa abordare a acestui tip de generări AI, numită Imagen, și tocmai l-a detronat pe DALL-E în ceea ce privește calitatea rezultatelor sale. Imaginile produse de Imagen sunt mai realiste și mai detaliate decât orice am mai văzut până acum din partea unui sistem de inteligență artificială. Mai mult, acestea arată o înțelegere clară a principiilor de compoziție și de design. Este o performanță impresionantă și arată cât de departe a ajuns generarea de imagini de către AI în ultimii ani.

Cel mai bun mod de a înțelege capacitatea uimitoare a acestor generări AI este să vă uitați pur și simplu la unele dintre imaginile pe care le pot realiza. Textul din partea de jos a imaginilor a fost solicitarea introdusă în program, iar imaginea de mai sus, rezultatul. Această tehnologie este încă la început, dar nu este greu de imaginat un viitor în care imaginile generate de AI sunt folosite în filme, jocuri video și alte forme de divertisment. Iar, pe măsură ce tehnologia continuă să se îmbunătățească, am putea vedea chiar imagini generate de AI care nu se pot distinge de realitate.

Imagen imagini generate de AI

Dar, deși aceste imagini sunt incontestabil impresionante prin coerența și acuratețea lor, ele trebuie privite cu scepticism. Atunci când echipe de cercetare precum Google Brain lansează un nou model de inteligență artificială, au tendința de a selecta cele mai bune rezultate. Astfel, deși toate aceste imagini arată perfect, este posibil ca ele să nu reprezinte rezultatul mediu generat de sistemul Imagen. În plus, merită menționat faptul că stadiul actual al tehnologiei AI este încă departe de a fi perfect. De exemplu, în timp ce aceste imagini pot părea realiste, ele nu au subtilitatea și detaliile obiectelor din lumea reală. Cu toate acestea, pe măsură ce tehnologia AI continuă să se dezvolte, este probabil că vom vedea din ce în ce mai multe rezultate impresionante ca acestea.

Cu toate acestea, Google susține că Imagen produce în mod constant imagini mai bune decât DALL-E 2, pe baza unui nou criteriu de referință creat pentru acest proiect numit DrawBench.

DrawBench nu este o măsură deosebit de complexă: este în esență o listă de aproximativ 200 de mesaje text pe care echipa Google le-a introdus în Imagen și în alte generatoare de text-imagine, iar rezultatele fiecărui program au fost apoi evaluate de evaluatori umani. După cum se arată în imaginea de mai jos, Imagen a depășit DALL-E și alte modele text-imagine de ultimă generație la acest parametru, iar evaluatorii umani au considerat că rezultatul Imagen este mai realist și mai detaliat decât cel al concurenților săi.

drawbench

Desigur, este important să ne amintim că astfel de criterii de referință sunt întotdeauna oarecum artificiale; în lumea reală, nu există nicio garanție că Imagen va produce întotdeauna rezultate mai bune decât DALL-E sau orice alt generator text-imagine. Cu toate acestea, concluziile companiei Google sugerează că Imagen este în prezent cel mai bun instrument disponibil pentru această sarcină și este posibil să rămână lider în acest domeniu în viitorul apropiat.

După cum demonstrează modelul Imagen de la Google, potențialul de generare de imagini din text este departe de a fi pe deplin realizat. Modelul Imagen este capabil să producă imagini extrem de realiste pe baza unor descrieri textuale și este doar o chestiune de timp până când modele similare vor fi capabile să genereze imagini și mai realiste. Cu toate acestea, după cum a observat Google, există și o serie de aplicații problematice pentru generarea text-imagini. De exemplu, știrile false sau farsele ar putea fi realizate mai ușor dacă nu ar fi nevoie de dovezi vizuale convingătoare. În mod similar, generarea text-imagine ar putea fi utilizată pentru a crea imagini obscene sau de hărțuire care ar putea fi dificil de eliminat de pe internet. Ca atare, este important să se ia în considerare implicațiile potențiale ale generării text-imagine înainte de a analiza potențialul său creativ.

Acest lucru este datorat de faptul că aceste modele au nevoie de o cantitate foarte mare de date, iar majoritatea cercetătorilor – chiar și cei care lucrează pentru giganți tehnologici bine finanțați, precum Google – au decis că este prea oneros să eticheteze în mod exhaustiv toate imaginile și textul corespunzător necesare pentru a antrena aceste sisteme. Așa că, în schimb, ei se concentrează pe crearea unui set de date cât mai apropiat de ceea ce își doresc și speră că sistemul de inteligență artificială va putea generaliza de acolo. Problema este că aceste seturi de date sunt adesea părtinitoare în tot felul de moduri subtile – ceea ce înseamnă că sistemele de inteligență artificială antrenate pe baza lor învață să fie și ele părtinitoare. De exemplu, dacă un set de date de instruire conține numai texte cu papagali roz, atunci sistemul de inteligență artificială va învăța să asocieze termenul de papagal doar cu acea culoare. Iar atunci când i se dau texte noi (cu papagali galbeni, de exemplu) va genera imagini greșite.

Algoritmul de generare a imaginilor de la Google a fost criticat pentru că duce la prejudecăți și stereotipuri sociale. Acesta a fost acuzat chiar după dezvăluirea sa publică că ar putea produce imagini care tind să favorizeze tonurile mai deschise ale pielii și că perpetuează stereotipurile de gen occidentale. Google nu a publicat prea multe informații despre algoritm, dar plângerile ridică îngrijorări serioase cu privire la implicațiile potențiale ale utilizării acestuia. În cazul în care Imagen este într-adevăr părtinitor în modurile care a fost acuzat, atunci ar putea avea efecte de anvergură, exacerbând inegalitățile existente și creând altele noi. Prin urmare, este esențial ca Google să abordeze aceste preocupări și să ia măsuri pentru a se asigura că Imagen nu perpetuează stereotipurile dăunătoare. Doar astfel va putea menține încrederea utilizatorilor săi.

Din această cauză, OpenAI a decis să nu îl facă public pe DALL-E. În schimb, compania oferă acces unor testeri beta selectați și filtrează anumite intrări de text în încercarea de a împiedica modelul să genereze imagini rasiste, violente sau pornografice. Aceste măsuri contribuie într-o oarecare măsură la restricționarea aplicațiilor potențial dăunătoare ale acestei tehnologii, însă istoria inteligenței artificiale ne spune că astfel de restricții sunt adesea ineficiente pe termen lung. Așadar, deși decizia OpenAI de a limita accesul la DALL-E este admirabilă, în cele din urmă s-ar putea să nu fie suficientă pentru a preveni utilizarea abuzivă a acestui instrument puternic.

Google spune că intenționează să dezvolte un nou mod de a evalua „prejudecățile sociale și culturale în activitatea viitoare” și să testeze viitoarele iterații ale software-ului. Între timp, va trebui să ne mulțumim cu actuala selecție de imagini a companiei. Totuși, acesta este doar vârful icebergului. Software-ul de recunoaștere a imaginilor de la Google are potențialul de a revoluționa modul în care căutăm și găsim informații pe internet. Utilizatorii ar putea căuta imagini pe baza conținutului acestora, și nu doar a numelui de fișier sau a cuvintelor cheie. Acest lucru va face mult mai ușoară găsirea unor imagini specifice și ar putea duce chiar la noi descoperiri. Deocamdată, va trebui să așteptăm să vedem cum Google va dezvolta Imagen înainte de a începe să îl folosim la potențialul său maxim.

Share.
Avatar of Marian M.

Pasionat de lumea digitală. În timpul liber îmi îmbogățesc cunoștințele ce țin de marketing digital, în special SEO.

Un comentariu

Lasa un raspuns

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.