Uus avoin kuvamalli Imagen 4
Tätä Ideogram 4 mallia pitäs varmaan kokeilla seuraavaksi. Jos sillä saisi vaikka hyviä mainosbannereita tehtyä. >Ideogram 4 is Ideogram's first open-weight text-to-image model. It is a state-of-the-art foundation model trained from scratch — not a fine-tune of any existing model. It introduces a new structured JSON prompting interface, with best-in-class multilingual text rendering, deep language understanding, explicit bounding-box layout and color-palette controls, and native 2k resolution images. https://github.com/ideogram-oss/ideogram4
>>14318 Reve 2 pitäs kanssa olla ihan hyvä uusi tohon, mutta se on suljettu malli, niin... >Every image is built from a layout: a structured map of the objects, text, and regions in a scene. That means you can reach in and change any part of it. Move a subject, rewrite the sign on the wall, or swap a background, and the rest of the scene adjusts around your edit. It’s the difference between describing a picture and directing one. https://blog.reve.com/posts/announcing-reve-2.0/
Olis pitäny ottaa heti isompi ruutukaappaus, niin olis näkyny toi Ideogram 4.0 siinä kanssa, mikä on sijalla 9. text-to-image areenassa. https://arena.ai/leaderboard/text-to-image
>>14321 ottasitko vielä yhen kuvakaappauksen jossa näkyis ideogram 3.2.6 ja rave 1.6 ja image 3.6.0.9?
>>14318
Tarkoitat varmaan Ideogram 4? Koska Imagen on suljettu malli. Kokeilen uutta mallia yleensä tähän tyyliin >a photo of a village in Iron Age Finland in summer koska aiheesta ei varmasti ole koulutusaineistossa yhtään kuvaa niin testaa hyvin mallin maailmanymmärryksen tasoa. Melko hyvä lopputulos, parempi kuin mitä olen nähnyt millään avoimella mallilla.
>>14352 juu se, muistin väärin nimen vaatii paljon kikkailemista jsonin kanssa, noi mun kuvat kelpaa ehkä ComfyUissa workflowna, ellei tää foorumi ole rikkonut niitä. Sensuroitu todella pahasti, mutta sensuurin ohi voi kikkailla bounding boxien suurella määrällä, niiku oon tehny workflowssa
Miten hyvin se tekee tekstiä? Jos vaikka yrität tehdä jonkun mainosbannerin, missä on kuvia ja tekstiosia, niin onnistuuko semmonen kuinka hyvin? Toihan on perinteisesti ollut hyvin haastava tekoälylle.