Kép- és kérésalkotás [Midjourney]

május 2, 2024

— — — —

Az alábbi bejegyzés a Midjourney v6 és a poszt megírásának idejében érvényes paraméterek és szabályok alapján, elsősorban bevezető, kezdő szintű leírásként készült.

Bár az AI egyre több nyelvet ismer, az egyszerűség és a megszokás kedvéért a kérések (prompt) angol nyelven íródtak.

— — — —

Rossz szokások

Amikor elindult az egész „AI őrület”, néhány művész elképesztő minőségű generált képeivel kiemelkedett a tömegből. Természetesen nagy titkolózás mellett fejlesztették tovább a lekéréseket, melyekkel ezeket a fotókat sikerült kiverniük a mesterséges intelligencia által támogatott generátorokból.

A legtöbben úgy gondolták, hogy minél többször, újra és újra leírva egy-egy utasítást egy kérésen belül, pontosabb képeket kapunk.

Ez a rossz szokás megmaradt a jelenlegi verziók használóinál is nagy számban, de nézzük, miért nem jó és mi is lenne a jó irány:

a nagyon hosszú szövegek nagy része feldolgozásra sem kerül, az MI csak egy bizonyos token méretig értelmezi a kérésünket
az ismétléseket ritkán veszi figyelembe a rendszer
a szavak nagy száma mellett nehezebb az igazán lényeges dolgokra fókuszálni
sokkal nehezebb megtalálni azokat a kulcsszavakat, amik működnek
a mesterséges intelligencia egyre jobban képes felismerni az emberi nyelvezetet

Hogyan építsük fel a lekéréseinket?

1. Kezdjük egyszerűen...

Néha a kevesebb több és jobb, ez igaz ebben az esetben is. Először fogalmazzuk meg az alapvető ötletet, környezetet és használjuk ezt kiindulási alapnak.

Ha egy cicás fotót szeretnénk, kezdjük a „cat photo” kéréssel, ha egy futurisztikus városról szeretnénk egy képet, adjuk meg a „futuristic town” kifejezést. Ha az alap gondolatnak megfelelő irányt megtaláltuk, tovább pontosíthatjuk a kérésünket, paraméterezhetjük a generátor számára, hogy a végleges kép tényleg az legyen, amit elképzeltünk (… vagy legalább minél közelebb hozzá).

2. Módosítsunk lépésről lépésre

Ha megtaláltuk azt a képet, ami már közelít az elképzelésünkhöz, nincs más dolgunk, mint fokozatosan pontosítani a leírásunkat. Egyelőre ebben a posztban még nem megyünk bele a paraméterek részletes használatába, néhány kulcsszóval is már sokkal részletesebb, pontosabb képeket generálhatunk.

Ha a várost vesszük alapul az előző példából, személyes kedvencem mostanában a „solarpunk” irányzat, így csak az előző kéréshez hozzáfűzom, hogy …, solarpunk és már készül is az új kép.

Így szép lassan felépíthetjük a „tökéletes lekérést”.

3. Használjunk kevesebb, de hatásosabb leírót

Az irány már egyre tisztább, de hogyan tovább? Használjunk „varázsszavakat”, amelyek még inkább pontosítják az elképzelésünket.

Néhány kifejezés igazán nagy hatással lehet a végeredményre, de ezeket se vigyük túlzásba.

Nézzünk néhány példát, ahol a generált képeknek egy fejlesztő asztalát adtam kiindulási pontnak:

knolling: fényképezési kifejezés, amely sík felületen egymással párhuzamosan vagy 90 fokos szögben elhelyezett tárgyakról készült félvételekre vonatkozik
16-bit: hasonlít a 16-bites grafikus kártyákhoz készült képekhez, alkalmas a „régi videojáték” hangulat megteremtésére
különböző anyagok: próbáljuk ki a különböző tárgyak létrehozását különböző anyagok megadásával
layered paper: réteges papír minta, megpróbálja leutánozni az egymásra helyezett különböző papírformák egyfajta 3D-s hatását
isometric: izometrikus 3D-s megjelenítés
vintage photo: az eredmény a „vintage fotó” hangulatot adja vissza, ugyanakkor a témától és a beállításoktól erősen függ

4. A "minőségi" címkék helyett összpontosítsunk a témára

Az előző leegyszerűsített példák alapján az az érzetünk lehet, hogy nincs értelme hosszabb, részletesebb lekéréseket írni.

De ennek éppen az ellenkezője igaz, azáltal, hogy kiszűrtük a felesleges, szükségtelen elemeket, több helyünk maradt a lekérésben, hogy részletesebben kifejthessük az elképzelésünket.

Ha a korábbi példában használt „futuristic town, solarpunk” kérést tovább fejtjük, részletesebben elmagyarázzuk, mit is szeretnénk, sokkal fantáziadúsabb eredményeket érhetünk el.

Ha nincs konkrét ötletünk, hogyan is fejthetnénk ki részletesebben, akár itt is elővehetjük az AI erejét. De figyeljünk oda a kérés hosszára! A „solarpunk futuristic town” leírásra először nekem egy ~3 oldalas leírást generált a ChatGPT, miután megkértem, hogy a lényeget 60 szóban összegezze, az alábbi eredményt kaptam:

The futuristic solarpunk town is a sustainable, eco-friendly community where nature thrives alongside advanced technology. Solar panels and green infrastructure power the town, while vertical gardens and green roofs provide abundant vegetation. Smart systems manage resources efficiently, promoting self-sufficiency and resilience. Walkable streets, communal spaces, and innovative architecture foster a sense of community and well-being.

- - ChatGPT

Ezt persze tovább csinosíthatnánk, de az érdekesség kedvéért generáltam két képet, az első egy saját, röviden leírt kép, a második pedig az AI által adott szövegből generált kép.

A fenti példákból látható, hogy néhány egyszerű leírással is már remek képeket generálhatunk, a legfontosabb, hogy mennyire pontosan tudjuk megfogalmazni az elképzelésünket.

Később kitérünk majd a különböző paraméterek használatára is, de már ezekből a „lebutított” példákból is érezhető a lehetőségek végtelen tárháza. Ne adjuk fel, ha elsőre nem sikerült „tökéletes” képeket generálnunk, néha még a legjobban összeállított kérésekből is csak 2-3 próbálkozás után sikerül elfogadható eredményt kapni. Ne felejtsük el, hogy minden rendszernek léteznek limitációi és hibái, de ha aktívan teszteljük és próbálgatjuk a lehetőségeket, igazán lenyűgöző eredményeket érhetünk el.

Ennek tényleg csak a képzeletünk szabhat határt!

Kép- és kérésalkotás [Midjourney]

Rossz szokások

Hogyan építsük fel a lekéréseinket?

1. Kezdjük egyszerűen...

2. Módosítsunk lépésről lépésre

3. Használjunk kevesebb, de hatásosabb leírót

4. A "minőségi" címkék helyett összpontosítsunk a témára

more insights

50-50 scroll

Animált navigáció

Animált háttér

kapcsolat