Stable Diffusion TensorRT
Gyorsulj fel az AI képgenerálásban!

Olvasási idő: 8 perc
Varga Péter
October 22, 2023

A következő rövid blogban leírom tapasztalataimat a Stable Diffusionhoz kiadott új TensorRT kiegészítő pluginról, és megmutatom, hogyan tudod néhány lépésben telepíteni. Szerencsére nem bonyolult, ne aggódj. A Kryptoda Tanoda főleg a kriptovalutákról szólt eddig, de mivel az NFT-készítésben már egy jó ideje az AI által generált tartalmak dominálnak, így én is egyre többet tanultam erről. A Stable Diffusiont már több mint egy éve használom. Kezdetben különböző külföldi NFT projektekben segítettem létrehozni megfelelő minőségű és mennyiségű kollekciókat. Azóta az OpenSeat teljesen elárasztották az AI által generált képek milliói. A következőkben nem NFT kollekciót készítek, hanem az új TensorRT plugint tesztelem le.

Mi is az a TensorRT?

A TensorRT (Tensor Runtime) egy olyan szoftverfejlesztői könyvtár és futtatási környezet, amelyet a NVIDIA fejlesztett ki a gépi tanulási modellek optimalizált futtatására, kifejezetten saját videókártyáihoz. A TensorRT egy speciálisan tervezett és optimalizált keretrendszer, amely lehetővé teszi a neurális hálózatok gyorsított értékelését, így hatékonyabbá teszi a gépi tanulás alkalmazásait. A Stable Diffusion esetén ez a kiegészítő segít optimalizálni a modelleket, csökkentve a GPU memória felhasználását és növelve a képalkotás sebességét. Jelenleg a plugin fejlesztés alatt áll, ezért előfordulhatnak hibák a telepítés során, de ne aggódj, csak lépj át rajtuk. Ha érdekel a teljes telepítése, olvass tovább.

A hivatalos angol nyelvű leírás és telepítési videó pedig itt található:

Mielőtt belevágnál ....

Feltételezem, hogy már rendelkezel a Stable Diffusion-el a gépeden, tehát erről most nem írok. Ajánlom, hogy egy RTX szériás Nvidia kártyával indulj neki és a hozzá tartozó legfrissebb driver csomaggal. A legújabb drivereket itt találod: Nvidia hivatalos letöltés. A minimális memória követelmény 8 GB, de ahogy észrevettem, legalább 11 GB ajánlott, mert a Model optimalizálás sajnos többször megszakad a következő hibakóddal: “Error Code 1: Cuda Runtime (out of memory)”. Szükséged lesz továbbá a legfrissebb Python verzióra, amit itt tölthetsz le: Python letöltés. A kiegészítő telepítése nagyon egyszerű. Indítsd el a Stable Diffusion WebUI-t, majd nyisd meg a http://127.0.0.1:7860 linken. Ezen a Stable Diffusion felhasználói felületén navigálj az “Extension” menüpontra, és telepítsd a TensorRT kiegészítő plugint.

Erre 2 lehetőséged van. A következő videóban ezt mutatom be.

Telepítés menete, röviden:

Telepítheted a Plugin könyvtárból, amit az "Available" menüpont alatt találsz. Keress rá a listában a "TensorRT"-re, majd telepítsd fel.
Másik megoldás, hogy URL linkről telepíted az "Install from URL" menüpont alatt. A link a következő:
https://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT.git
A telepítés után indítsd újra a Stable Diffusion-t, majd add hozzá a "Settings" menüben, majd a "Quick Settings" menüponton belül a "SD_UNET" ablakot, hogy a modellt optimalizált módon használhasd.
Most következik a TensorRT menüpont alatt a modell optimalizálása. Válaszd ki a bal felső sarokban a checkpointot, vagyis a modellt, amit fel szeretnél gyorsítani. Majd az "Export Default Engine" gombbal indítsd el az optimalizálást. Ez akár 10 percet is igénybe vehet. Miután az optimalizálás sikeres volt, a következő szöveg jelenik meg a konzol ablak alján: 'TensorRT engines has been saved to disk'.
Indítsd újra a Stable Diffusion-t, majd a "Checkpoint" melletti "SD Unet" lenyíló menüben add hozzá az új modellt.
Kész is vagyunk! Próbáld ki, és nézd meg, mennyivel lett gyorsabb a képgenerálás."

Az első észrevétel:

Az én véleményem az, hogy a standard 512 x 512 és 768 x 768 pixeles felbontás esetén akár kétszer gyorsabb is lehet a képgenerálás a TensorRT plugin segítségével.. Amikor próbáltam növelni a felbontást 1152px-re, akkor csak 25%-os sebesség növekedéssel számolhattam. Ez azért van, mert az SD modellek, amiket én próbáltam, 512 pixeles felbontásra vannak optimalizálva. Fontos tudni, hogy a 1:1 képek generálására alkalmas, mert amikor egy álló portré 9:16-s arányt próbáltam beállítani, akkor az optimalizálás félbeszakadt. Tehát visszatértem a 1:1 képarányokra, és lassan emeltem a felbontást 64-szorozóval, amíg ki nem füstölt a videokártyám.

64 x 18 = 1152px
64 x 20 = 1280px
64 x 21 = 1344px
64 x 23 = 1472px
64 x 24 = 1536px

Az arányosan eltelt idő :

Alap model -512px = 2 sec

10 it/mp

TensorRT model - 512px = 1 sec

20 it/mp

Alap model - 1152px = 18 sec

1.75 it/mp

TensorRT model - 1152px = 14 sec

2.3 it/mp

Látható, hogy az SD modellt 512 pixeles képeken tanították be, mivel ezen a felbontáson sikerült hibátlan képeket elérnem. Több órát töltöttem azzal, hogy megnézzem a minőségbeli különbséget különböző felbontások mellett. Például, egy RTX 2080 Ti kártyán a 1152 pixeles, 1:1 arányú képek átlagosan 2 iteráció / másodperc alatt készültek el, ami kb. 15 másodperc / képnek felel meg. Míg egy RTX 3090 kártyán a 1536 pixeles képek könnyedén feldolgozhatók, mindössze 10 másodperc alatt. Tudom, hogy a nagy felbontás miatt több a hiba és hosszabb generálási idő , de a végeredmény csodálatos. A TensorRT használata nélkül nem lettem volna képes erre, mivel többször az out-of-memory hibával találkoztam. Következtetés: hogy a memóriaigényt is csökkenti. Igaz, hogy az 11 GB memória, még így is kevés, de már egy 24 GB-os kártya tökéletesen elegendő a közel Full HD képek készítéséhez, anélkül, hogy Upscale-t kellene alkalmazni.

Másik észrevétel az, hogy amikor duplikált vagy torzult képet kaptam az 1152 pixeles felbontásban, a Seed értékének megváltoztatása például 555-560-ra már megoldotta a problémát, míg a 1344 pixeles felbontásnál a 700-710 seedek adtak hibátlan képeket. Ez csupán az én tapasztalatom, hogy érdemes kísérletezni a seedekkel és nem csak a promptokkal.

A következőkben megosztom a promptokat és a beállításokat, amelyekkel a képeket készítettem. Az egyetlen különbség az, hogy hozzáfűztem a prompt elejéhez, hogy teljes alakos, közeli vagy mellkasi portrét készítsen. Próbáljátok ki ti is.

Optimalizált Checkpoint (model):

Teljes alakos Prompt:

Közeli arc, Portré Prompt:

Mellkasi Prompt:

Negativ prompt:

Optimalizált Checkpoint (model):

Sampling steps:

Sampling method:

Felbontások:

Seeds:

Teljes alakos Prompt:

Közeli arc, Portré Prompt:

Mellkasi Prompt:

Negativ prompt:

768 x 768px - Close up

1344x1344px

Tanuljunk együtt!

Karácsonykor megjelenő könyvünkben nem csak ilyenekről olvashatsz, hanem bemutatjuk neked a generatív képgenerálás teljes működési elvét a tudomány oldaláról. Tudjuk jól, hogy napjainkban óriási a verseny a képgeneráló megoldások között, és szinte már nem tudjuk, melyikre regisztráljunk. A Stable Diffusion egy kiváló ingyenes eszköz ahhoz, hogy megértsd, hogyan működnek az MI alapú képgeneráló megoldások a saját számítógépeden. A nyílt forráskódjának köszönhetően több mint 10 000 fejlesztő és lelkes amatőr teszi napról napra jobbá a modelleket. Tarts velünk és a neurális hálózatok csodálatos világát hamarosan te is megértheted.

Addig is csatlakozz Te is a Prompter Facebook csoportjához, és tanulj a közösségtől, hogy egy jobb prompter váljon belőled.