Robert Važan 11. apríla 2024 – 28. mája 2025

Lokálne jazykové modely na Linuxe s Ollamou

Konečne som si našiel čas spojazdniť lokálne jazykové modely alias chatboty, takmer rok po tom, čo som vyhlásil, že všeobecná umelá inteligencia je tu. Mám nízkonákladový hardvér a nechcel som sa s tým príliš babrať, tak som sa po chvíli váhania rozhodol pre Ollamu a Open WebUI, ktoré bežia na každom procesore (a teda nepotrebujú grafickú kartu) a dajú sa jednoducho a bezpečne nainštalovať do kontajnera. Ollama má veľkú knižnicu modelov, zatiaľ čo Open WebUI je decentný proprietárny frontend, ktorý môžem používať, kým nenájdem vhodnú opensource alternatívu. Ollama je postavená na intenzívne optimalizovanej knižnici llama.cpp.

Inštalácia

Spojazdnenie je veľmi jednoduché. Nie je potrebná grafická karta. Pre oba projekty je k dispozícii návod na spustenie v dockerových kontajneroch. Pozrite príslušný príspevok na blogu Ollamy, Open WebUI README a podman sekciu v návode na inštaláciu Open WebUI. Tieto návody som trochu upravil, aby namiesto Dockeru používali Podman (mám Fedoru):

podman run -d --rm \
    --name ollama --replace \
    --stop-signal=SIGKILL \
    -p 127.0.0.1:11434:11434 \
    -v ollama:/root/.ollama \
    -e OLLAMA_MAX_LOADED_MODELS=1 \
    -e OLLAMA_NUM_PARALLEL=1 \
    docker.io/ollama/ollama
podman run -d --rm \
    --name open-webui --replace \
    -p 127.0.0.1:3000:8080 \
    --network=pasta:-T,11434 \
    -v open-webui:/app/backend/data \
    ghcr.io/open-webui/open-webui:0.6.5

Teraz môžete otvoriť Open WebUI na adrese http://localhost:3000. Nastavenie premenných OLLAMA_MAX_LOADED_MODELS a OLLAMA_NUM_PARALLEL nie je nevyhnutné, ale odporúčam to na desktopoch, aby Ollama nespotrebovala všetku dostupnú pamäť. Verzia Open WebUI je nastavená pevne na 0.6.5, pretože neskoršie verzie už nie sú opensource and ja sa teraz obzerám po alternatívach.

Vytvoril som tiež pár aliasov/skriptov, aby bolo jednoduchšie spúšťať Ollamu z príkazového riadku, pretože bez aliasov je kontajnerové CLI rozhranie trochu rozvláčne:

podman exec -it ollama ollama run llama3.2:1b

Prípadne môžete spustiť Ollama CLI v samostatnom kontajneri:

podman run -it --rm \
    --network=pasta:-T,11434 \
    docker.io/ollama/ollama run llama3.2:1b

Načo sú lokálne jazykové modely?

Mal som donedávna predplatné GPT-4, ale sotva sa mi oplatilo. Ušetrílo menej než 10% môjho času a strácal som veľa času tým, že som sa s tým hrajkal. Lokálne jazykové modely sú zadarmo a sú čoraz lepšie. Potom sú tu všetky tie problémy s cloudom. Cloudový jazykový model sa môže kedykoľvek zmeniť, zmiznúť alebo môže zdražieť. Neustále si pýta moju spätnú väzbu a ďalšie dáta, čo slúži len prevádzkovateľovi, zatiaľ čo ja tým strácam kontrolu nad vlastnými dátami. Som dosť háklivý na súkromie a slobodu a hoci na "bezpečnostné" obmedzenia nenarážam často, je to nepríjemné, keď sa tak stane. Aj keď je ChatGPT inteligentný, často je zbytočne kreatívny, keď len chcem, aby sa riadil pokynmi. Lokálne jazykové modely umožňujú väčšiu kontrolu nad výstupom. Aj API ponúka väčšiu kontrolu, ale API sa môže šialene predražiť, ak sa nejaký skript zasekne v slučke.

Výber modelov

Moje momentálne najobľúbenejšie modely sú llama3.1 8B pre všeobecné témy, qwen2.5-coder 7B pre programovanie, a dolphin-llama3 8B ako necenzurovaný model. Ak nemáte dosť pamäte, skúste menšie modely ako llama3.2 3B, llama3.2 1B alebo qwen2.5 0.5B. Necenzurované modely sú slabšie, ale sú užitočné, keď iné modely odmietajú odpovedať.

Predvolená 4-bitová kvantizácia robí modely menšie a rýchlejšie so zanedbateľnou stratou presnosti. 3-bitová kvantizácia citeľne znižuje presnosť, ale stále je to lepšie než sa uchýliť k použitiu menšieho modelu. Modely s viac než 4 bitmi na parameter nemá zmysel používať. Ak máte výkonný hardvér, radšej použite väčší model.

Žiaden lokálny model momentálne nevie hovoriť pekne po slovensky. Najbližšie má k tomu gemma2 9B. Preklad zo slovenčiny do angličtiny je takmer perfektný. Preklad z angličtiny do slovenčiny je zrozumiteľný, ale je písaný lámanou slovenčinou. Komunikáciu v slovenčine definitívne vyrieši až špecializovaný model pre slovenčinu, ktorý nemusí byť veľký, aby produkoval kvalitný výstup. Češtinu pomerne dobre ovláda multilingválny aya-expanse 8B. Ten nebol trénovaný pre slovenčinu, ale aj tak vie vyprodukovať slovenský preklad porovnateľný s gemma2.

Nastavenie modelov

Open WebUI poskytuje pohodlné používateľské rozhranie pre vyladenie parametrov Ollamy. Existuje aj staršie rozhranie na vytváranie vlastných modelových súborov, ale to má len limitované využitie odkedy existuje niekoľko spôsobov úpravy parametrov. Parametre možno nastaviť globálne (Settings / General) a osobitne ich vyladiť pre každý model (Admin Panel / Settings / Models). Dočasné zmeny parametrov možno aplikovať na aktuálnu konverzáciu po otvorení Chat Controls. Predvolené hodnoty parametrov temperature, top_k a top_p zužujú výstupnú distribúciu pravdepodobnosti (rozdelenie pravdepodobnosti), čo pomáha menším modelom hovoriť k veci, tak som sa týchto parametrov nechytal. Občas používam greedy sampling (top_k = 1), keď chcem predvídateľný, robotický výstup bez akejkoľvek kreativity. Okrem toho konfigurujem len kontextové okno pre každý model. Môžete tiež upraviť systémový prompt, ale to zvyčajne poškodí kvalitu modelu, ak na to model nebol trénovaný.

Modely používajú kontextové okno (nazývané aj KV cache alebo kontextová pamäť), aby si zapamätali, čo už bolo povedané. Kontext si vyžaduje veľa pamäte, čo je dôvod, prečo Ollama má predvolený len 2048-tokenový kontext. Ak máte dostatok pamäte, pravdepodobne budete chcieť upraviť parameter num_ctx, pretože Ollama nezvláda dobre konverzácie presahujúce kontextové okno. Najnovšie modely podporujú pôsobivo veľký kontext: llama3.1 8B až 128K tokenov pri 8K tokenoch na GB, qwen2.5-coder 7B 128K pri 18K/GB, dolphin-llama3 8B 256K pri 8K/GB, llama3.2 3B 128K pri 9.3K/GB, llama3.2 1B 128K pri 32K/GB a qwen2.5 0.5B 128K pri 85K/GB. Hoci RULER test ukazuje, že reálna veľkosť kontextu je často oveľa menšia ako deklarovaná, taktiež ukazuje, že 32K+ reálny kontext je bežný v novších modeloch a že väčší kontext stále pomáha, len v menšej miere.

Aké výsledky môžete očakávať?

Vo všeobecnosti sú platené špičkové modely lepšie než bezplatné cloudové modely (nerátajúc verzie platených modelov s obmedzením počtu dotazov), ktoré sú zas lepšie než lokálne modely. Môžete to vidieť v rebríčku Chatbot Areny. Táto hierarchia sa komplikuje dvoma spôsobmi. Po prvé, ak máte výkonný hardvér, môžete sa vyrovnať výkonu bezplatných cloudových modelov. Po druhé, pribúdajú špecializované modely, ktoré sa vedia vo svojej oblasti špecializácie priblížiť (ale nie celkom vyrovnať) najväčším všeobecným cloudovým modelom. V prípade modelov určených na programovanie to možno vidieť v LiveCodeBench, BigCodeBench, a v rebríčku Aider.

V praxi lokálne modely zachytia približne 50% mojich otázok a zvyšok ide cloudovým modelom. Zvyčajne si poradia so všetkými ľahkými otázkami a slúžia ako sprievodca ktoroukoľvek populárnou témou. Môžete ich požiadať o prepísanie (anglického) textu, aby vychytali štylistické a gramatické chyby. Lokálne modely môžu spoľahlivo poslúžiť na skriptovanie v prirodzenom jazyku, ak je úloha dostatočne jednoduchá a model má jasné inštrukcie a má k dispozícii príklady. Verím, že s lepším hardvérom a softvérom sa odomknú ďalšie možnosti, ako lokálne modely využiť.

Optimalizácia rýchlosti

Hardvér je mimochodom veľký problém. Ako väčšina ľudí, ktorí kupovali pred rozkvetom lokálnych jazykových modelov, aj ja som kúpil hardvér žalostne nedostatočný na prevádzku jazykových modelov. Modely sa stávajú sotva použiteľnými pri rýchlostiach okolo 10 tokenov za sekundu, čo je približne toľko, čo môžete očakávať od 7-9B modelov bežiacich na procesore s 2-kanálovou DDR4-3200. Aplikácie s dlhým kontextom, ako je napríklad programovanie, potrebujú rýchle spracovanie dotazu, čo žiadny procesor nedokáže (môj dosahuje maximálne 30 t/s). Nie som fanatik do jazykových modelov ako niektorí z /r/LocalLLaMA, ktorí si stavajú počítače s viacerými grafickými kartami len preto, aby mohli používať tie najväčšie jazykové modely, ale určite si do ďalšieho počítača zadovážim aspoň 16GB grafickú kartu a vy by ste mali tiež.

Okrem kupovania nového hardvéru môžete Ollamu zrýchliť viacerými spôsobmi:

Ollama drží v pamäti viacero nedávno použitých modelov. To je skvelá predvoľba pre servery, ale na osobných počítačoch zvyčajne beží aj iný softvér, ktorý tiež potrebuje pamäť. Ak chcete, aby Ollama držala v pamäti len posledný model, nastavte OLLAMA_MAX_LOADED_MODELS=1 na Ollama kontajneri.
Ollama drží v pamäti kontext (KV cache) pre niekoľko nedávnych konverzácií. Toto je opäť skvelé pre servery, ale suboptimálne pre osobné počítače, najmä ak sa riadite mojou radou a zvýšite veľkosť kontextu. Ak chcete, aby Ollama držala v pamäti len poslednú konverzáciu, nastavte OLLAMA_NUM_PARALLEL=1 na Ollama kontajneri.
V predvolenom nastavení sa aktuálny jazykový model používa na generovanie popisov a tagov v histórii konverzácií, ale je to taký zabijak výkonu, že je lepšie vypnúť generovanie popisov aj tagov. Alebo to môžete urobiť ako profík: nastavte vo WebUI generovanie popisov a tagov pomocou nejakého malého modelu (napr. qwen2.5 0.5B), ktorý beží v samostatnom Ollama kontajneri.
Keď Ollama zaplní kontextovú pamäť, zahodí začiatok konverzácie a zvyšok konverzácie znova spracuje, čo je bez grafickej karty pomalé. Kontextové okno preto vždy nastavujem tak veľké, ako si môžem dovoliť, aby som sa vyhol pomalému posuvu kontextového okna. Dlhší kontext tiež robí modely inteligentnejšie.
Ak Ollamu 5 minút nepoužívate, Ollama odstráni model z pamäte a vyčistí aj kontextovú pamäť. Ak sa do chatu neskôr vrátite, opätovné načítanie modelu trvá 10 sekúnd a potom ešte čakáte na opätovné spracovanie kontextu. Ak chcete, aby posledný model zostal načítaný v pamäti, nastavte OLLAMA_KEEP_ALIVE=-1 na Ollama kontajneri.
Ak máte spustené procesy na pozadí, ktoré súperia o procesor s Ollamou, možno by stálo za to dať Ollame real-time prioritu.
Ollamu môžete akcelerovať pomocou integrovanej grafiky v AMD procesore, čo vám prinesie rýchlejšie spracovanie dotazov, nižšiu spotrebu energie a nižšie zaťaženie jadier procesora.

Nestrácal by som čas nastavovaním počtu vlákien (parameter num_thread). Ollama automaticky alokuje jedno vlákno na každé fyzické jadro procesora, čo je optimálne, pravdepodobne preto, že paralelelné spracovanie inštrukcií v procesore plne vyťaží všetky jadrá a ďalšie vlákna len spôsobujú problémy s koordináciou vlákien.

Čo môžeme očakávať v budúcnosti

Hardvér sa bude určite zlepšovať. Lokálna umelá inteligencia, vrátane jazykových modelov, mení zloženie záťaže na osobných počítačoch a hardvér sa ešte len začína tomuto trendu prispôsobovať. Najrýchlejšie zmeny prídu od spotrebiteľov, ktorí si jednoducho kúpia vhodný hardvér, predovšetkým grafické karty s veľkou a rýchlou VRAM pamäťou. Nie som odborník na hardvérový trh, ale môj odhad je, že výrobcovia najprv rozšíria existujúce funkcie, ktoré vyhovujú jazykovým a iným lokálnym modelom, následne začnú pridávať nové primitívy navrhnuté špeciálne pre kvantizované lokálne modely a napokon sa dostanú k zásadnejším architekturálnym zmenám, ako je napríklad integrovaná pamäť priamo na čipe.

Existuje tiež veľa možností pre optimalizáciu softvéru a modelov a práve tu vidím príležitosť pre výrazné zvýšenie výkonu v najbližšom roku alebo dvoch. Dopĺňanie kódu a textu je zjavnou aplikáciou pre lokálne jazykové modely, ale podpora editorov je stále nedostatočná a často ťažkopádna. Doménové modely by mohli vo svojej oblasti prekonať oveľa väčšie všeobecné modely, ale v súčasnosti neexistujú takmer žiadne špecializované modely. Na obzore je niekoľko architekturálnych zlepšení: ternárne siete, Diff Transformer, YOCO, viac-tokenové modely, Mamba, RWKV. Ak má jazykový model prístup k zdrojom (dokumenty a zdrojový kód, vyhľadávanie na internete, API, vykonávanie kódu), môže to pomôcť prekonať veľkostné obmedzenia lokálnych jazykových modelov, ale súčasná implementácia v Open WebUI a Ollame je obmedzená a nepraktická. Špekulatívne vykonávanie jazykových modelov môže zvýšiť rýchlosť, ale žiadne populárne inferenčné jadro ho zatiaľ nevyužíva. Integrované grafiky a samostatné grafické karty od AMD a Intelu by mohli pomôcť pri multimodálnych modeloch, dlhých dotazoch a energetickej efektívnosti, ale väčšina z nich zostáva nevyužitá pre nedostatočnú softvérovú podporu.

Som presvedčený, že lokálne jazykové modely budú vytrvalo a pomerne rýchlo napredovať, ale cloudové modely nezmiznú. Vysoká riedkosť (sparsity) a ďalšie optimalizácie nakoniec umožnia cloudovým modelom dosiahnuť veľkosť vyhľadávačov. Namiesto nahradenia cloudových modelov budú lokálne modely skôr hľadať alternatívne uplatnenie, predovšetkým fine-tuning a kontinuálne trénovanie na lokálnych dátach.