Robert Važan

Praktické súkromie pri používaní jazykových modelov

Väčšina platených cloudových API pre jazykové modely (LLM) ponúka záruku, že vaše dáta nebudú použité na trénovanie (a teda neuniknú), ale tu sa chcem venovať rôznym problémom, ktoré túto záležitosť komplikujú. Lokálne jazykové modely sú, samozrejme, dokonalým, ideálnym riešením, ale my potrebujeme praktickú a inkrementálnu cestu vpred namiesto tejto falošnej dichotómie medzi v súčasnosti nedosiahnuteľným ideálom lokálnych modelov na jednej strane a zúfalstvom a rezignáciou na strane druhej.

Chaos okolo Gemini

Začnime s Gemini, pretože Google urobil okolo súkromia v Gemini poriadny chaos. Gemini, podobne ako iné cloudové jazykové modely, má API, ktoré je ponúkané s prísľubom, že Google nebude trénovať na vašich dátach. Gemini má tiež bezplatnú verejnú aplikáciu, ktorá dáta na trénovanie zbiera. Ale Gemini má aj bezplatnú verziu API, ktorá zbiera vaše dáta.

Možno si myslíte, že je spravodlivé, aby Google používal dáta z bezplatnej verzie API, ale ako viete, že ste na platenej verzii API? API kľúče pre bezplatné a platené API vyzerajú úplne rovnako. Ten istý API kľúč v praxi funguje s plateným aj bezplatným API. Neexistuje spôsob, ako nakonfigurovať klienta tak, aby v prípade, že nie je na platenom API, okamžite zlyhal. Bude potichu pokračovať v používaní bezplatného API, až kým neuniknú všetky vaše dáta.

Samozrejme, vzhľadom na toto riziko si možno budete chcieť svoj Gemini účet starostlivo nakonfigurovať. Ale aj tam sú ďalšie pasce. Cloud Console od Googlu je zdanlivo nekonečne zložitá. Priradili ste svoju službu Gemini k správnemu fakturačnému účtu? Priradili ste k fakturačnému účtu platobnú metódu? Ako viete, že nastavenie funguje, keď ide o fakturovanú službu a od prvej platby vás delia týždne? Dáta v reportoch v Cloud Console majú niekoľkohodinové oneskorenie. Ak nevidíte svoje testovacie dotazy v reportoch, ako viete, že je to len oneskorenie v reporte a nie nesprávna konfigurácia? Čo ak z platobnej karty nie je možné stiahnuť platbu za službu? Prepne Google váš API kľúč automaticky na bezplatné API a povysáva všetky vaše dáta?

Google vám pri registrácii dáva cloudový kredit. Počíta sa tento kredit ako bezplatné alebo platené využitie API? Alebo to závisí od toho, či ste k svojmu účtu priradili platobnú metódu? Musíte si vytvoriť samostatný fakturačný účet bez cloudového kreditu, aby ste sa vyhli bezplatnému API a s ním spojenému zberu dát?

Právny chaos

OpenAI a Anthropic vám dajú jasnú záruku, že dáta odoslané do ich API sa neuchovávajú a nepoužívajú na trénovanie. Ale aj tu sú veci komplikované. Stále existuje až mesačná doba uchovávania "z bezpečnostných dôvodov". A záruka súkromia nezahŕňa zákonné povinnosti. OpenAI bol nedávno súdom zaviazaný uchovávať všetky konverzácie bez výnimky ako potenciálne dôkazy v súdnom spore o porušenie autorských práv, ktorý iniciovali nejaké noviny, ktoré nikoho nezaujímajú. Je pravdepodobné, že sa tieto konverzácie dostanú do rúk právnikov a analytikov týchto novín, ktorým je dôvernosť vašich dát úplne ukradnutá. Vaše dáta môžu byť dokonca prezentované verejne na súde.

Všetky tri doteraz spomenuté spoločnosti sú americké. Som si 100% istý, že všetky dáta, ktoré pošlete do ich API, sú okamžite preposielané priamo do NSA. Americká vláda má prostriedky, ako donútiť cloudové spoločnosti, aby to robili, a môže im tiež zakázať o tom hovoriť. Nevieme, čo s našimi dátami NSA robí. Mohli by byť použité na vydieranie alebo na vaše zosmiešnenie, alebo by mohli byť tajne odovzdané vášmu americkému konkurentovi.

V neposlednom rade, aj keď existuje jasná marketingová komunikácia, že dáta platiacich zákazníkov sa nebudú na nič používať, skutočný právny jazyk je oveľa menej jasný. Právna úprava týkajúca sa ochrany údajov je dlhá, plná výnimiek a zvláštne špecifická. Špecifickosť je problém, pretože otvára dvere nečakaným medzerám v garancii súkromia. Takže napríklad všeobecné obchodné podmienky poskytovateľa môžu zakazovať trénovanie jednou dcérskou spoločnosťou, ktorá je zmluvnou stranou, zatiaľ čo potichu povoľujú trénovanie inými dcérskymi spoločnosťami. Bez pomoci právnika si to nevšimnete. A neviete, že sa to deje, kým nejaký budúci model náhodou nevyprodukuje kópiu vašich dát.

Darebáci

Formulovať všeobecné obchodné podmienky tak, že umožňujú poskytovateľovi kradnúť vaše dáta, je, samozrejme, špinavý biznis. Niekedy je to len o tom, že právnici sú právnikmi a do úvahy berú len záujmy svojho klienta. Ale ja nepochybujem, že mnohé cloudové spoločnosti úmyselne vytvárajú diery vo svojich obchodných podmienkach, aby mohli kradnúť vaše dáta bez toho, aby to museli otvorene priznať. To platí najmä pre menšie SaaS startupy, ktoré sú len nadstavbou nad API od dodávateľov jazykových modelov.

Mnohé z týchto spoločností sa ani len neobťažujú zaručiť ochranu údajov. Jednoducho vám neposkytnú službu, pokiaľ nesúhlasíte so zberom dát. Alebo ponúkajú nejaké vágne neformálne záruky ochrany súkromia, zatiaľ čo ich obchodné podmienky jasne hovoria, že všetky dáta teraz patria im.

A potom je tu Čína. Čínske jazykové modely sú teraz konkurencieschopné, najmä cenou, a som si istý, že milióny ľudí prechádzajú na čínske LLM API. Ja by som to sám nikdy neurobil. V Číne je nulový rešpekt k duševnému vlastníctvu. Je samozrejmosťou, že si ponechajú všetky vaše dáta bez ohľadu na to, či to priznajú vo svojich podmienkach alebo nie. Dokonca budú medzi sebou obchodovať s dátami zákazníkov. A samozrejme, všetky vaše dáta budú odoslané čínskej vláde, aby boli použité na krádež duševného vlastníctva, na podporu čínskych konkurentov vášho biznisu a na vplyvové operácie po celom svete.

Záleží na tom pri práci na open-source projektoch?

Mám veľa open-source projektov. Nevadí mi zdieľať tento zdrojový kód s jazykovými modelmi, pretože je už beztak verejne prístupný. Prompty použité pri vývoji nie sú verejné, ale nevadilo by mi ich zverejniť, vrátane celých konverzácii s LLM, ak by som našiel rozumný spôsob, ako to urobiť. Mohol by som teda na open-source prácu používať jazykové modely, ktoré zdieľajú dáta?

Problém s touto myšlienkou je, že je bežné často prechádzať medzi open-source a súkromnými úlohami. Neexistuje jednoduchý spôsob, ako tieto dve veci od seba izolovať. Ak by som akceptoval jazykový model, ktorý zbiera dáta, na open-source prácu, je len otázkou času, kedy by bol náhodne použitý aj na súkromnú prácu. A keď dáta raz uniknú, niet cesty späť.

A čo lokálne jazykové modely?

Lokálne jazykové modely ponúkajú dokonalé súkromie, ale používať lokálne jazykové modely na všetko je očividne nepraktické. Modely, ktoré bežia na lokálnom hardvéri, sú na mnohé úlohy, vrátane programovania, príliš slabé. Kúpa hardvéru na lokálne spustenie špičkového modelu by bola príliš drahá.

V polovici roka 2025 sú súčasné limity pre cenovo dostupnú lokálnu zostavu na jazykové modely takéto:

To sa ani zďaleka nepribližuje tomu, čo potrebujú špičkové modely. Aj keď zvážime, že MoE modely šetria rýchlosť pamäte a výpočtový výkon, kapacita pamäte lokálneho hardvéru je stále len zlomkom toho, čo potrebujú špičkové modely.

Lokálny hardvér sa bude zlepšovať, ale ako dlho to potrvá? Môj odhad je, že potrvá 5-10 rokov, kým budeme môcť lokálne spustiť niečo ekvivalentné Claude Sonnet. A to sa stane len vtedy, ak existuje dostatočne veľký trh pre špecializovaný hardvér na lokálne jazykové modely. Ak by sme postupovali bežným tempom PC hardvéru, dostali by sme sa tam za 20+ rokov.

Pragmatický prístup

Byť v tomto perfekcionistom nie je schodné riešenie. Ak nemôžeme obetovať zvýšenie produktivity vďaka jazykovým modelom a nemôžeme obetovať veľa peňazí na lokálny hardvér, potom je nevyhnutnou voľbou obetovať časť súkromia. Nie je však potrebné vzdať sa všetkého súkromia navždy.

Najjednoduchšie je nahradiť softvér, ktorý je nadstavbou nad LLM API. Nie je potrebné používať closed-source programátorských asistentov alebo netransparentné cloudové služby, ktoré sú len tenkou vrstvou nad API jazykových modelov. Open-source to dokáže tiež. Veľa ľudí pracuje na vývoji open-source nástrojov. Jediné spoločnosti, s ktorými musíte zdieľať svoje dáta, sú dodávatelia jazykových modelov.

Aj medzi cloudovými jazykovými modelmi si môžete dovoliť byť preberaví. Čínskych API pre jazykové modely by som sa ani nedotkol. Jednoduchšie úlohy môžete presunúť na lokálneho dodávateľa. Pre Európana ako som ja to znamená Mistral. To už do istej miery robím.

Existujú úlohy, ktoré už dobre bežia na lokálnom hardvéri, konkrétne FIM (dopĺňanie kódu v IDE) a sumarizácia, pokiaľ máte dostatočne výkonný hardvér. Moja hardvérová a softvérová zostava na to ešte nie je pripravená, takže toto je jeden smer, v ktorom môžem veci zlepšovať.

A napokon, nezabúdajme, že toto všetko je dočasné. Pre každý typ úlohy existuje bod, za ktorým väčšie modely majú už len malý prínos. Ako sa budú lokálne a regionálne jazykové modely zlepšovať, môžeme postupne presúvať úlohy zo špičkových modelov (Claude, Gemini, GPT) na regionálne modely (Mistral) a potom na lokálny hardvér. Medzitým stratíme časť súkromia a pravdepodobne aj časť duševného vlastníctva, ale to vnímam ako limitované a dočasné náklady, a špičkové modely sa aj po započítaní týchto skrytých nákladov stále oplatia.