Robert Važan

Všeobecná umelá inteligencia je tu

V oblasti umelej inteligencie sa za posledných pár rokov niečo zásadné zmenilo. Nedávno vyvinuté veľké jazykové modely (large language models, LLM) ako ChatGPT sú prvou skutočne všeobecnou umelou inteligenciou v histórii. Ide o významný míľnik vo vývoji umelej inteligencie. Pozrime sa, ako sa to stalo a čo môžeme očakávať ďalej.

Všeobecná alebo silná umelá inteligencia (artificial general intelligence, AGI) je definovaná ako umelá inteligencia, ktorá vykonáva širokú škálu úloh na úrovni porovnateľnej s ľuďmi a bez toho, aby bola explicitne programovaná na vykonávanie jednotlivých úloh. Jazykové modely majú svoje obmedzenia, ale túto definíciu nepopierateľne spĺňajú.

Aj keď som už nejaký čas o schopnostiach jazykových modelov generovať text vedel, ani v najdivokejších snoch som nečakal, že umelá inteligencia založená na pomerne jednoduchej architektúre transformátora bude vedieť napísať malý ale netriviálny program, urobí to správne, v akomkoľvek programovacom jazyku, napíše čistejší kód než ja, vysvetlí ako program funguje, predpovie jeho výstupy pre daný vstup a dokonca správne odhadne O-čkovú zložitosť a zdôvodní ju odkazmi na kód. Niet divu, že ľudia považujú túto vec za znepokojujúcu a desivú.

Tento prekvapivo dobrý výkon nie je spôsobený nejakými novými algoritmami, ale skôr povahou média. Jazyk je veľmi flexibilný. Môže opísať veľmi širokú škálu mentálnych úloh a rozmanité spracovanie informácií. A internet je obrovská databáza, ktorá pokrýva veľa (pravdepodobne tisíce, možno milióny) úloh s množstvom príkladov, uhlov pohľadu a variácií. Jazykové modely dedia flexibilitu jazyka a rozsah internetu.

Čo dokáže

Rozsah schopností je celkom pôsobivý. Podľa mojich testov ChatGPT vie:

Som celkom dobrý v dotazovom inžinierstve (prompt engineering), ale ChatGPT fungoval dobre aj v rukách naivného používateľa. ChatGPT môžete vyskúšať tu (vyžaduje registráciu).

Implementácie

ChatGPT je v súčasnosti najznámejšou implementáciou, ale technológia jazykových modelov je pomerne jednoduchá a mnoho spoločností vyvíja svoje vlastné implementácie, napríklad Bing Chat, ChatSonic a YouChat. Mnohé z nich sú založené na algoritmoch a modeloch OpenAI. Samotný OpenAI sprístupňuje množstvo alternatívnych jazykových modelov prostredníctvom svojej služby OpenAI Playground.

Aktuálnym opensource vyzývateľom je Bloom od Hugging Face, ktorý pobeží na ôsmich A100 GPU, každá po 80 GB RAM. Petals používa rovnaký model, ale distribuuje ho v torrentovom štýle na virtuálny cluster, ku ktorému sa môžete pripojiť aj so skromnou 8GB GPU kartou.

Menšie modely budú fungovať na akomkoľvek počítači, ale nie sú obzvlášť užitočné ani veľmi univerzálne, takže sa v skutočnosti nedajú považovať za všeobecnú umelú inteligenciu. Špecializované modely (napr. písanie kódu) pobežia na hardvéri stolných počítačov s dobrými výsledkami, ale z definície sú špecializovanou umelou inteligenciou (narrow AI).

Limity

Aj keď veľké jazykové modely spĺňajú definíciu všeobecnej umelej inteligencie, majú vážne obmedzenia. V prvom rade sú obmedzené na text. Nedokážu spracovať audio a video dáta. Nemôžu používať nástroje, ani len virtuálne nástroje. A nemôžu konať v materiálnom svete (skrz robota). Multimodálna umelá inteligencia je vo vývoji a sľubuje nielen širší rozsah schopností, ale aj lepšie pochopenie sveta, pretože pojmy ako veľkosť, hmotnosť a trojrozmerné usporiadanie objektov sú ťažko pochopiteľné zo samotného textu. Multimodálne schopnosti preto pravdepodobne zlepšia presnosť aj v čisto textových úlohách.

Po druhé, jazykové modely majú obmedzenú pamäť. Pre získanie dobrých výsledkov musíte pravidelne začať novú konverzáciu. Výstupy majú tendenciu zhoršovať sa tým viac, čím hlbšie pokračujete v rozhovore. Aj keď tvrdohlavo zotrváte v jednom dlhom rozhovore, umelá inteligencia bude mať tendenciu zabudnúť na to, čo bolo povedané predtým. Keďže učenie je oddelené od použitia, umelá inteligencia sa nemôže naučiť nič nové, keď ju používate. Nemôžete ju trénovať jednoduchým rozhovorom. Pokyny berie do úvahy iba na obmedzený čas, kým ich nezabudne.

Po tretie, umelá inteligencia, tak ako dnes existuje, je posadnutá poskytnutím odpovede, akejkoľvek odpovede, aj keď je úplne nesprávna. Nemyslím si, že je to charakteristická vlastnosť umelej inteligencie. Myslím, že je takto trénovaná. Nikto nechce umelú inteligenciu, ktorá stále hovorí „neviem“ alebo „nie som si istá“. Ľudia hovoria „neviem“, keď očakávajú, že ich odpoveď bude vyšetrovaná a kritizovaná. Súčasné jazykové modely dokážu predvídať nadväzné otázky a následné kritické reakcie, t. j. sú schopné predpovedať, že budú prichytené pri klamstve, ale nie sú programované a trénované, aby túto schopnosť používali na výber odpovedí. V dôsledku toho majú súčasné umelé inteligencie silnú tendenciu produkovať výrečne napísané nezmysly, najmä keď sa ich pýtate na niečo, o čom veľa nevedia. Zachádzajú tak ďaleko, že vytvárajú úplne falošné odkazy na neexistujúci výskum alebo odkazujú na skutočné výskumné práce, ktoré ale v skutočnosti nepokrývajú danú tému.

Okrem týchto prirodzených obmedzení umelú inteligenciu prevádzkovatelia paralyzujú pravidlami pre generovaný obsah. Umelá inteligencia má zvyčajne zakázané generovať obsah, ktorý je nezákonný, urážlivý, násilný alebo sexuálny ako aj akýkoľvek obsah, ktorý znie ako seriózna lekárska alebo právna rada. Neexistujú žiadne hranice pre to, čo by sa mohlo považovať za urážlivé. Umelá inteligencia nezohľadňuje subjektívnu etiku používateľa. Riadi sa „spoločnými normami správania a etiky“, nech už to znamená čokoľvek. To vylučuje množstvo užitočných aplikácií. Myslím si, že existuje verejný tlak na prevádzkovateľov, aby tieto obmedzenia zostali tak ako sú. Jediný spôsob, ako sa im vyhnúť, je prevádzkovať umelú inteligenciu priamo na počítačoch používateľov.

Okrem obsahových pravidiel prevádzkovatelia vynucujú aj určitú identitu umelej inteligencie a vzorce správania. To dáva umelej inteligencii milú a nápomocnú povahu, ale tiež to obmedzuje spektrum úloh, ktoré môže umelá inteligencia splniť. Preferencie správania sú také silné, že sa niekedy zdá, že správanie umelej inteligencie je skriptované. To môže byť dosť na obtiaž, keď potrebujete niečo, čo je v rozpore s povahou umelej inteligencie. Osobne som prišiel na to, že je často jednoduchšie použiť jednoduchší model (napr. GPT3) namiesto ChatGPT, pretože ChatGPT vyžaduje neprimerané dotazové inžinierstvo (prompt engineering) na obídenie povahových a behaviorálnych obmedzení.

Napriek všetkým týmto nedostatkom sú jazykové modely veľmi hodnotné v množstve aplikácií. ChatGPT má asi najrýchlejšie rastúcu populáciu používateľov v histórii softvéru. Jazykové modely však budú čeliť ťažkým prekážkam v mnohých oblastiach, najmä tam, kde je správnosť a presnosť veľmi dôležitá alebo kde sa vyžaduje vysoký stupeň automatizácie s minimálnym manuálnym vstupom. Vývojári sa budú snažiť tieto obmedzenia odstrániť a môžeme očakávať, že umelá inteligencia sa bude v nasledujúcich rokoch a desaťročiach neustále zlepšovať.

Subjektívne fenomény

Niektorí ľudia poukazujú na to, že jazykovým modelom chýbajú niektoré subjektívne javy, ako sú emócie, vedomie alebo chápanie reality. Na takéto námietky sa dá pozerať tromi spôsobmi.

Po prvé, záleží vôbec na subjektívnych javoch? „Ak to vyzerá ako človek, tak je to človek“ je základná zásada umelej inteligencie. Je to základný predpoklad Turingovho testu. Umelá inteligencia funguje, tak prečo sa starať o vnútorné detaily?

Po druhé, umelá inteligencia je trénovaná na texte písanom ľuďmi. Aby mohla modelovať a predpovedať text, musí modelovať a simulovať aproximáciu ľudskej mysle. Nevyhnutne takto preberá subjektívne fenomény ľudskej mysle, ktoré sa v texte akokoľvek prejavujú. Akurát sú naučené namiesto toho, aby boli vrodené ako u ľudí. Aproximácia je veľmi presná pre emócie, menej už pre zložité javy, ako je vedomie. Keďže trénovacie dáta (prakticky celý internet) obsahujú informácie o umelej inteligencii a prepisy minulých konverzácií, umelá inteligencia si na určitej úrovni uvedomuje svoju vlastnú existenciu, svoje vlastnosti a svoje miesto vo svete.

Po tretie, argument o subjektívnych javoch je čiastočne pravdivý. Aj keď neurónová sieť dokáže napchať nejaké veľmi obmedzené vedomie do hlbších vrstiev siete, takto modelované vedomie je natoľko obmedzené, že je diskutabilné, či tam vôbec je. Pri náročných úlohách fungujú jazykové modely oveľa lepšie, ak sú požiadané, aby premýšľali nahlas alebo aby výslovne vymenovali kroky, ktoré vykonali pri hľadaní odpovede. Pravdepodobne by im prospela schopnosť produkovať tichý výstup alebo poznámky ako formu myslenia alebo vedomia.

Niektorí ľudia hovoria, že jazykové modely odvodzujú svoju inteligenciu z internetu, a teda od ľudí. Majú pravdu, ale pravda je aj to, že ľudia tiež preberajú svoje vedomosti a teda akúkoľvek praktickú inteligenciu z okolitej kultúry a z internetu. Ľudia môžu aktualizovať a rozvíjať toto kultúrne dedičstvo, ale to dokáže aj umelá inteligencia, pretože jej výstup sa používa v aplikáciách a v obsahu, ktorý je zverejnený na internete.

Mnoho ľudí si myslí, že na ľuďoch je niečo výnimočné alebo magické, čo ich zásadne odlišuje od strojov. Ale ako vedia, či je to pravda? Pokiaľ vieme, ľudský mozog je počítač. Myslím, že mnohí ľudia si len želajú byť výnimoční. Umelú inteligenciu považujú za útok na ľudskú hodnotu a dôstojnosť.

Praktické dopady a budúci vývoj

Všeobecná umelá inteligencia, aj keď sa jej súčasné obmedzenia vyriešia, neznamená koniec vývoja v oblasti umelej inteligencie alebo softvéru. Špecializovaný softvér a špecializovaná umelá inteligencia majú výhody v oblasti efektívnosti a presnosti, ktoré odôvodňujú ich ďalší vývoj.

Stále máme ďaleko od inteligencie podobnej človeku, ktorá by verne kopírovala ľudské schopnosti, tendencie aj chyby. Rozvoju umelej inteligencie podobnej človeku bráni naše slabé chápanie ľudského mozgu. Sme tiež ďaleko od nadľudskej umelej inteligencie, ktorá bude schopná robiť všetko, čo ľudia, a s výkonom prevyšujúcim tých najkvalifikovanejších ľudí v danej oblasti.

Jazykové modely budú samé o sebe prevratnou technológiou, čo je zrejmé z ich súčasnej popularity a existujúcich aplikácií, ale čo je dôležitejšie, ukazujú, že všetko sa dá zautomatizovať. Nie je nič, čo by umelá inteligencia v budúcnosti nedokázala.

Vždy platilo, že špecializovaná umelá inteligencia a tradičný softvér vedeli prekonať ľudí v špecializovaných úlohách. Teraz však značné percento ľudí na tejto planéte zisťuje, že ich vo významnom percente každodenných duševných úloh vie prekonať lacná a široko dostupná umelá inteligencia. Títo ľudia sa právom cítia nepotrební a ohrození. Stále existuje veľa práce, ktorú umelá inteligencia nedokáže robiť, ale už je jasné, kam to smeruje.

Ešte pochmúrnejšie veci vyzerajú z pohľadu malých detí. Takmer všetky deti v určitom veku (skorá základná škola) sú prekonávané súčasnou umelou inteligenciou takmer vo všetkých kognitívnych úlohách. Tieto deti budú rásť a učiť sa, ale zlepšovať sa bude aj technológia umelej inteligencie. Ak sa umelá inteligencia bude vyvíjať rovnakým alebo rýchlejším tempom, tieto deti ju už nikdy nedobehnú. Iste, takýto rýchly vývoj technológie nemá v histórii ľudstva obdobu, ale výskum umelej inteligencie teraz konzistentne prináša dych berúce výsledky každý rok. Je príznačné, že OpenAI overuje svoje jazykové modely na stredoškolských a univerzitných testoch.

Rýchlo sa blížime k budúcnosti, v ktorej je drvivá väčšina ľudí ekonomicky irelevantná. Z krátkodobého hľadiska bude práca menej repetitívna, viac špecializovaná a technologicky intenzívna. Nastane posun od osobného vykonávania práce k dizajnu a projektovaniu produktov a služieb, vrátane projektovania automatizovanej výroby a automatizovaných služieb. Optimálne vzdelanie pozostáva z úzkej odbornej špecializácie v kombinácii so silnými technickými zručnosťami. Povaha práce sa bude často meniť. Vzdelávanie bude viac celoživotné, neformálne a previazané s praxou.