Robert Važan

Slovenské slovníky

V dnešnej dobe by človek čakal, že v slovenskom open-content priestore, ktorý je inak extrémne chudobný v porovnaní s tým anglickým, budú k dispozícii aspoň online slovníky slovenčiny. Nie sú. Sú tu kúsky a úlomky riešenia, tak aspoň spravím ich prehľad.

Ja posledné roky používam slovenčinu málokedy. Akonáhle viete po anglicky, je oveľa praktickejšie používať anglickú čast internetu, ktorá je asi 1000-násobne väčšia než tá slovenská a nájdete tam naozaj všetko. Slovenský internet je v porovnaní s tým anglickým len pustý ostrov. Po anglicky aj tak budeme raz hovoriť všetci, pretože internet potrebuje jeden spoločný jazyk.

Slovenčina tu napriek tomu nejaký čas zostane. Veľa ľudí je stále na slovenčinu odkázaných. Štát publikuje takmer všetko len po slovensky. Kultúra má určitú zotrvačnosť. Pre efektívne používanie slovenčiny sú esenciálne slovníky, hlavne výkladové, anglicko-slovenské a pravopisné. Slovníky sú z istého uhla pohľadu najdôležitejší referenčný zdroj, pretože sú podkladom pre preklady z angličtiny a pre interpretáciu existujúcich textov. Sú tiež esenciálne pre počiatočné štúdium angličtiny.

Ja som veľký fanúšik open-source a open-content hnutí. Ak mám prispieť do nejakého slovenského open-content projektu, tak bude môj čas asi najlepšie využitý pri tvorbe slovníka. Preto som sa pozrel na to, v akom stave sú slovenské open-content slovníky.

V prvom rade sú tu oficiálne slovníky od JÚĽŠ SAV, ktoré boli zostavené s použitím Slovenského národného korpusu. Ani slovníky ani korpus ale nie sú dostupné pod voľnou licenciou. SAV slovníky sú síce online, ale vzťahujú sa na ne implicitné autorské práva a tí zvedavejší z nás už prišli na to, že je na nich nasadený rate-limiter a CAPTCHA. Viaceré komerčné webstránky zjavne používajú slovníky SAV, tak z toho usudzujem, že SAV svoje slovníky licencuje za peniaze. A to napriek tomu, že ide z drvivej väčšiny o štátom financovaný výskum a občania teda za tieto slovníky už raz zaplatili.

Potom je tu slovenský Wikislovník, sesterský projekt slovenskej Wikipédie. Tam som sa istý čas snažil prispievať, ale riadne mi to otrávila partička Čechov, ktorí si zo slovenského Wikislovníka spravili svoju eseročku. Ak to takto pôjde ďalej, lepšie informácie o slovenských heslách nájdete na anglickom Wikislovníku, kam som tiež istý čas skusmo prispieval.

Problémom oboch Wikislovníkov ale je to, že nemajú žiadnu pevnú štruktúru. Každé heslo je obyčajná wikistránka. Oba Wikislovníky síce majú predpísanú štruktúru hesla (na tom slovenskom som formát hesla spísal ja), ale tá sa vo veľkom nedodržiava, takže Wikislovníkové dáta je ťažké spracovať automaticky. Ďalším problémom je síce voľná, ale pomerne reštriktívna CC-BY-SA licencia, ktorá limituje automatické spracovanie aj zdieľanie dát s inými open-content projektami.

V tomto ohľade je oveľa lepší projekt lexikografických dát vo Wikidátach (alebo preslovakizovane vo Wikiúdajoch). Heslá vo Wikidátach majú presnú štruktúru a celé Wikidáta sú k dispozícii pod CC0 licenciou. Tam teraz sústredím svoje úsilie (aj keď zrovna teraz mám zdravotnú prestávku). Spísal som inštrukcie pre úpravu slovenských hesiel (ich súčasťou sú aj zoznam slovníkových zdrojov pre slovenčinu). Spravil som aj nástroj pre komfortnejšie editovanie, ale ten momentálne nie je publikovaný, takže ho používam len ja. Wikidáta sú databáza, pôvodne určená pre podporu Wikipédie, ale teraz tam zbierajú aj lexikografické dáta, hlavne s cieľom rozbehnúť celkom zaujímavý projekt Abstraktnej Wikipédie. Toto je zároveň hlavné obmedzenie. Dáta presahujúce potreby Abstraktnej Wikipédie sú len tolerované, nie vítané.

Ak používate opensource softvér, napríklad Firefox alebo LibreOffice, mohli ste si všimnúť, že majú slovenskú kontrolu pravopisu. Používajú voľne dostupné pravopisné slovníky pre slovenčinu z sk-spell projektu. Toto sú len prosté zoznamy slov bez akýchkoľvek ďalších informácii, takže ich bolo relatívne ľahké zostaviť, ale ich uplatnenie je obmedzené.