Najfrekventovanejšou textovou jednotkou v slovenčine je čiarka, druhé miesto patrí bodke, potom spojke a, predložke v, nasledujú ďalšie interpunkčné znamienka, tvary pomocného slovesa byť, zámená, číslice, predložky a spojky, prvú päťdesiatku uzatvára slovko aby. Aj toto sa možno dozvedieť zo Slovenského národného korpusu, ktorý sa od roku 2002 buduje v rovnomennom oddelení Jazykovedného ústavu Ľudovíta Štúra SAV.
Korpus je špecifický súbor jazykových dát v elektronickej podobe, ktorý prináša pohľad na reálne fungovanie jazykových prostriedkov. Vytvára sa priebežne z textov od zmluvných dodávateľov, napríklad vydavateľstiev kníh alebo periodík, ako aj spisovateľov či publicistov, od ktorých Jazykovedný ústav v počítačovej podobe preberá ich celú produkciu. Práve fakt, že v spomínanom rebríčku frekventovanosti používaných textových jednotiek sa z podstatných mien najčastejšie vyskytujú slová rok, Košice a skratky SR, USA, signalizuje, že v zdrojoch tvorby slovenského korpusu dominujú momentálne publicistické texty.
Deväťčlenný tím špecializovaného oddelenia Jazykovedného ústavu, ktoré sa pod vedením Márie Šimkovej skladá z lingvistov, programátorov a technických pracovníkov, v súčasnosti disponuje vyše 175 miliónmi textových jednotiek. To už poskytuje seriózny pohľad na to, čo a ako v slovenskom jazyku funguje. Cieľom projektu je vybudovať databázu písaných textov v elektronickej podobe od roku 1955, pričom popri jeho ustavičnom kvantitatívnom raste (na porovnanie, nemecký korpus má dve miliardy slov) sa kladie dôraz aj na čo najširšie žánrové spektrum prijímaných textov.
"Prvé práce na utvorení slovenského korpusu sa začali v roku 1990, to sa však týkalo skôr využitia počítača v práci jazykovedcov na vytvorenie databázy textov," hovorí programátor Radovan Garabík. "To bolo v čase, keď sme na Slovensku ešte nemali internet, dnes už si každý nájde potrebný text, a tak sa spolupráca jazykovedcov a programátorov sústreďuje na naplnenie pôvodného významu korpusu."
Jeho primárnou funkciou je umožniť pomocou štatistík zistiť, ktoré slová, ako často a v akom kontexte sa používajú, či vznikajú nové väzby, ako sa jazyk obohacuje o nové slová. "Napríklad slovo učiteľ," ilustruje prácu s korpusom Radovan Garabík, "vyskytuje sa 1939-krát, a ďalej sa dozvieme, že najviac sa používa v spojení so slovami vysokoškolský, škola, výchova, náš a ďalšími." Najčastejšími používateľmi korpusu sú v súčasnosti hlavne tvorcovia slovníkov, konkrétnym príkladom je súčasná príprava nového krátkeho slovníka slovenského jazyka.
Nezanedbateľná je však aj úloha korpusu vo výskumnej lingvistickej činnosti, ale využíva sa tiež vo výučbe cudzích jazykov, pri automatickej kontrole pravopisu, systémoch na rozpoznávanie reči apod. Samozrejme, jeho služby môžu potešiť všetkých ľudí pracujúcich s jazykom, napríklad aj milovníkov krížoviek. Prevažná časť korpusu je prístupná na internetovej adrese korpus.juls.savba.sk.
Všetky texty sa do korpusu preberajú v pôvodnej podobe, teda aj s prípadnými chybami. Práve preto je korpus "len" odrazom reálneho stavu jazyka a spôsobu jeho využívania v danej chvíli a nemôže nahrádzať gramatické príručky.
Pri využívaní korpusu teda treba rátať aj s rôznymi nástrahami. Ak napríklad neviete, či sa správne povie "po prvé" alebo "za prvé", štatisticky síce presvedčivo prevažuje správna forma "po prvé", no na obrazovke sa objaví aj tá druhá možnosť. Jednak to môže byť zapríčinené už spomínanými chybami v preberaných textoch, ale aj tým, že počítač zaznamená tento tvar aj v inom, správnom kontexte, napríklad v spojení: zlatú medailu získal "za prvé" miesto.
Gramaticky nesprávne slovo sa však v korpuse môže vyskytnúť aj z paradoxného dôvodu, keď jeho chybné používanie niekto kritizuje v prevzatom texte. "Naším úsilím je postupne znižovať riziko týchto úskalí, pripravuje sa značkovanie slov, keď ku každému bude určený základný tvar a slovný druh," pokračuje Radovan Garabík. A ako on vidí vzťah korpusu a ideálneho či hovorového jazyka? "Slovník je predstavou jazykovedcov o tom, ako by mali ľudia rozprávať, tí si rozprávajú po svojom, no a korpus je niečo medzi tým."
ALEXANDER BALOGH