Korpus ukazuje, čo a ako v jazyku funguje

Najfrekventovanejšou textovou jednotkou v slovenčine je čiarka, druhé miesto patrí bodke, potom spojke a, predložke v, nasledujú ďalšie interpunkčné znamienka, tvary pomocného slovesa byť, zámená, číslice, predložky a spojky, prvú päťdesiatku uzatvára ..

Najfrekventovanejšou textovou jednotkou v slovenčine je čiarka, druhé miesto patrí bodke, potom spojke a, predložke v, nasledujú ďalšie interpunkčné znamienka, tvary pomocného slovesa byť, zámená, číslice, predložky a spojky, prvú päťdesiatku uzatvára slovko aby. Aj toto sa možno dozvedieť zo Slovenského národného korpusu, ktorý sa od roku 2002 buduje v rovnomennom oddelení Jazykovedného ústavu Ľudovíta Štúra SAV.

Korpus je špecifický súbor jazykových dát v elektronickej podobe, ktorý prináša pohľad na reálne fungovanie jazykových prostriedkov. Vytvára sa priebežne z textov od zmluvných dodávateľov, napríklad vydavateľstiev kníh alebo periodík, ako aj spisovateľov či publicistov, od ktorých Jazykovedný ústav v počítačovej podobe preberá ich celú produkciu. Práve fakt, že v spomínanom rebríčku frekventovanosti používaných textových jednotiek sa z podstatných mien najčastejšie vyskytujú slová rok, Košice a skratky SR, USA, signalizuje, že v zdrojoch tvorby slovenského korpusu dominujú momentálne publicistické texty.

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

SkryťVypnúť reklamu

Deväťčlenný tím špecializovaného oddelenia Jazykovedného ústavu, ktoré sa pod vedením Márie Šimkovej skladá z lingvistov, programátorov a technických pracovníkov, v súčasnosti disponuje vyše 175 miliónmi textových jednotiek. To už poskytuje seriózny pohľad na to, čo a ako v slovenskom jazyku funguje. Cieľom projektu je vybudovať databázu písaných textov v elektronickej podobe od roku 1955, pričom popri jeho ustavičnom kvantitatívnom raste (na porovnanie, nemecký korpus má dve miliardy slov) sa kladie dôraz aj na čo najširšie žánrové spektrum prijímaných textov.

"Prvé práce na utvorení slovenského korpusu sa začali v roku 1990, to sa však týkalo skôr využitia počítača v práci jazykovedcov na vytvorenie databázy textov," hovorí programátor Radovan Garabík. "To bolo v čase, keď sme na Slovensku ešte nemali internet, dnes už si každý nájde potrebný text, a tak sa spolupráca jazykovedcov a programátorov sústreďuje na naplnenie pôvodného významu korpusu."

SkryťVypnúť reklamu

Jeho primárnou funkciou je umožniť pomocou štatistík zistiť, ktoré slová, ako často a v akom kontexte sa používajú, či vznikajú nové väzby, ako sa jazyk obohacuje o nové slová. "Napríklad slovo učiteľ," ilustruje prácu s korpusom Radovan Garabík, "vyskytuje sa 1939-krát, a ďalej sa dozvieme, že najviac sa používa v spojení so slovami vysokoškolský, škola, výchova, náš a ďalšími." Najčastejšími používateľmi korpusu sú v súčasnosti hlavne tvorcovia slovníkov, konkrétnym príkladom je súčasná príprava nového krátkeho slovníka slovenského jazyka.

Nezanedbateľná je však aj úloha korpusu vo výskumnej lingvistickej činnosti, ale využíva sa tiež vo výučbe cudzích jazykov, pri automatickej kontrole pravopisu, systémoch na rozpoznávanie reči apod. Samozrejme, jeho služby môžu potešiť všetkých ľudí pracujúcich s jazykom, napríklad aj milovníkov krížoviek. Prevažná časť korpusu je prístupná na internetovej adrese korpus.juls.savba.sk.

SkryťVypnúť reklamu

Všetky texty sa do korpusu preberajú v pôvodnej podobe, teda aj s prípadnými chybami. Práve preto je korpus "len" odrazom reálneho stavu jazyka a spôsobu jeho využívania v danej chvíli a nemôže nahrádzať gramatické príručky.

Pri využívaní korpusu teda treba rátať aj s rôznymi nástrahami. Ak napríklad neviete, či sa správne povie "po prvé" alebo "za prvé", štatisticky síce presvedčivo prevažuje správna forma "po prvé", no na obrazovke sa objaví aj tá druhá možnosť. Jednak to môže byť zapríčinené už spomínanými chybami v preberaných textoch, ale aj tým, že počítač zaznamená tento tvar aj v inom, správnom kontexte, napríklad v spojení: zlatú medailu získal "za prvé" miesto.

Gramaticky nesprávne slovo sa však v korpuse môže vyskytnúť aj z paradoxného dôvodu, keď jeho chybné používanie niekto kritizuje v prevzatom texte. "Naším úsilím je postupne znižovať riziko týchto úskalí, pripravuje sa značkovanie slov, keď ku každému bude určený základný tvar a slovný druh," pokračuje Radovan Garabík. A ako on vidí vzťah korpusu a ideálneho či hovorového jazyka? "Slovník je predstavou jazykovedcov o tom, ako by mali ľudia rozprávať, tí si rozprávajú po svojom, no a korpus je niečo medzi tým."

SkryťVypnúť reklamu

ALEXANDER BALOGH

SkryťVypnúť reklamu

Najčítanejšie na SME

Komerčné články

  1. Anna Macaláková: Výnos je len časť príbehu investície
  2. Slony, ticho savany, Kilimandžáro. Keňa je skvelá na prvé safari
  3. Sudoku a hlavolamy: Nenechajte sivé bunky zaháľať ani počas leta
  4. Kam v auguste k moru? 4 tipy na last minute dovolenku
  5. Sedemnásť hotelov, kde si oddych užijú deti aj dospelí
  6. Ako sa vyhnúť cukrovke 2. typu: Prvý krok urobte ešte dnes
  7. Vyžrebovanie futbalových súťaží: Kedy hrá vaše mesto či dedina?
  8. Prvý realitný fond ťaží z oživenia trhu a nižších sadzieb
  1. Slony, ticho savany, Kilimandžáro. Keňa je skvelá na prvé safari
  2. Anna Macaláková: Výnos je len časť príbehu investície
  3. Pochvala v teame nie je „bonus“, ale kyslík
  4. Sudoku a hlavolamy: Nenechajte sivé bunky zaháľať ani počas leta
  5. Kam v auguste k moru? 4 tipy na last minute dovolenku
  6. Drony menia lesníctvo, LESY SR testujú 3D modelovanie územia
  7. Sedemnásť hotelov, kde si oddych užijú deti aj dospelí
  8. Vyžrebovanie futbalových súťaží: Kedy hrá vaše mesto či dedina?
  1. Ako sa vyhnúť cukrovke 2. typu: Prvý krok urobte ešte dnes 16 211
  2. Kam v auguste k moru? 4 tipy na last minute dovolenku 14 693
  3. Sedemnásť hotelov, kde si oddych užijú deti aj dospelí 4 776
  4. Osem tipov, kam cestovať počas sviatku na konci augusta 4 103
  5. Vyžrebovanie futbalových súťaží: Kedy hrá vaše mesto či dedina? 3 270
  6. Prvý realitný fond ťaží z oživenia trhu a nižších sadzieb 3 208
  7. Sudoku a hlavolamy: Nenechajte sivé bunky zaháľať ani počas leta 2 528
  8. Slony, ticho savany, Kilimandžáro. Keňa je skvelá na prvé safari 2 378
SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťZatvoriť reklamu