Korpusová lingvistika je jednou z mladých disciplín, která hraje velmi důležitou roli v životě, ať už se jedná o zdravotnictví, ekonomii, hospodářství nebo vědu. Je to nový vědní obor, který vznikl díky rozvoji informačních technologií, a to zejména od 90. let minulého století.
Korpusová lingvistika se zabývá zkoumáním jazyka na základě rozsáhlých souborů textů (korpusů). Korpus představuje soubor textů, v případě jazyka mluveného se pak jedná o přepis záznamu mluvy. Korpusy slouží zejména k jazykovému výzkumu, umožňují zkoumat jazykové jevy v kontextu i v různých textových zdrojích, analyzovat frekvenci výskytů v daném korpusu atd.
Český národní korpus (ČNK) je budován Ústavem Českého národního korpusu (ÚČNK) na Filozofické fakultě Karlovy univerzity. Ústav je veden Prof. PhDr. Jany Marie Tuškové, Ph.D. ÚČNK se věnuje pořádání seminářů a přednášek týkajících se korpusu i korpusové lingvistiky pro veřejnost, která o tuto problematiku jeví zájem. ÚČNK také vytváří jazykové příručky ve spolupráci s Karlovy i další instituce.
Český národní korpus obsahuje i významnou mluvenou složku jazyka. Pro práci s korpusy se používá speciální vyhledávací program, tzv. korpusový manažer. V současnosti je používán speciální vyhledávací program BONITO.
Korpusy mohou být různé, a to podle zaměření, obsahu a rozsahu. Dělí se na synchronní (mluvený i psaný) a diachronní.
Synchronní korpusy zachycují jazyk v určitém časovém úseku. V rámci ČNK se synchronní korpus ještě dělí na další menší korpusy.
Korpus ORAL2006 je nejreprezentativnější záznam autentické mluvené češtiny. Obsahuje přibližně 1 milion slovních tvarů. Zohledňuje základní sociolingvistické kategorie mluvčích, tzn. věk (děti, mládeže), vzdělání (vyšší x nižší) a typ nahrávky (formální, tj. a strukturované otázky x neformální, tj. neřízený dialog dvou mluvčích). Navazuje na něj korpus ORAL2008.
ORAL2006 se snaží zachytit češtinu z celé oblasti českých nářečí v užším slova smyslu. Nahrávky pocházejí z let 2002-2006. Důležité je, že se mluvčí se vzájemně znali a měli k sobě přátelský vztah.
Tyto korpusy jsou doplňovány a vyvíjeny v letech 1990-2010, proto je označujeme jako tzv. dynamické. Aktualizace probíhá většinou nepravidelně, přibližně jedenkrát ročně. SYN2005 (2005-2009) slouží jako zdroj a doplnění Frekvenčního slovníku češtiny.
LINK je korpus vytvořený u příležitosti životního jubilea prof. Čermáka a sestavený pouze z lingvistických textů. Je zaměřen na oblast akademického jazyka, jako jsou výzkum terminologie, jazyk lingvistiky apod.
Diachronní korpusy zachycují vývoj jazyka v delším časovém období. Příkladem je DIALEKT, který zachycuje texty od poloviny 13. století až do poloviny století 20. Hranicí u textů odborného charakteru je konec 2. světové války, resp. rok 1944. Rozšiřování textů probíhá i nadále tempem asi 250 000 slovních tvarů ročně.
Paralelní korpusy obsahují jak texty originální, tak i jejich jinojazyčné překlady. Významnou roli v tomto ohledu má především korpus InterCorp, který nabízí texty v mnoha jazycích. Slouží zejména k výuce cizích jazyků, počítačové aplikace, překladatele i veřejnost.
Pro efektivní práci s korpusem je klíčové seznámit se s vyhledávacím programem BONITO. Zahrnuje to:
Implicitní atribut je vždy při spuštění manažeru nastavený na word. Výsledky zobrazené v korpusu se nazývají konkordanční řádky. Standardně je nastavené zobrazení pouze prvních 50 konkordančních řádků, ale tento počet lze měnit. Důležité je zjištění původního zdroje textu, který může být beletristické i odborné dílo.
Pro tvorbu složitějších dotazů je důležité využívat funkci "A zároveň". BONITO umožňuje vyhledávat podle různých atributů (word, lemma, tag, lc, pos, k, g, c). Lze také vyhledávat podle lemmatu (základního tvaru slova) a morfologických značek.
Chutný oběd: Gratinovaná vejce
Český národní korpus může být velkým přínosem ve výuce českého jazyka na základní škole. Umožňuje žákům procvičovat a opakovat učivo a srovnání současného jazykového úzu. Přístup do korpusu není nijak obtížné.
Korpus SYN2000 je široké veřejnosti zpřístupněn. Umožňuje vyhledávání výrazů i bez registrace. Po zadání hledaného výrazu se zobrazí tzv. konkordančních řádků, ve kterých se hledaný výraz nachází. I zde se v korpusu zobrazí pouze prvních 50 konkordančních řádků.
Korpus lze využít k ověření kodifikované podoby slov, zejména na pravopis a jeho jednotlivé složky. Umožňuje identifikovat jevů, se kterými měli žáci v hodinách českého jazyka největší problémy. Lze vyhledávat nejen slova spisovného jazyka, ale i tvary nekodifikované, tj. které mohou žákům dělat potíže či pro ně mohou být nejasné.
Pomocí ČNK lze ověřit správný pravopis slov a slovních spojení. Následující příklady ilustrují, jak lze korpus využít při řešení konkrétních jazykových problémů:
Například, pokud chceme ověřit pravopis slova "hbitý", vepíšeme dané slovo do vyhledávače v podobě [lemma=“hbitý“]. Získáme tak všechny tvary adjektiva "hbitý" včetně jeho stupňovaných tvarů.
Pokud narazíme na neobvyklé sloveso, jako je "slynout", můžeme zjistit, v jakém kontextu a v jakém typu textu se vyskytuje. Například zjistíme, že opus.txtype=PUB, tzn. publicistického stylu.
Korpus umožňuje analyzovat dvojice nepravých zvukových homonym, jako jsou "výr" a "vír". Zjistíme počet výskytů všech tvarů u obou variant slov.
Můžeme zjistit frekvenci výskytu určitých slovních spojení, například "veřejná správa" (2494 výskytů).
Díky těmto možnostem se Český národní korpus stává neocenitelným nástrojem pro učitele, studenty i lingvisty.