ukázka | Co je nového v lingvistice | s. 34 - 39

Page 1

Lingvistika a kvantitativní popis textu Vlastnosti textu ve vztahu k jazyku Budeme se nyní věnovat vlastnostem textu, na které se lingvistika zaměřuje v souvislosti s teorií informace při popisu kvantitativních vlastností textu. Pomezní disciplína, která je s těmito přístupy spojená, se dnes nazývá kvantitativní lingvistika. Dříve se o ní hovořilo jako o matematické lingvistice. U nás má tato disciplína hluboké kořeny a v poslední době se k ní hlásí čím dál větší množství lingvistů, přinejmenším z důvodu využití některých jejích metod, příkladem jsou práce Martiny Benešové a kolektivu (2016) nebo Radka Čecha, Ioan-Iovitze Popesca a Gabriela Altmanna (2014). Entropie Základní kvantitativní vlastností textu je jeho entropie – míra pravděpodobnosti, s níž se v textu vyskytují jeho části, písmena nebo hlásky, případně slova a jiné vyšší jazykové jednotky. Pro příklad si uveďme dva krajní případy textu s vysokou a s nízkou mírou entropie. Podívejme se nejdříve na následující text: ENENENENENENENENE Tento text je složen z abecedy o dvou písmenech – E a N. Při zběžném přehlédnutí tohoto textu zjistíme, že se v něm pravidelně opakuje kombinace EN (případně NE). Pokud budeme předpokládat, že je tento text součástí většího celku, můžeme 34


očekávat, že další písmeno, které následuje za posledním písmenem E, je písmeno N. Můžeme také prohlásit, že např. desáté písmeno textu N následuje písmeno E, což se stalo ve všech předchozích případech výskytu tohoto písmene. Pravděpodobnost výskytu písmene N za písmenem E proto považujeme za stoprocentní. To znamená, že nám přináší nulovou informaci – my víme, co bude v tomto textu následovat za desátým, jedenáctým atd. písmenem. Nic nám nesděluje, kombinace jeho písmen nemůže vyjadřovat žádný obsah. Podívejme se ale na následující text. EENEOLLONLNNOOE V uvedeném textu se opakují čtyři písmena. Shodou okolností se jedná o dvě nejfrekventovanější samohlásky a dvě nejfrekventovanější souhlásky češtiny. Pokud tentokrát, pozorněji než v předchozím příkladu, text přehlédneme, zjistíme po krátkém ohledání, že se v něm nikde neopakuje určitá kombinace dvou písmen – první kombinací písmen je EE a nikde jinde v textu se už nevyskytuje, druhou kombinací písmen je EN a opět ji nenalezneme na žádném dalším místě v textu. To platí pro všechny další kombinace písmen. Stejně jako u předcházejícího textu se můžeme dotázat na to, jakým písmenem text pokračuje. Předchozí text nám dal k tomu, abychom předpokládali jeho pokračování dalšími kombinacemi E a N, dostatečnou evidenci, prostě jsme to z jeho struktury vyvodili. Z tohoto textu ale nic podobného vyvodit nemůžeme, všechny jeho kombinace jsou jedinečné, žádná se neopakuje, nemáme žádný důvod předpokládat, že se některá s větší pravděpodobností zopakuje a mohli bychom ji více než ostatní očekávat. Z tohoto důvodu nese tento text maximální množství informace. Informace tedy vyjadřuje, s jakou pravděpodobností se v textu objevují jeho 35


části (písmena, slova atd.) – pokud s malou, pak nese hodně informace. Předcházející dva příklady textů jsou ilustrativní. Pokud se ale podíváme na texty přirozeného jazyka, např. češtiny, uvidíme, že se v nich určité části vyskytují s větší pravděpodobností než jiné – můžeme proto vyjadřovat míru pravděpodobnosti, s níž se v nich vyskytují jeho části. Pokud si např. představíme text, který začíná písmenem S, pak nebudeme moci předpokládat, které písmeno v něm následuje. V českém textu nalezneme mnoho kombinací písmene S s dalšími písmeny – SA ve slově salám, SB ve slově sběr, SC ve slově scénář atd. Pokračujeme-li ve čtení tohoto pomyslného textu, zjistíme, že v něm následuje písmeno N. Za kombinací písmen SN může následovat pouze samohláska, jako ve slovech snad (A), nesnese (E), upřesnit (I), současnost (O), usnul (U). Některé ze samohlásek se za touto kombinací budou vyskytovat častěji, např. samohláska a a í, některé méně často, např. samohláska u a ó. Za kombinací SN ale nikdy nenalezneme souhlásku, např. T nebo H – pokud se pokusíme vyslovit kombinaci těchto písmen, zjistíme, že důvodem toho, proč se tyto kombinace nevyskytují, je právě jejich nesnadná výslovnost. Výslovnost ale není jediným faktorem, který ovlivňuje vyšší nebo nižší výskyt některých kombinací písmen. Některé kombinace písmen jsou časté např. z důvodů jejich výskytu v určitých gramatických tvarech, kombinace PO se oproti jiným kombinacím písmen vyskytuje častěji proto, že tvoří předponu po- vyskytující se v mnoha slovesech (poslechnout, pohladit, polít), kombinace písmen s písmenem Ó se vyskytují pouze v cizích slovech, protože se v českých slovech v průběhu vývoje jazyka tato hláska přeměnila na hlásku Ú. Do kombinatoriky písmen textu určitého jazyka se tedy promítá velké množství vlastností jazyka. Z těchto důvodů se jednotlivé jazyky odlišují vzhledem ke kombinatorice jejich hlásek a dalších jazykových 36


jednotek – to znamená, že se odlišují mírou informace, kterou nese jejich text. Za takovou formulací je pak nutné podtrhnout to, co již z našeho výkladu vyplývá, že lingvista informací míní pravděpodobnost kombinací částí textu, nikoliv obsah textu. Spektrální analýza Uvedeme ještě jeden příklad, který názorně ukazuje, že text má určitou entropii. V roce 1967 zachytili astronomové signál, který měl velice překvapivou strukturu. V prvních chvílích jím byli natolik překvapeni, že za jedno z vysvětlení struktury signálu považovali to, že je dílem mimozemské inteligence. Objekt, který tento signál vysílal, proto nazvali LGM-1, což je zkratka spojení anglických slov little green men (malí zelení mužíčci). Později se ukázalo, že jakkoliv je signál podivný a ve srovnání s tím, co astronomové ve vesmíru pozorují, představuje velkou anomálii, můžeme jej vysvětlit bez toho, abychom pro něj museli předpokládat inteligentního tvůrce. Tento signál je tvořen kolem sebe blízko rotujícími hvězdami – tento útvar později astronomové nazvali jako pulsar. Podívejme se, jak vypadá signál vysílaný pulsarem (Obrázek 1). Co můžeme na obrázku pozorovat? Jedná se o dva grafy. První z nich je tzv. oscilogram a druhý tzv. spektrogram. Tato zobrazení se používají v lingvistice k výzkumu akustické struktury mluveného textu – jeho zvukových vlastností. My jsme je použili k zobrazení zvuku signálu z pulsaru. Oscilogram (výše položený) zobrazuje na ose x časový průběh signálu, na ose y je zobrazena síla signálu. Spektrogram ukazuje na ose x také časový průběh, na ose y pak výšku zvuku (v oscilogramu je výška zvuku zobrazena počtem kmitů v určitém časovém úseku). Odstíny ve spektrogramu zobrazují intenzitu zvuku právě v určité výšce značené na ose y – bílá barva značí nepřítomnost zvuku 37


Obrázek 1

Obrázek 2

o určité výšce v daném časovém úseku, odstíny šedi směrem k černé naopak zvuk o určité síle. Spektrografická analýza představuje základní lingvistický nástroj dnešních výzkumů zvukové podoby jazyka. V počátcích jejího používání v lingvistice se jí s nadsázkou říkalo viditelná řeč (v odkaze na fyzika Alexandra Melvilla Bella a jeho transkripční abecedu). 38


Lingvistická disciplína, která se touto problematikou zabývá, se nazývá fonetika. Zároveň je spektrogram výchozí prostředek v mnoha praktických aplikacích, např. při rozpoznávání řeči – to v podstatě znamená při automatickém přepisu mluveného slova do psaného. Slouží také při automatickém rozpoznávání mluvčích v tzv. forenzní lingvistice. Využití spektrogramu pro tyto účely umožňuje to, že jednotlivé hlásky nebo jejich typy mají ve spektrogramu specifickou podobu. V následujícím spektrogramu (Obrázek 2) vidíte námi vyslovený název této knihy, Co je nového v lingvistice. Nezvládneme zde podat přehled všech podstatných vlastností hlásek, které můžeme vyčíst ze spektrogramu. Přesto chceme naznačit, jak může grafické zobrazení odrážet vlastnosti zvukového projevu. Pozorovat můžeme dobu trvání hlásky – vidíme, že spojení souhlásky se samohláskou se pohybuje okolo jedné pětiny sekundy. Pokud se ptáte, proč mluvíme o délce trvání více hlásek, pak odpovíme, že určení hranic hlásek představuje specifický problém a v přechodové části mezi nimi není často snadné vyznačit jejich pevné hranice. Když fonetika popisuje délky jednotlivých hlásek, pohybují se časy jejich trvání od méně než desetiny sekundy – např. u hlásky l – až po více než jednu pětinu (200 milisekund) – např. u dlouhých samohlásek. Ačkoliv délka trvání o hláskách mnohé vypovídá – např. i to, zda stojí mezi samohláskami nebo na konci slova (pak jsou hlásky často delší), není jediným a nejlepším kritériem pro jejich rozlišení ve spektrogramu. Dobře viditelnou vlastností hlásek jsou v případě samohlásek jejich formanty – rezonance základního tónu vzniklého v hlasivkách. Ty utvářejí především poměry objemu a tvaru ústní a hrdelní dutiny, které proměňuje posouvání jazyka v ústní dutině. Tyto rezonance mají povahu tónu, tzn. periodického zvuku projevujícího se na určité frekvenci – ve spektrogramu je 39