Budou počítače někdy rozumět česky?
Při čtení si většinou vůbec neuvědomujeme, jak složitý proces je porozumění textu. Když identifikujeme jednotlivá písmena, která se nám složí v grafický obraz slova, musíme k tomuto obrazu přiřadit správný význam a podvědomě identifikovat jeho gramatické kategorie, abychom byli schopni říct, co ve větě funguje jako sloveso a které slovo k němu patří jako jeho podmět nebo předmět apod. K tomu potřebujeme nejen dobrou znalost slovníku daného jazyka, ale také povědomí o kontextu věty a situaci, v níž se nachází.
Disciplína, která učí počítače rozumět jazyku, se nazývá zpracování přirozeného jazyka (natural language processing) a zahrnuje mimo jiné automatické metody vytváření a porozumění textu. Asi nejlepším testem porozumění je překládání, kterému vždy musí porozumění předcházet (každý, kdo zkusil překládat něco, čemu nerozumí, to potvrdí). O automatickém překladu to pak platí dvojnásob.
V podstatě od 60. let se tu a tam v odborných textech dočteme, že automatický strojový překlad, tedy situace, kdy počítač překládá text z jednoho přirozeného jazyka do druhého, je otázkou už velmi blízké budoucnosti. Fakt, že takové aplikace na uspokojivé úrovni stále neexistují, je dostatečným důkazem toho, že celá záležitost bude podstatně složitější, než jsme si původně mysleli.
V čem tkví ta obtížnost? Problém je mj. v tom, že inventář forem je v přirozených jazycích vždycky omezený (např. každý jazyk operuje sice s velkým, ale stále konečným počtem slov) zatímco množství různých významů, které potřebujeme vyjadřovat, je potenciálně nekonečné. Všimněme si například, jak omezené vyjadřovací možnosti nám poskytují jednotlivá slova vyjadřující barvy; bez dodatečných příslovcí jako cihlově (červený), sytě (fialový), kaštanově (hnědý), azurově (modrý), brčálově (zelený) bychom se při popisu běžných skutečností neobešli. Význam se tedy neskrývá v jednotlivých slovech, ale často až v jejich kombinacích.
Navíc můžeme pozorovat, že jednotlivé slovní tvary mají různé významy (ve skutečnosti je s výjimkou některých vědeckých termínů velmi málo slov, která by měla pouze jeden význam). Nejde jen o jev nazývaný homonymie, tedy o fakt, že vlivem různých historických okolností má jedno slovo dva úplně odlišné významy jako např. slovo koleje, které může označovat studentskou ubytovnu nebo také dva ocelové pláty, po nichž jezdí vlaky. Mnohem častější je, že slova mají různé význam nebo funkce podle toho, v jakých kontextech se vyskytují, např. ale je spojka a také částice vyjadřující postoj mluvčího třeba ve větě Ale kdepak!
Jazyk se zde projevuje velmi ekonomicky: jedno slovo slouží v různých kontextech různým účelům. Bez toho by jazyk musel mít mnohonásobně větší slovník při zachování stejných vyjadřovacích možností.
Můžeme uvést spoustu příkladů počítačového zpracování přirozeného jazyka, které dokládají, jak obtížné je kvůli jazykové ekonomii naučit počítače porozumět současné češtině. Pro lepší práci s korpusy a vyhledávání konkrétních slov je v jazycích, jako je čeština, třeba ke každému slovu dodat informaci o jeho slovníkové podobě, tzv. lemma (u slova psa bude lemma pes, u slova běhám bude běhat apod.), a o jeho gramatických kategoriích, tzv. tag. Jelikož v případě korpusů mluvíme o sbírkách textů s velikostí desítek nebo stovek milionů slov, je zřejmé, že tuto práci musí dělat počítače. A zde narazíme na problémy: jak vysvětlit počítači, že drtivá většina výskytů slova jak neoznačuje tibetského sudokopytníka, ale prostě zájmenné příslovce, že slovo Ale na začátku věty není oslovením někdejšího amerického viceprezidenta Ala Gora, že hnát je někdy podstatné jméno, ale častěji sloveso a kořen není většinou trpný rod slovesa kořit se, ale prostě jenom substantivum apod.?
Jeden z prvních českých korpusových pokusů v 90. letech dospěl k neočekávanému výsledku, že mezi nejfrekventovanějšími českými slovesy je překvapivě i slovo telit. Způsobil to samozřejmě klam formy, kdy počítač rozpoznal v běžné inzerátové zkratce „tel.“ rozkazovací způsob tohoto jinak poměrně řídkého slovesa. Vrcholem umělé inteligence v této oblasti pak bývají tzv. hadače, programy, které se pokoušejí u slov, která jsou nová nebo z nějakého důvodu počítači neznámá, odhadnout jeho slovníkovou podobu. Z běžné novinové zkratky KDU-ČSL se tak rázem může stát 2. pád množného čísla substantiva Kdu-čslo.
V případě automatických překladačů se tyto úsměvné záměny stávají přímo noční můrou jejich tvůrců. Představte si, jaké problémy musí dělat některé víceznačné věty (oblíbené mezi některými kolegy lingvisty): Jak moc zkazila politika, kde slovo moc může být příslovcem nebo podstatným jménem, nebo zrádné filozofické zamyšlení Peklo je stav mysli, v němž každé jednotlivé slovo může být zároveň slovesným tvarem i podstatným jménem nebo zájmenem. Špatná interpretace, na které člověk vyzbrojený znalostí kontextu ve většině případů ani nepomyslí, tady může mít fatální důsledky pro překlad. Nemluvě už vůbec o případech, kde si ani rodilý mluvčí nemůže být jistý, jaký význam daná věta má, pokud nezná běžné zákonitosti okolního světa nebo situační kontext. Věta Měsíc zakryl tmavý mrak je jednoznačná jenom proto, že víme, že měsíc nemůže stát mezi pozorovatelem a mrakem. Oblíbená věta historiků Rakousko porazilo Prusko je bez znalosti historického pozadí jednoznačně nedekódovatelná.
S příchodem korpusové lingvistiky na konci 20. století začíná být jasné, že pro pochopení textu a jeho překlad nelze vystačit pouze s porozuměním jednotlivým slovům. Často potřebujeme znát i kontext promluvy a význam kombinací slov. Drtivou většinu naší slovní zásoby totiž tvoří víceslovné jednotky (např. ony víceslovné názvy barevných odstínů, termíny nebo sousloví jako politická strana, druhá světová či moje maličkost). Jejich překladové ekvivalenty můžou a nemusí být také víceslovné, ale jsou většinou jednoznačné: pouze political party, nikoli *political side nebo *political page. Cenným pomocníkem v této oblasti může být tzv. paralelní korpus budovaný v rámci projektu Českého národního korpusu na FF UK, který umožňuje porovnávat české texty a jejich překlady z 22 převážně evropských jazyků.
Na závěr bych chtěl zdůraznit, že v oblasti zpracování přirozeného jazyka byla za posledních 50 let udělána spousta záslužné práce. Zjevně dochází ke kontinuálnímu zlepšování a vyvíjení nových postupů (ačkoli realita stále významně zaostává za někdejšími nadšenými prognózami). Celá tato oblast bádání tak podává jasný obraz o tom, jak komplexní a složitý organizmus jazyk je, jak obtížně se proniká do jeho tajů a jak málo zatím po více než 2000 letech lingvistického výzkumu víme o jeho fungování. Dokud bude překlad věty: Byla v jiném stavu, ale nedělala si s tím hlavu vypadat takto: She was in another state, but he did not do it with his head (překladač Google), můžeme konstatovat, že je zatím na hony vzdálená budoucnost, kdy budou počítače umět rozpoznat a vhodně přeložit i metaforu, ironii, sarkasmus či hyperbolu. Překladatelé se tak o svoji práci bát ještě nějaký čas nemusí.
Původně psáno pro revue Rozrazil. Upraveno.
Disciplína, která učí počítače rozumět jazyku, se nazývá zpracování přirozeného jazyka (natural language processing) a zahrnuje mimo jiné automatické metody vytváření a porozumění textu. Asi nejlepším testem porozumění je překládání, kterému vždy musí porozumění předcházet (každý, kdo zkusil překládat něco, čemu nerozumí, to potvrdí). O automatickém překladu to pak platí dvojnásob.
V podstatě od 60. let se tu a tam v odborných textech dočteme, že automatický strojový překlad, tedy situace, kdy počítač překládá text z jednoho přirozeného jazyka do druhého, je otázkou už velmi blízké budoucnosti. Fakt, že takové aplikace na uspokojivé úrovni stále neexistují, je dostatečným důkazem toho, že celá záležitost bude podstatně složitější, než jsme si původně mysleli.
V čem tkví ta obtížnost? Problém je mj. v tom, že inventář forem je v přirozených jazycích vždycky omezený (např. každý jazyk operuje sice s velkým, ale stále konečným počtem slov) zatímco množství různých významů, které potřebujeme vyjadřovat, je potenciálně nekonečné. Všimněme si například, jak omezené vyjadřovací možnosti nám poskytují jednotlivá slova vyjadřující barvy; bez dodatečných příslovcí jako cihlově (červený), sytě (fialový), kaštanově (hnědý), azurově (modrý), brčálově (zelený) bychom se při popisu běžných skutečností neobešli. Význam se tedy neskrývá v jednotlivých slovech, ale často až v jejich kombinacích.
Navíc můžeme pozorovat, že jednotlivé slovní tvary mají různé významy (ve skutečnosti je s výjimkou některých vědeckých termínů velmi málo slov, která by měla pouze jeden význam). Nejde jen o jev nazývaný homonymie, tedy o fakt, že vlivem různých historických okolností má jedno slovo dva úplně odlišné významy jako např. slovo koleje, které může označovat studentskou ubytovnu nebo také dva ocelové pláty, po nichž jezdí vlaky. Mnohem častější je, že slova mají různé význam nebo funkce podle toho, v jakých kontextech se vyskytují, např. ale je spojka a také částice vyjadřující postoj mluvčího třeba ve větě Ale kdepak!
Jazyk se zde projevuje velmi ekonomicky: jedno slovo slouží v různých kontextech různým účelům. Bez toho by jazyk musel mít mnohonásobně větší slovník při zachování stejných vyjadřovacích možností.
Můžeme uvést spoustu příkladů počítačového zpracování přirozeného jazyka, které dokládají, jak obtížné je kvůli jazykové ekonomii naučit počítače porozumět současné češtině. Pro lepší práci s korpusy a vyhledávání konkrétních slov je v jazycích, jako je čeština, třeba ke každému slovu dodat informaci o jeho slovníkové podobě, tzv. lemma (u slova psa bude lemma pes, u slova běhám bude běhat apod.), a o jeho gramatických kategoriích, tzv. tag. Jelikož v případě korpusů mluvíme o sbírkách textů s velikostí desítek nebo stovek milionů slov, je zřejmé, že tuto práci musí dělat počítače. A zde narazíme na problémy: jak vysvětlit počítači, že drtivá většina výskytů slova jak neoznačuje tibetského sudokopytníka, ale prostě zájmenné příslovce, že slovo Ale na začátku věty není oslovením někdejšího amerického viceprezidenta Ala Gora, že hnát je někdy podstatné jméno, ale častěji sloveso a kořen není většinou trpný rod slovesa kořit se, ale prostě jenom substantivum apod.?
Jeden z prvních českých korpusových pokusů v 90. letech dospěl k neočekávanému výsledku, že mezi nejfrekventovanějšími českými slovesy je překvapivě i slovo telit. Způsobil to samozřejmě klam formy, kdy počítač rozpoznal v běžné inzerátové zkratce „tel.“ rozkazovací způsob tohoto jinak poměrně řídkého slovesa. Vrcholem umělé inteligence v této oblasti pak bývají tzv. hadače, programy, které se pokoušejí u slov, která jsou nová nebo z nějakého důvodu počítači neznámá, odhadnout jeho slovníkovou podobu. Z běžné novinové zkratky KDU-ČSL se tak rázem může stát 2. pád množného čísla substantiva Kdu-čslo.
V případě automatických překladačů se tyto úsměvné záměny stávají přímo noční můrou jejich tvůrců. Představte si, jaké problémy musí dělat některé víceznačné věty (oblíbené mezi některými kolegy lingvisty): Jak moc zkazila politika, kde slovo moc může být příslovcem nebo podstatným jménem, nebo zrádné filozofické zamyšlení Peklo je stav mysli, v němž každé jednotlivé slovo může být zároveň slovesným tvarem i podstatným jménem nebo zájmenem. Špatná interpretace, na které člověk vyzbrojený znalostí kontextu ve většině případů ani nepomyslí, tady může mít fatální důsledky pro překlad. Nemluvě už vůbec o případech, kde si ani rodilý mluvčí nemůže být jistý, jaký význam daná věta má, pokud nezná běžné zákonitosti okolního světa nebo situační kontext. Věta Měsíc zakryl tmavý mrak je jednoznačná jenom proto, že víme, že měsíc nemůže stát mezi pozorovatelem a mrakem. Oblíbená věta historiků Rakousko porazilo Prusko je bez znalosti historického pozadí jednoznačně nedekódovatelná.
S příchodem korpusové lingvistiky na konci 20. století začíná být jasné, že pro pochopení textu a jeho překlad nelze vystačit pouze s porozuměním jednotlivým slovům. Často potřebujeme znát i kontext promluvy a význam kombinací slov. Drtivou většinu naší slovní zásoby totiž tvoří víceslovné jednotky (např. ony víceslovné názvy barevných odstínů, termíny nebo sousloví jako politická strana, druhá světová či moje maličkost). Jejich překladové ekvivalenty můžou a nemusí být také víceslovné, ale jsou většinou jednoznačné: pouze political party, nikoli *political side nebo *political page. Cenným pomocníkem v této oblasti může být tzv. paralelní korpus budovaný v rámci projektu Českého národního korpusu na FF UK, který umožňuje porovnávat české texty a jejich překlady z 22 převážně evropských jazyků.
Na závěr bych chtěl zdůraznit, že v oblasti zpracování přirozeného jazyka byla za posledních 50 let udělána spousta záslužné práce. Zjevně dochází ke kontinuálnímu zlepšování a vyvíjení nových postupů (ačkoli realita stále významně zaostává za někdejšími nadšenými prognózami). Celá tato oblast bádání tak podává jasný obraz o tom, jak komplexní a složitý organizmus jazyk je, jak obtížně se proniká do jeho tajů a jak málo zatím po více než 2000 letech lingvistického výzkumu víme o jeho fungování. Dokud bude překlad věty: Byla v jiném stavu, ale nedělala si s tím hlavu vypadat takto: She was in another state, but he did not do it with his head (překladač Google), můžeme konstatovat, že je zatím na hony vzdálená budoucnost, kdy budou počítače umět rozpoznat a vhodně přeložit i metaforu, ironii, sarkasmus či hyperbolu. Překladatelé se tak o svoji práci bát ještě nějaký čas nemusí.
Původně psáno pro revue Rozrazil. Upraveno.