Budou počítače někdy rozumět česky?

10. 02. 2010 | 08:15
Přečteno 4541 krát
Při čtení si většinou vůbec neuvědomujeme, jak složitý proces je porozumění textu. Když identifikujeme jednotlivá písmena, která se nám složí v grafický obraz slova, musíme k tomuto obrazu přiřadit správný význam a podvědomě identifikovat jeho gramatické kategorie, abychom byli schopni říct, co ve větě funguje jako sloveso a které slovo k němu patří jako jeho podmět nebo předmět apod. K tomu potřebujeme nejen dobrou znalost slovníku daného jazyka, ale také povědomí o kontextu věty a situaci, v níž se nachází.

Disciplína, která učí počítače rozumět jazyku, se nazývá zpracování přirozeného jazyka (natural language processing) a zahrnuje mimo jiné automatické metody vytváření a porozumění textu. Asi nejlepším testem porozumění je překládání, kterému vždy musí porozumění předcházet (každý, kdo zkusil překládat něco, čemu nerozumí, to potvrdí). O automatickém překladu to pak platí dvojnásob.

V podstatě od 60. let se tu a tam v odborných textech dočteme, že automatický strojový překlad, tedy situace, kdy počítač překládá text z jednoho přirozeného jazyka do druhého, je otázkou už velmi blízké budoucnosti. Fakt, že takové aplikace na uspokojivé úrovni stále neexistují, je dostatečným důkazem toho, že celá záležitost bude podstatně složitější, než jsme si původně mysleli.

V čem tkví ta obtížnost? Problém je mj. v tom, že inventář forem je v přirozených jazycích vždycky omezený (např. každý jazyk operuje sice s velkým, ale stále konečným počtem slov) zatímco množství různých významů, které potřebujeme vyjadřovat, je potenciálně nekonečné. Všimněme si například, jak omezené vyjadřovací možnosti nám poskytují jednotlivá slova vyjadřující barvy; bez dodatečných příslovcí jako cihlově (červený), sytě (fialový), kaštanově (hnědý), azurově (modrý), brčálově (zelený) bychom se při popisu běžných skutečností neobešli. Význam se tedy neskrývá v jednotlivých slovech, ale často až v jejich kombinacích.

Navíc můžeme pozorovat, že jednotlivé slovní tvary mají různé významy (ve skutečnosti je s výjimkou některých vědeckých termínů velmi málo slov, která by měla pouze jeden význam). Nejde jen o jev nazývaný homonymie, tedy o fakt, že vlivem různých historických okolností má jedno slovo dva úplně odlišné významy jako např. slovo koleje, které může označovat studentskou ubytovnu nebo také dva ocelové pláty, po nichž jezdí vlaky. Mnohem častější je, že slova mají různé význam nebo funkce podle toho, v jakých kontextech se vyskytují, např. ale je spojka a také částice vyjadřující postoj mluvčího třeba ve větě Ale kdepak!

Jazyk se zde projevuje velmi ekonomicky: jedno slovo slouží v různých kontextech různým účelům. Bez toho by jazyk musel mít mnohonásobně větší slovník při zachování stejných vyjadřovacích možností.

Můžeme uvést spoustu příkladů počítačového zpracování přirozeného jazyka, které dokládají, jak obtížné je kvůli jazykové ekonomii naučit počítače porozumět současné češtině. Pro lepší práci s korpusy a vyhledávání konkrétních slov je v jazycích, jako je čeština, třeba ke každému slovu dodat informaci o jeho slovníkové podobě, tzv. lemma (u slova psa bude lemma pes, u slova běhám bude běhat apod.), a o jeho gramatických kategoriích, tzv. tag. Jelikož v případě korpusů mluvíme o sbírkách textů s velikostí desítek nebo stovek milionů slov, je zřejmé, že tuto práci musí dělat počítače. A zde narazíme na problémy: jak vysvětlit počítači, že drtivá většina výskytů slova jak neoznačuje tibetského sudokopytníka, ale prostě zájmenné příslovce, že slovo Ale na začátku věty není oslovením někdejšího amerického viceprezidenta Ala Gora, že hnát je někdy podstatné jméno, ale častěji sloveso a kořen není většinou trpný rod slovesa kořit se, ale prostě jenom substantivum apod.?

Jeden z prvních českých korpusových pokusů v 90. letech dospěl k neočekávanému výsledku, že mezi nejfrekventovanějšími českými slovesy je překvapivě i slovo telit. Způsobil to samozřejmě klam formy, kdy počítač rozpoznal v běžné inzerátové zkratce „tel.“ rozkazovací způsob tohoto jinak poměrně řídkého slovesa. Vrcholem umělé inteligence v této oblasti pak bývají tzv. hadače, programy, které se pokoušejí u slov, která jsou nová nebo z nějakého důvodu počítači neznámá, odhadnout jeho slovníkovou podobu. Z běžné novinové zkratky KDU-ČSL se tak rázem může stát 2. pád množného čísla substantiva Kdu-čslo.

V případě automatických překladačů se tyto úsměvné záměny stávají přímo noční můrou jejich tvůrců. Představte si, jaké problémy musí dělat některé víceznačné věty (oblíbené mezi některými kolegy lingvisty): Jak moc zkazila politika, kde slovo moc může být příslovcem nebo podstatným jménem, nebo zrádné filozofické zamyšlení Peklo je stav mysli, v němž každé jednotlivé slovo může být zároveň slovesným tvarem i podstatným jménem nebo zájmenem. Špatná interpretace, na které člověk vyzbrojený znalostí kontextu ve většině případů ani nepomyslí, tady může mít fatální důsledky pro překlad. Nemluvě už vůbec o případech, kde si ani rodilý mluvčí nemůže být jistý, jaký význam daná věta má, pokud nezná běžné zákonitosti okolního světa nebo situační kontext. Věta Měsíc zakryl tmavý mrak je jednoznačná jenom proto, že víme, že měsíc nemůže stát mezi pozorovatelem a mrakem. Oblíbená věta historiků Rakousko porazilo Prusko je bez znalosti historického pozadí jednoznačně nedekódovatelná.

S příchodem korpusové lingvistiky na konci 20. století začíná být jasné, že pro pochopení textu a jeho překlad nelze vystačit pouze s porozuměním jednotlivým slovům. Často potřebujeme znát i kontext promluvy a význam kombinací slov. Drtivou většinu naší slovní zásoby totiž tvoří víceslovné jednotky (např. ony víceslovné názvy barevných odstínů, termíny nebo sousloví jako politická strana, druhá světová či moje maličkost). Jejich překladové ekvivalenty můžou a nemusí být také víceslovné, ale jsou většinou jednoznačné: pouze political party, nikoli *political side nebo *political page. Cenným pomocníkem v této oblasti může být tzv. paralelní korpus budovaný v rámci projektu Českého národního korpusu na FF UK, který umožňuje porovnávat české texty a jejich překlady z 22 převážně evropských jazyků.

Na závěr bych chtěl zdůraznit, že v oblasti zpracování přirozeného jazyka byla za posledních 50 let udělána spousta záslužné práce. Zjevně dochází ke kontinuálnímu zlepšování a vyvíjení nových postupů (ačkoli realita stále významně zaostává za někdejšími nadšenými prognózami). Celá tato oblast bádání tak podává jasný obraz o tom, jak komplexní a složitý organizmus jazyk je, jak obtížně se proniká do jeho tajů a jak málo zatím po více než 2000 letech lingvistického výzkumu víme o jeho fungování. Dokud bude překlad věty: Byla v jiném stavu, ale nedělala si s tím hlavu vypadat takto: She was in another state, but he did not do it with his head (překladač Google), můžeme konstatovat, že je zatím na hony vzdálená budoucnost, kdy budou počítače umět rozpoznat a vhodně přeložit i metaforu, ironii, sarkasmus či hyperbolu. Překladatelé se tak o svoji práci bát ještě nějaký čas nemusí.


Původně psáno pro revue Rozrazil. Upraveno.

Blogeři abecedně

A Aktuálně.cz Blog · Atapana Mnislav Zelený B Baar Vladimír · Babka Michael · Balabán Miloš · Bartoníček Radek · Bartošek Jan · Bartošová Ela · Bavlšíková Adéla · Bečková Kateřina · Bednář Vojtěch · Bělobrádek Pavel · Beránek Jan · Berkovcová Jana · Bernard Josef · Berwid-Buquoy Jan · Bielinová Petra · Bína Jiří · Bízková Rut · Blaha Stanislav · Blažek Kamil · Bobek Miroslav · Boehmová Tereza · Brenna Yngvar · Bureš Radim · Bůžek Lukáš · Byčkov Semjon C Cerman Ivo · Cizinsky Ludvik Č Černoušek Štěpán · Česko Chytré · Čipera Erik · Čtenářův blog D David Jiří · Davis Magdalena · Dienstbier Jiří · Dlabajová Martina · Dolejš Jiří · Dostál Ondřej · Dudák Vladislav · Duka Dominik · Duong Nguyen Thi Thuy · Dvořák Jan · Dvořák Petr · Dvořáková Vladimíra E Elfmark František F Fafejtová Klára · Fajt Jiří · Fendrych Martin · Fiala Petr · Fibigerová Markéta · Fischer Pavel G Gálik Stanislav · Gargulák Karel · Geislerová Ester · Girsa Václav · Glanc Tomáš · Goláň Tomáš · Gregorová Markéta · Groman Martin H Hájek Jan · Hála Martin · Halík Tomáš · Hamáček Jan · Hampl Václav · Hamplová Jana · Hapala Jiří · Hasenkopf Pavel · Hastík František · Havel Petr · Heller Šimon · Herman Daniel · Heroldová Martina · Hilšer Marek · Hladík Petr · Hlaváček Petr · Hlubučková Andrea · Hnízdil Jan · Hokovský Radko · Holásková Kamila · Holmerová Iva · Honzák Radkin · Horáková Adéla · Horký Petr · Hořejš Nikola · Hořejší Václav · Hrabálek Alexandr · Hradilková Jana · Hrstka Filip · Hřib Zdeněk · Hubálková Pavla · Hubinger Václav · Hülle Tomáš · Hušek Radek · Hvížďala Karel CH Charanzová Dita · Chlup Radek · Chromý Heřman · Chýla Jiří · Chytil Ondřej J Janda Jakub · Janeček Karel · Janeček Vít · Janečková Tereza · Janyška Petr · Jelínková Michaela Mlíčková · Jourová Věra · Just Jiří · Just Vladimír K Kaláb Tomáš · Kania Ondřej · Karfík Filip · Karlický Josef · Klan Petr · Klepárník  Vít · Klíma Pavel · Klíma Vít · Klimeš David · Klusoň Jan · Kňapová Kateřina · Kocián Antonín · Kohoutová Růžena · Koch Paul Vincent · Kolaja Marcel · Kolářová Marie · Kolínská Petra · Kolovratník Martin · Konrádová Kateřina · Kopeček Lubomír · Kostlán František · Kotišová Miluš · Koudelka Zdeněk · Koutská Petra Schwarz · Kozák Kryštof · Krafl Martin · Krása Václav · Kraus Ivan · Kroupová Johana · Křeček Stanislav · Kubr Milan · Kučera Josef · Kučera Vladimír · Kučerová Karolína · Kuchař Jakub · Kuchař Jaroslav · Kukal Petr · Kupka Martin · Kuras Benjamin · Kutílek Petr · Kužílek Oldřich · Kyselý Ondřej L Laně Tomáš · Linhart Zbyněk · Lipavský Jan · Lipold Jan · Lomová Olga M Máca Roman · Mahdalová Eva · Máchalová Jana · Maláčová Jana · Málková Ivana · Marvanová Hana · Mašát Martin · Měska Jiří · Metelka Ladislav · Michálek Libor · Miller Robert · Minář Mikuláš · Minařík Petr · Mittner Jiří · Moore Markéta · Mrkvička Jan · Müller Zdeněk · Mundier Milan · Münich Daniel N Nacher Patrik · Nachtigallová Mariana Novotná · Návrat Petr · Navrátil Marek · Němec Václav · Nerudová Danuše · Nerušil Josef · Niedermayer Luděk · Nosková Věra · Nouzová Pavlína · Nováčková Jana · Novák Aleš · Novotný Martin · Novotný Vít · Nožička Josef O Obluk Karel · Ocelák Radek · Oláh Michal · Ouhel Tomáš · Oujezdská Marie · Outlý Jan P Pačes Václav · Palik Michal · Paroubek Jiří · Pavel Petr · Pavelka Zdenko · Payne Jan · Payne Petr Pazdera · Pehe Jiří · Peksa Mikuláš · Pelda Zdeněk · Petrák Milán · Petříček Tomáš · Petříčková Iva · Pfeffer Vladimír · Pfeiler Tomáš · Pícha Vladimír · Pilip Ivan · Pitek Daniel · Pixová Michaela · Plaček Jan · Podzimek Jan · Pohled zblízka · Polách Kamil · Polčák Stanislav · Potměšilová Hana · Pražskej blog · Prouza Tomáš R Rabas Přemysl · Rajmon David · Rakušan Vít · Ráž Roman · Redakce Aktuálně.cz  · Reiner Martin · Richterová Olga · Robejšek Petr · Ruščák Andrej · Rydzyk Pavel · Rychlík Jan Ř Řebíková Barbora · Řeháčková Karolína Avivi · Říha Miloš · Řízek Tomáš S Sedlák Martin · Seitlová Jitka · Schneider Ondřej · Schwarzenberg Karel · Sirový Michal · Skalíková Lucie · Skuhrovec Jiří · Sládek Jan · Sláma Bohumil · Slavíček Jan · Slejška Zdeněk · Slimáková Margit · Smoljak David · Smutný Pavel · Sobíšek Pavel · Sokačová Linda · Soukal Josef · Soukup Ondřej · Sportbar · Staněk Antonín · Stanoev Martin · Stehlík Michal · Stehlíková Džamila · Stránský Martin Jan · Strmiska Jan · Stulík David · Svárovský Martin · Svoboda Cyril · Svoboda Jiří · Svoboda Pavel · Sýkora Filip · Syrovátka Jonáš Š Šebek Tomáš · Šefrnová Tereza · Šimáček Martin · Šimková Karolína · Šindelář Pavel · Šípová Adéla · Šlechtová Karla · Šmíd Milan · Šojdrová Michaela · Šoltés Michal · Špalková Veronika Krátká · Špinka Filip · Špok Dalibor · Šteffl Ondřej · Štěpán Martin · Štěpánek Pavel · Štern Ivan · Štern Jan · Štětka Václav · Štrobl Daniel T T. Tereza · Táborský Adam · Tejkalová N. Alice · Telička Pavel · Titěrová Kristýna · Tolasz Radim · Tománek Jan · Tomčiak Boris · Tomek Prokop · Tomský Alexander · Trantina Pavel · Tůma Petr · Turek Jan U Uhl Petr · Urban Jan V Vacková Pavla · Václav Petr · Vaculík Jan · Vácha Marek · Valdrová Jana · Vančurová Martina · Vavruška Dalibor · Věchet Martin Geronimo · Vendlová Veronika · Vhrsti · Vích Tomáš · Vlach Robert · Vodrážka Mirek · Vojtěch Adam · Vojtková Michaela Trtíková · Vostrá Denisa · Výborný Marek · Vyskočil František W Walek Czeslaw · Wichterle Kamil · Wirthová Jitka · Witassek Libor Z Zádrapa Lukáš · Zajíček Zdeněk · Zaorálek Lubomír · Závodský Ondřej · Zelený Milan · Zeman Václav · Zima Tomáš · Zlatuška Jiří · Zouzalík Marek Ž Žák Miroslav · Žák Václav · Žantovský Michael · Žantovský Petr Ostatní Dlouhodobě neaktivní blogy