využít poukaz
WINDOWS
ONLINE
Počet stran:288
Rok vydání:2014
Vaše cena: 179 Kč
Cena zápůjčky na 31 dnů: 54 Kč
Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat, efektivního vytěžování dat a prezentuje možnosti a prostředky, jak sestavit vlastní textovou databázi (jazykový korpus).
Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů, zejm. na formát dat a kódování znaků, segmentaci textu či využití značkovacího jazyka XML, jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází. Prezentovány jsou rovněž vybrané softwarové nástroje pro vytěžování korpusových dat, od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje. Technicky nejnáročnějšími pasážemi monografie jsou pak kapitoly, jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů. Postupně tak jsou v monografii představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků, konců řádků i souborového formátu, segmentace či tokenizace textu, jeho zpracování do některého z korpusových formátů (např. do tzv. vertikály), proces anotace různého typu a rozsahu (zejm. lemmatizace a taggování) atd.