elektronická kniha

Tvorba korpusů a vytěžování jazykových dat —  Metody, modely, nástroje

Petr Pořízka

Univerzita Palackeho v Olomouci, Filozoficka fakulta

Metodologický text sumarizující a promýšlející moderní vědecké nástroje, bez nichž se neobejde žádný současný lingvista. Monografie těží z autorova dlouhodobého angažmá v korpusové lingvistice, ale přesahuje ji směrem k počítačovému a technickému zpracování lingvistických dat obecně.

Dostupné pro čtení v aplikacích Flexibooks:

WINDOWS

ONLINE

ISBN: 978-80-87895-16-0

Počet stran:288

Rok vydání:2014

Vaše cena: 179 

Cena zápůjčky na 31 dnů: 54 

  • Koupit pro sebe 1ks

  • Koupit poukaz/počet

  • Zápůjčka na 31 dnů     


Koupit

POPIS

Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat, efektivního vytěžování dat a prezentuje možnosti a prostředky, jak sestavit vlastní textovou databázi (jazykový korpus).

Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů, zejm. na formát dat a kódování znaků, segmentaci textu či využití značkovacího jazyka XML, jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází. Prezentovány jsou rovněž vybrané softwarové nástroje pro vytěžování korpusových dat, od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje. Technicky nejnáročnějšími pasážemi monografie jsou pak kapitoly, jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů. Postupně tak jsou v monografii představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků, konců řádků i souborového formátu, segmentace či tokenizace textu, jeho zpracování do některého z korpusových formátů (např. do tzv. vertikály), proces anotace různého typu a rozsahu (zejm. lemmatizace a taggování) atd.


Současně nakupované