elektronická kniha

Tvorba korpusů a vytěžování jazykových dat — Metody, modely, nástroje

Petr Pořízka

Univerzita Palackého v Olomouci, Filozoficka fakulta

Metodologický text sumarizující a promýšlející moderní vědecké nástroje, bez nichž se neobejde žádný současný lingvista. Monografie těží z autorova dlouhodobého angažmá v korpusové lingvistice, ale přesahuje ji směrem k počítačovému a technickému zpracování lingvistických dat obecně.

Dostupné pro čtení v aplikacích Flexibooks:

WINDOWS

ONLINE

ISBN: 978-80-87895-16-0

Počet stran:288

Rok vydání:2014

Vaše cena: 179 Kč

Cena zápůjčky na 31 dnů: 54 Kč

POPIS

Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat, efektivního vytěžování dat a prezentuje možnosti a prostředky, jak sestavit vlastní textovou databázi (jazykový korpus).

Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů, zejm. na formát dat a kódování znaků, segmentaci textu či využití značkovacího jazyka XML, jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází. Prezentovány jsou rovněž vybrané softwarové nástroje pro vytěžování korpusových dat, od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje. Technicky nejnáročnějšími pasážemi monografie jsou pak kapitoly, jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů. Postupně tak jsou v monografii představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků, konců řádků i souborového formátu, segmentace či tokenizace textu, jeho zpracování do některého z korpusových formátů (např. do tzv. vertikály), proces anotace různého typu a rozsahu (zejm. lemmatizace a taggování) atd.

Název	Poskytovatel	Účel	Vypršení	Typ
__atrfs	AddThis	Tento soubor cookie je spojen s widgetem pro sdílení na sociálních sítích AddThis. Tento widget se běžně vkládá na webové stránky, aby umožnil návštěvníkům sdílet obsah s řadou platforem pro sdílení.	Relace	cookie
__atuvc	AddThis	Tento soubor cookie je spojen s widgetem pro sdílení na sociálních sítích AddThis. Tento widget se běžně vkládá na webové stránky, aby umožnil návštěvníkům sdílet obsah s řadou platforem pro sdílení.	1 rok	cookie
__atuvs	AddThis	Tento soubor cookie je spojen s widgetem pro sdílení na sociálních sítích AddThis. Tento widget se běžně vkládá na webové stránky, aby umožnil návštěvníkům sdílet obsah s řadou platforem pro sdílení.	1 rok	cookie
_at.cww	AddThis	Používáno pluginem pro sdílení detailu na sociálních sítích.	Relace	localStorage
_at.hist.	AddThis	Používáno pluginem pro sdílení detailu na sociálních sítích.	Trvalý	localStorage
at-lojson-cache-ra-	AddThis	Používáno pluginem pro sdílení detailu na sociálních sítích.	Trvalý	localStorage
at-rand	AddThis	Používáno pluginem pro sdílení detailu na sociálních sítích.	Trvalý	localStorage
VISITOR_INFO1_LIVE	Google	Tento soubor cookie se používá jako jedinečný identifikátor pro sledování videa.	6 měsíců	cookie
YSC	Google	Sledování zobrazení vložených videí.	Relace	cookie
yt-player-bandwidth	Google	Ukládá předvolby přehrávače videa uživatele pomocí pluginu YouTube.	Relace	cookie
yt-player-headers-readable	Google	Ukládá předvolby přehrávače videa uživatele pomocí pluginu YouTube.	17 dnů	cookie
yt-remote-connected-devices	Google	Ukládá předvolby přehrávače videa uživatele pomocí pluginu YouTube.	Trvalý	cookie
yt-remote-device-id	Google	Ukládá předvolby přehrávače videa uživatele pomocí pluginu YouTube.	Trvalý	cookie

Název	Poskytovatel	Účel	Vypršení	Typ
__utma	Google	Pokud se na stránku dostanete z některé z reklam, nebo emailu, může se do cookies uložit jeden z parametrů: __utma, __utmb, __utmc, nebo __utmz.	2 roky	cookie
CONSENT	Google	Slouží ke zjištění, zda návštěvník přijal cookie na straně youtube. Tento soubor cookie je nezbytný pro dodržování GDPR na youtube a tudíž také nezbytný pro zobrazení youtube videí na detailu titulu.	Relace	cookie
__qca	Issuu	Shromažďuje údaje o návštěvách uživatele na webových stránkách, jako je počet návštěv, průměrná doba strávená na webových stránkách a načtené stránky, za účelem vytváření zpráv pro optimalizaci obsahu webových stránek.	Trvalý	cookie
_ga	Google		Trvalý	cookie
__utmb	Google		30 minut	cookie
__utmc	Google		Relace	cookie
__utmt	Google		10 minut	cookie
__utmz	Google		6 měsíců	cookie

Název	Poskytovatel	Účel	Vypršení	Typ
ASP.NET_SessionId	Netdirect	Je soubor cookie, který se používá k identifikaci relace uživatele na serveru. Relace je oblast na serveru, kterou lze použít k ukládání dat mezi požadavky http.	Relace	cookie
_userIdentity	Netdirect	Nutná informace k identifikaci přihlášeného uživatele. Při speciálním přihlašování.	14 dnů	cookie

Název	Poskytovatel	Účel	Vypršení	Typ
iutk	Issuu	Rozpoznává zařízení uživatele a dokumenty Issuu, které byly přečteny.	12 let	localStorage
sessionPageNumbers	Issuu	Nastaví jedinečné ID relace. To umožňuje webové stránce získávat údaje o chování návštěvníků pro statistické účely.	Relace	localStorage
sessionStartTime	Issuu	Určuje, kdy návštěvník naposledy navštívil různé podstránky na webu, a také nastavuje časové razítko, kdy relace začala.	Relace	localStorage
NID	Google	Většina uživatelů bude mít ve svém prohlížeči cookie zvanou 'NID'. Prohlížeč posílá tuto cookie společně s požadavky na Google stránky. NID cookie obsahuje unikátní id, které Google vaužívá k zapamatování vašich preferencí a dalších informací jako jsou váš preferovaný jazyk, kolik výsledků vyhledávání si přejete mít zobrazeno na stránku (tzn. 10 nebo 20), a nebo jestli si přejete mít Google SafeSearch filtr aktívní.	Trvalý	cookie
Hyphenator_cs	Google		Relace	localStorage

Zboží v košíku

Tvorba korpusů a vytěžování jazykových dat — Metody, modely, nástroje

Petr Pořízka

Univerzita Palackého v Olomouci, Filozoficka fakulta

Dostupné pro čtení v aplikacích Flexibooks:

ISBN: 978-80-87895-16-0

POPIS

Současně nakupované

Academic English -...

Reklama

Keramika pro život s...

Umění žít pozitivně

Jak ušít ekopanenky

Do posledního dechu

Techniky...

Kreativní diář

Proč cítím to, co ty

Praktické postupy v...