Čo je to počítačová lingvistika? Rýchly rast objemov textových informácií v elektronickej podobe

21.09.2019

KURZOVÁ PRÁCA

v odbore "informatika"

na tému: "Počítačová lingvistika"


ÚVOD

2. Moderné rozhrania výpočtovej lingvistiky

ZÁVER

LITERATÚRA


Úvod

Automatizované informačné technológie zohrávajú dôležitú úlohu v živote modernej spoločnosti. S postupom času ich hodnota neustále rastie. Rozvoj informačných technológií je však veľmi nerovnomerný: ak je moderná úroveň počítačovej techniky a komunikácií úžasná, potom v oblasti sémantického spracovania informácií sú úspechy oveľa skromnejšie. Tieto úspechy závisia predovšetkým od úspechov v štúdiu procesov ľudského myslenia, procesov rečovej komunikácie medzi ľuďmi a od schopnosti simulovať tieto procesy na počítači.

Pri vytváraní pokročilých informačných technológií sa do popredia dostávajú problémy automatického spracovania textových informácií prezentovaných v prirodzených jazykoch. Je to dané tým, že myslenie človeka je úzko späté s jeho jazykom. Okrem toho je prirodzený jazyk nástrojom myslenia. Je tiež univerzálnym prostriedkom komunikácie medzi ľuďmi – prostriedkom vnímania, akumulácie, uchovávania, spracovania a prenosu informácií. Problémom používania prirodzeného jazyka v systémoch automatického spracovania informácií sa zaoberá veda počítačová lingvistika. Táto veda vznikla pomerne nedávno – na prelome päťdesiatych a šesťdesiatych rokov minulého storočia. Za posledné polstoročie sa v oblasti počítačovej lingvistiky dosiahli významné vedecké a praktické výsledky: systémy na strojový preklad textov z jedného prirodzeného jazyka do druhého, systémy na automatizované vyhľadávanie informácií v textoch, systémy na automatickú analýzu a syntézu ústneho reč a mnohé ďalšie boli vytvorené. Táto práca je venovaná konštrukcii optimálneho počítačového rozhrania s využitím výpočtovej lingvistiky pre lingvistický výskum.


1. Miesto a úloha počítačovej lingvistiky v lingvistickom výskume

V modernom svete sa počítačová lingvistika čoraz viac využíva v rôznych lingvistických štúdiách.

Počítačová lingvistika je oblasť vedomostí súvisiaca s riešením problémov automatického spracovania informácií prezentovaných v prirodzenom jazyku. Ústrednými vedeckými problémami počítačovej lingvistiky sú problém modelovania procesu chápania významu textov (prechod od textu k formalizovanej reprezentácii jeho významu) a problém syntézy reči (prechod od formalizovanej reprezentácie významu k textom v prirodzenom prostredí). Jazyk). Tieto problémy vznikajú pri riešení množstva aplikovaných problémov a najmä problémov s automatickou detekciou a opravou chýb pri zadávaní textov do počítača, automatickou analýzou a syntézou ústnej reči, automatickým prekladom textov z jedného jazyka do druhého, komunikáciou s počítač v prirodzenom jazyku, automatická klasifikácia a indexácia textových dokumentov, ich automatické odkazovanie, vyhľadávanie dokumentov vo fulltextových databázach.

Lingvistické nástroje vytvorené a používané v počítačovej lingvistike možno podmienečne rozdeliť na dve časti: deklaratívnu a procedurálnu. Deklatívna časť obsahuje slovníky jazykových a rečových jednotiek, texty a rôzne druhy gramatických tabuliek, zatiaľ čo procedurálna časť obsahuje prostriedky na manipuláciu s jazykovými a rečovými jednotkami, textami a gramatickými tabuľkami. Počítačové rozhranie sa vzťahuje na procedurálnu časť výpočtovej lingvistiky.

Úspech pri riešení aplikovaných problémov výpočtovej lingvistiky závisí predovšetkým od úplnosti a presnosti reprezentácie deklaratívnych prostriedkov v pamäti počítača a od kvality procedurálnych prostriedkov. K dnešnému dňu sa nepodarilo dosiahnuť požadovanú úroveň riešenia týchto problémov, hoci práca v oblasti počítačovej lingvistiky prebieha vo všetkých vyspelých krajinách sveta (Rusko, USA, Anglicko, Francúzsko, Nemecko, Japonsko atď.). ).

Napriek tomu možno zaznamenať vážne vedecké a praktické úspechy v oblasti počítačovej lingvistiky. Takže v mnohých krajinách (Rusko, USA, Japonsko atď.) boli vybudované experimentálne a priemyselné systémy na strojový preklad textov z jedného jazyka do druhého, bolo vybudovaných množstvo experimentálnych systémov na komunikáciu s počítačmi v prirodzenom jazyku. , prebiehajú práce na tvorbe terminologických databáz, tezaurov, dvojjazyčných a viacjazyčných strojových slovníkov (Rusko, USA, Nemecko, Francúzsko atď.), budujú sa systémy pre automatickú analýzu a syntézu ústnej reči (Rusko, USA, Japonsko atď. .), prebieha výskum v oblasti budovania modelov prirodzených jazykov.

Dôležitým metodologickým problémom aplikovanej výpočtovej lingvistiky je správne posúdenie potrebnej korelácie medzi deklaratívnou a procedurálnou zložkou systémov automatického spracovania textových informácií. Čo by sa malo uprednostniť: výkonné výpočtové postupy založené na relatívne malých systémoch slovnej zásoby s bohatými gramatickými a sémantickými informáciami alebo výkonný deklaratívny komponent s relatívne jednoduchými počítačovými rozhraniami? Väčšina vedcov verí, že druhá cesta je vhodnejšia. Povedie to k rýchlejšiemu dosiahnutiu praktických cieľov, pretože v tomto prípade bude menej slepých uličiek a ťažko prekonateľných prekážok a tu bude možné využívať počítače vo väčšom meradle na automatizáciu výskumu a vývoja.

Potrebu zmobilizovať úsilie predovšetkým o rozvoj deklaratívnej zložky systémov automatického spracovania textu potvrdzujú polstoročie skúseností vo vývoji počítačovej lingvistiky. Koniec koncov, tu, napriek nesporným úspechom tejto vedy, nadšenie pre algoritmické postupy neprinieslo očakávaný úspech. Dokonca nastalo isté sklamanie v možnostiach procesných prostriedkov.

Vo svetle vyššie uvedeného sa zdá sľubná taká cesta rozvoja počítačovej lingvistiky, keď hlavné úsilie bude smerovať k vytvoreniu výkonných slovníkov jednotiek jazyka a reči, štúdiu ich sémanticko-syntaktickej štruktúry a tvorbe základné postupy pre morfologickú, sémanticko-syntaktickú a konceptuálnu analýzu a syntézu textov. To umožní v budúcnosti riešiť široké spektrum aplikovaných problémov.

Počítačová lingvistika stojí v prvom rade pred úlohami jazykovej podpory procesov zhromažďovania, akumulácie, spracovania a vyhľadávania informácií. Najdôležitejšie z nich sú:

1. Automatizácia zostavovania a jazykového spracovania strojových slovníkov;

2. Automatizácia procesov zisťovania a opravy chýb pri zadávaní textov do počítača;

3. Automatické indexovanie dokumentov a žiadostí o informácie;

4. Automatická klasifikácia a odkazovanie na dokumenty;

5. Jazyková podpora procesov vyhľadávania informácií v jednojazyčných a viacjazyčných databázach;

6. Strojový preklad textov z jedného prirodzeného jazyka do druhého;

7. Konštrukcia lingvistických procesorov, ktoré používateľom poskytujú komunikáciu s automatizovanými inteligentnými informačnými systémami (najmä s expertnými systémami) v prirodzenom jazyku alebo v jazyku blízkom prirodzenému;

8. Extrakcia faktografických informácií z neformalizovaných textov.

Zastavme sa podrobne pri problémoch, ktoré sú pre danú tému výskumu najrelevantnejšie.

V praktickej činnosti informačných centier vzniká potreba riešiť problém automatizovanej detekcie a opravy chýb v textoch pri ich zadávaní do počítača. Túto komplexnú úlohu možno podmienečne rozdeliť do troch úloh – úlohy pravopisu, syntaktickej a sémantickej kontroly textov. Prvý z nich je možné vyriešiť pomocou postupu morfologickej analýzy, ktorý využíva pomerne výkonný referenčný strojový slovník kmeňov slov. V procese kontroly pravopisu sa slová textu podrobia morfologickej analýze a ak sú ich základy identifikované so základmi referenčného slovníka, potom sa považujú za správne; ak nie sú identifikované, potom sú spolu s mikrokontextom dané na nahliadnutie osobe. Osoba zistí a opraví skreslené slová a príslušný softvérový systém vykoná tieto opravy opraveného textu.

Úloha syntaktickej kontroly textov s cieľom odhaliť v nich chyby je oveľa ťažšia ako úloha kontroly ich pravopisu. Po prvé preto, že vo svojom zložení zahŕňa úlohu kontroly pravopisu ako jeho povinnú súčasť, a po druhé preto, že problém syntaktickej analýzy neformalizovaných textov ešte nie je úplne vyriešený. Čiastočná syntaktická kontrola textov je však celkom možná. Tu sú dve možnosti: buď zostaviť dostatočne reprezentatívne strojové slovníky referenčných syntaktických štruktúr a porovnať s nimi syntaktické štruktúry analyzovaného textu; alebo vypracovať komplexný systém pravidiel na kontrolu gramatickej konzistentnosti textových prvkov. Prvý spôsob sa nám zdá perspektívnejší, aj keď, samozrejme, nevylučuje možnosť použitia prvkov druhého spôsobu. Syntaktická štruktúra textov by mala byť opísaná z hľadiska gramatických tried slov (presnejšie vo forme sekvencií množín gramatických informácií pre slová).

Úloha sémantickej kontroly textov s cieľom odhaliť sémantické chyby v nich by mala byť priradená triede úloh umelej inteligencie. V plnej miere sa dá riešiť len na základe modelovania procesov ľudského myslenia. V tomto prípade bude zrejme potrebné vytvoriť výkonné encyklopedické bázy znalostí a softvérové ​​nástroje na manipuláciu so znalosťami. Pre obmedzené tematické oblasti a pre formalizované informácie je však tento problém celkom riešiteľný. Mala by byť postavená a riešená ako úloha sémanticko-syntaktickej kontroly textov.

Problém automatizácie indexovania dokumentov a dopytov je tradičný pre systémy automatizovaného textového vyhľadávania. Indexovanie sa spočiatku chápalo ako proces priraďovania klasifikačných indexov k dokumentom a dopytom, odrážajúcim ich tematický obsah. V budúcnosti sa tento koncept pretransformoval a výrazom „indexovanie“ sa začal označovať proces prekladu popisov dokumentov a dopytov z prirodzeného jazyka do formalizovaného jazyka, najmä do jazyka „hľadania obrázkov“. Vyhľadávacie obrázky dokumentov sa spravidla začali vytvárať vo forme zoznamov kľúčových slov a fráz odrážajúcich ich tematický obsah a vyhľadávacích obrázkov dopytov - vo forme logických štruktúr, v ktorých boli kľúčové slová a frázy navzájom prepojené. pomocou logických a syntaktických operátorov.

Automatické indexovanie dokumentov je vhodné vykonávať podľa textov ich abstraktov (ak existujú), pretože hlavný obsah dokumentov sa v abstraktoch odráža v koncentrovanej forme. Indexovanie je možné vykonať s kontrolou tezauru alebo bez neho. V prvom prípade sa kľúčové slová a frázy referenčného strojového slovníka hľadajú v názve dokumentu a jeho abstrakte a do DOD sa zahrnú len tie, ktoré sa nachádzajú v slovníku. V druhom prípade sú kľúčové slová a frázy extrahované z textu a zahrnuté do POD, bez ohľadu na to, či patria do nejakého referenčného slovníka. Bola implementovaná aj tretia možnosť, kde okrem výrazov zo strojového tezauru AML obsahoval aj výrazy extrahované z názvu a prvej vety abstraktu dokumentu. Experimenty ukázali, že PODy zostavené automaticky na základe názvov a abstraktov dokumentov poskytujú väčšiu úplnosť vyhľadávania ako manuálne zostavené PODy. Vysvetľuje to skutočnosť, že systém automatického indexovania plnšie odráža rôzne aspekty obsahu dokumentov ako systém manuálneho indexovania.

Pri automatickom indexovaní dopytov vznikajú približne rovnaké problémy ako pri automatickom indexovaní dokumentov. Tu tiež musíte extrahovať kľúčové slová a frázy z textu a normalizovať slová zahrnuté v texte dopytu. Logické prepojenia medzi kľúčovými slovami a frázami a kontextové operátory je možné zadať manuálne alebo pomocou automatizovaného postupu. Dôležitým prvkom procesu automatického indexovania dopytu je pridávanie jeho kľúčových slov a fráz s ich synonymami a hyponymami (niekedy aj hypernymami a inými výrazmi spojenými s pôvodnými výrazmi dopytu). Dá sa to urobiť automaticky alebo interaktívne pomocou strojového tezauru.

Problémom automatizácie vyhľadávania dokumentárnych informácií sme sa už čiastočne zaoberali v súvislosti s úlohou automatického indexovania. Najsľubnejšie je tu vyhľadávanie dokumentov podľa ich úplných textov, keďže použitie všemožných náhrad na tento účel (bibliografické popisy, vyhľadávacie obrázky dokumentov a texty ich abstraktov) vedie k strate informácií pri vyhľadávaní. K najväčším stratám dochádza pri použití ich bibliografických popisov ako náhrad za primárne dokumenty, k najmenším pri použití abstraktov.

Dôležitými charakteristikami kvality vyhľadávania informácií je ich úplnosť a presnosť. Úplnosť vyhľadávania možno zabezpečiť čo najväčším zohľadnením paradigmatických súvislostí medzi jednotkami jazyka a reči (slová a frázy) a presnosť - zohľadnením ich syntagmatických spojení. Existuje názor, že úplnosť a presnosť vyhľadávania sú nepriamo úmerné: opatrenia na zlepšenie jednej z týchto vlastností vedú k zhoršeniu druhej. To však platí len pre pevnú logiku vyhľadávania. Ak sa táto logika zlepší, obe charakteristiky sa môžu zlepšiť súčasne.

Proces vyhľadávania informácií vo fulltextových databázach je vhodné vybudovať ako proces interaktívnej komunikácie medzi používateľom a systémom na vyhľadávanie informácií (IPS), v ktorom si postupne prezerá textové fragmenty (odseky, odseky), ktoré vyhovujú logickému podmienok žiadosti a vyberie tie, ktoré sú pre neho zaujímavé. Ako konečné výsledky vyhľadávania je možné zobraziť plné texty dokumentov aj ľubovoľné ich časti.

Ako je zrejmé z predchádzajúcich úvah, pri automatickom vyhľadávaní informácií je potrebné prekonať jazykovú bariéru, ktorá vzniká medzi používateľom a IPS v dôsledku rôznorodosti foriem reprezentácie rovnakého významu, ktorá sa odohráva v textoch. Táto bariéra sa stáva ešte výraznejšou, ak musíte vyhľadávať vo viacjazyčných databázach. Kardinálnym riešením problému tu môže byť strojový preklad textov dokumentov z jedného jazyka do druhého. Dá sa to urobiť buď vopred, pred nahraním dokumentov do vyhľadávača, alebo v procese hľadania informácií. V druhom prípade musí byť dopyt používateľa preložený do jazyka súboru dokumentov, v ktorom sa vyhľadávanie vykonáva, a výsledky vyhľadávania musia byť preložené do jazyka dopytu. Vyhľadávače tohto druhu už na internete fungujú. Vo VINITI RAS bol vybudovaný aj systém Cyrillic Browser, ktorý umožňuje vyhľadávať informácie v ruskojazyčných textoch na dopyty v angličtine, pričom výsledky vyhľadávania sa zobrazujú aj v jazyku používateľa.

Dôležitou a sľubnou úlohou počítačovej lingvistiky je konštrukcia lingvistických procesorov, ktoré používateľom poskytujú komunikáciu s inteligentnými automatizovanými informačnými systémami (najmä s expertnými systémami) v prirodzenom jazyku alebo v jazyku blízkom prirodzenému. Keďže informácie sú v moderných inteligentných systémoch uložené vo formalizovanej forme, lingvistické procesory, fungujúce ako sprostredkovatelia medzi osobou a počítačom, musia riešiť tieto hlavné úlohy: 1) úloha prechodu od textov vstupných informačných požiadaviek a správ v prirodzenom jazyku reprezentovať ich význam vo formalizovanom jazyku (pri zadávaní informácií do počítača); 2) úloha prechodu od formalizovanej reprezentácie významu výstupných správ k jej reprezentácii v prirodzenom jazyku (keď sa informácie poskytujú osobe). Prvá úloha by mala byť riešená morfologickou, syntaktickou a konceptuálnou analýzou vstupných požiadaviek a správ, druhá - konceptuálnou, syntaktickou a morfologickou syntézou výstupných správ.

Konceptuálna analýza informačných požiadaviek a správ spočíva v identifikácii ich pojmovej štruktúry (hranice názvov pojmov a vzťahov medzi pojmami v texte) a preklade tejto štruktúry do formalizovaného jazyka. Vykonáva sa po morfologickej a syntaktickej analýze požiadaviek a správ. Konceptuálna syntéza správ spočíva v prechode od reprezentácie prvkov ich štruktúry vo formalizovanom jazyku k verbálnej (verbálnej) reprezentácii. Potom správy dostanú potrebný syntaktický a morfologický dizajn.

Pre strojový preklad textov z jedného prirodzeného jazyka do druhého je potrebné mať slovníky prekladových korešpondencií medzi názvami pojmov. Poznatky o takýchto prekladových korešpondenciách zhromaždilo mnoho generácií ľudí a vydali ich vo forme špeciálnych vydaní – dvojjazyčných alebo viacjazyčných slovníkov. Odborníkom, ktorí do istej miery ovládajú cudzie jazyky, poslúžili tieto slovníky ako cenná pomôcka pri preklade textov.

V tradičných dvojjazyčných a viacjazyčných všeobecných slovníkoch sa prekladové ekvivalenty uvádzali najmä pre jednotlivé slová a pre frázy - oveľa menej často. Uvádzanie prekladových ekvivalentov pri slovných spojeniach bolo typické skôr pre špeciálne terminologické slovníky. Preto pri preklade úsekov textov obsahujúcich polysémantické slová mali študenti často ťažkosti.

Nižšie sú uvedené prekladové korešpondencie medzi niekoľkými pármi anglických a ruských fráz na „školské“ témy.

1) Netopier vyzerá ako myš s krídlami - Netopier vyzerá ako myš s krídlami.

2) Deti sa radi hrajú v piesku na pláži - Deti milujú hrať sa v piesku na pláži.

3) Kvapka dažďa mi padla na ruku - Kvapka dažďa mi padla na ruku.

4) Suché drevo ľahko horí – suché drevo dobre horí.

5) Tváril sa, že ma nepočuje - Tváril sa, že ma nepočuje.

Anglické frázy tu nie sú idiomatické výrazy. Napriek tomu ich preklad do ruštiny možno s určitým rozsahom považovať iba za jednoduchý preklad od slova do slova, pretože takmer všetky slová v nich obsiahnuté sú polysémické. Preto tu môžu študentom pomôcť iba výdobytky počítačovej lingvistiky.

COMPUTER LINGUSTICS (sledovací papier z anglickej computational linguistics), jedna z oblastí aplikovanej lingvistiky, v ktorej sa vyvíjajú a využívajú počítačové programy, počítačové technológie na organizáciu a spracovanie dát na štúdium jazyka a modelovanie fungovania jazyka v určitých podmienkach, situácie a problémové oblasti. Na druhej strane ide o oblasť aplikácie počítačových jazykových modelov v lingvistike a príbuzných disciplínach. Ako osobitný vedecký smer sa počítačová lingvistika formovala v európskych štúdiách v 60. rokoch 20. storočia. Keďže anglické prídavné meno computational možno preložiť aj ako „computational“, v literatúre sa nachádza aj pojem „computational linguistics“, no v domácej vede nadobúda užší význam, približujúci sa pojmu „kvantitatívna lingvistika“.

Termín „kvantitatívna lingvistika“ sa často označuje ako počítačová lingvistika, ktorá charakterizuje interdisciplinárny smer v aplikovanom výskume, kde sa kvantitatívne alebo štatistické metódy analýzy používajú ako hlavný nástroj na štúdium jazyka a reči. Niekedy je kvantitatívna (alebo kvantitatívna) lingvistika v protiklade ku kombinatorickej lingvistike. V poslednom menovanom má dominantnú úlohu „nekvantitatívny“ matematický aparát – teória množín, matematická logika, teória algoritmov atď. Z teoretického hľadiska využitie štatistických metód v lingvistike umožňuje doplniť štrukturálny model jazyka s pravdepodobnostnou zložkou, tj vytvoriť teoretický štruktúrno-pravdepodobnostný model s výrazným vysvetľovacím potenciálom. V aplikovanej oblasti je kvantitatívna lingvistika zastúpená predovšetkým využívaním fragmentov tohto modelu slúžiaceho na lingvistické sledovanie fungovania jazyka, dekódovanie zakódovaného textu, autorizáciu/pripisovanie textu a pod.

Pojem „počítačová lingvistika“ a problémy tejto oblasti sa často spájajú s modelovaním komunikácie a predovšetkým – s poskytovaním interakcie človeka s počítačom v prirodzenom alebo obmedzenom prirodzenom jazyku (na tento účel sú vytvorené špeciálne systémy na spracovanie prirodzeného jazyka ), ako aj s teóriou a praxou informačných vyhľadávačov (IPS). Zabezpečenie komunikácie medzi osobou a počítačom v prirodzenom jazyku sa niekedy označuje ako „spracovanie prirodzeného jazyka“ (preklad z angličtiny výrazu Natural Language Processing). Tento smer počítačovej lingvistiky vznikol koncom 60. rokov v zahraničí a rozvíjal sa v rámci vedecko-technickej disciplíny nazývanej umelá inteligencia (práce R. Schenka, M. Lebovitsa, T. Winograda a i.). Výraz „spracovanie prirodzeného jazyka“ by vo svojom význame mal zahŕňať všetky oblasti, v ktorých sa používajú počítače na spracovanie jazykových údajov. V praxi sa však ustálilo užšie chápanie pojmu – vývoj metód, technológií a špecifických systémov, ktoré zabezpečujú komunikáciu medzi človekom a počítačom v prirodzenom alebo obmedzenom prirodzenom jazyku.

Počítačová lingvistika môže do určitej miery zahŕňať práce z oblasti vytvárania hypertextových systémov, ktoré sa považujú za osobitný spôsob organizácie textu a dokonca za zásadne nový typ textu, ktorý je v mnohých vlastnostiach protikladný k bežnému textu formovanému v Gutenbergovej tradícii. tlače (pozri Gutenberg).

Počítačová lingvistika zahŕňa aj automatický preklad.

V rámci počítačovej lingvistiky sa objavil relatívne nový smer, ktorý sa aktívne rozvíjal od 80. a 90. rokov 20. storočia - korpusová lingvistika, kde sa rozvíjajú všeobecné princípy konštrukcie lingvistických dátových korpusov (najmä textových) pomocou moderných počítačových technológií. Textové korpusy sú kolekcie špeciálne vybraných textov kníh, časopisov, novín a pod., prevedené na strojové médiá a určené na automatické spracovanie. Jeden z prvých korpusov textov vznikol pre americkú angličtinu na Brown University (tzv. Brown Corpus) v rokoch 1962-63 pod vedením W. Francisa. V Rusku sa od začiatku 21. storočia v Inštitúte ruského jazyka VV Vinogradova Ruskej akadémie vied vyvíja Národný korpus ruského jazyka, ktorý pozostáva z reprezentatívnej vzorky ruskojazyčných textov s objemom približne 100 miliónov slovných použití. Okrem samotnej konštrukcie dátových korpusov sa korpusová lingvistika zaoberá tvorbou počítačových nástrojov (počítačových programov) určených na extrakciu rôznych informácií z textových korpusov. Na textové korpusy sú z užívateľského hľadiska kladené požiadavky na reprezentatívnosť (reprezentatívnosť), úplnosť a hospodárnosť.

Počítačová lingvistika sa aktívne rozvíja v Rusku aj v zahraničí. Tok publikácií v tejto oblasti je veľmi vysoký. Okrem tematických zborníkov sa od roku 1984 v USA od roku 1984 štvrťročne vydáva aj časopis Computational Linguistics. Veľa organizačnej a vedeckej práce vykonáva Asociácia pre počítačovú lingvistiku, ktorá má regionálne štruktúry po celom svete (najmä európska pobočka). Každé dva roky sa konajú medzinárodné konferencie COLINT (v roku 2008 sa konferencia konala v Manchestri). O hlavných smeroch počítačovej lingvistiky sa diskutuje aj na výročnej medzinárodnej konferencii „Dialóg“, ktorú organizuje Ruský výskumný inštitút umelej inteligencie, Filologická fakulta Moskovskej štátnej univerzity, Yandex a množstvo ďalších organizácií. Relevantné problémy sú široko zastúpené aj na medzinárodných konferenciách o umelej inteligencii na rôznych úrovniach.

Lit .: Zvegintsev V. A. Teoretická a aplikovaná lingvistika. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Matematická lingvistika. M., 1977; Gorodetsky B. Yu. Aktuálne problémy aplikovanej lingvistiky // Nové v cudzej lingvistike. M., 1983. Vydanie. 12; Kibrik A.E. Aplikovaná lingvistika // Kibrik A.E. Eseje o všeobecných a aplikovaných otázkach lingvistiky. M., 1992; Kennedy G. Úvod do korpusovej lingvistiky. L., 1998; Bolshakov I.A., Gelbukh A. Počítačová lingvistika: modely, zdroje, aplikácie. Mekh., 2004; Národný korpus ruského jazyka: 2003-2005. M., 2005; Baranov A. N. Úvod do aplikovanej lingvistiky. 3. vyd. M., 2007; Počítačová lingvistika a inteligentné technológie. M., 2008. Vydanie. 7.

lingvistika štatistický lingvistický softvér

História vývoja počítačovej lingvistiky

Proces formovania a formovania modernej lingvistiky ako vedy o prirodzenom jazyku je dlhým historickým vývojom lingvistického poznania. Jazykové znalosti sú založené na prvkoch, ktorých formovanie prebiehalo v procese činnosti, neoddeliteľne spojené s rozvojom štruktúry ústnej reči, vznikom, ďalším rozvojom a zdokonaľovaním písania, učením sa písať, ako aj interpretáciou. a dekódovanie textov.

Prirodzený jazyk ako predmet lingvistiky zaujíma ústredné miesto v tejto vede. V procese vývinu jazyka sa menili aj predstavy o ňom. Ak sa predtým vnútornej organizácii jazyka nepripisovala osobitná dôležitosť a posudzovalo sa predovšetkým v kontexte jeho vzťahu s vonkajším svetom, potom od konca 19. do začiatku 20. , osobitná úloha sa pripisuje vnútornej formálnej štruktúre jazyka. V tomto období slávny švajčiarsky lingvista Ferdinand de Saussure vytvoril základy takých vied, ako je semiológia a štruktúrna lingvistika, a podrobne ich opísal vo svojej knihe Kurz všeobecnej lingvistiky (1916).

Vedec vlastní myšlienku považovať jazyk za jediný mechanizmus, integrálny systém znakov, ktorý zase umožňuje matematicky opísať jazyk. Saussure bol prvý, kto navrhol štrukturálny prístup k jazyku, konkrétne opis jazyka štúdiom vzťahov medzi jeho jednotkami. Jednotkami alebo „znakmi“ rozumel slovo, ktoré v sebe spája význam aj zvuk. Koncept navrhnutý švajčiarskym vedcom je založený na teórii jazyka ako systému znakov, ktorý sa skladá z troch častí: jazyk (z francúzskeho langue), reč (z francúzskeho parole) a rečová aktivita (z francúzskeho jazyka).

Sám vedec definoval vedu, ktorú vytvoril, semiológiu, ako „vedu, ktorá študuje život znakov v rámci života spoločnosti“. Keďže jazyk je znakový systém, pri hľadaní odpovede na otázku, aké miesto zaujíma lingvistika medzi ostatnými vedami, Saussure tvrdil, že lingvistika je súčasťou semiológie. Všeobecne sa uznáva, že to bol švajčiarsky filológ, ktorý položil teoretické základy nového smeru v lingvistike a stal sa zakladateľom, „otcom“ modernej lingvistiky.

Koncept, ktorý predložil F. de Saussure, sa ďalej rozvíjal v prácach mnohých vynikajúcich vedcov: v Dánsku - L. Elmslev, v Českej republike - N. Trubetskoy, v USA - L. Bloomfield, Z. Harris, N. Chomského. Pokiaľ ide o našu krajinu, tu sa štrukturálna lingvistika začala rozvíjať približne v rovnakom období ako na Západe – na prelome 19. – 20. storočia. - v dielach F. Fortunatova a I. Baudouina de Courtenay. Treba poznamenať, že I. Baudouin de Courtenay úzko spolupracoval s F. de Saussure. Ak Saussure položil teoretické základy štrukturálnej lingvistiky, potom Baudouin de Courtenay možno považovať za osobu, ktorá položila základy pre praktickú aplikáciu metód navrhnutých švajčiarskym vedcom. Bol to on, kto definoval lingvistiku ako vedu, ktorá využíva štatistické metódy a funkčné závislosti, a oddelil ju od filológie. Prvou skúsenosťou s aplikáciou matematických metód v lingvistike bola fonológia - veda o štruktúre zvukov jazyka.

Treba poznamenať, že postuláty, ktoré predložil F. de Saussure, sa mohli premietnuť do problémov lingvistiky, ktoré boli aktuálne v polovici 20. storočia. Práve v tomto období sa črtá jasný trend smerom k matematizácii vedy o jazyku. Prakticky vo všetkých veľkých krajinách začína prudký rozvoj vedy a výpočtovej techniky, čo si zase vyžadovalo stále nové a nové lingvistické základy. Výsledkom toho všetkého bola rýchla konvergencia exaktných a humanitných vied, ako aj aktívna interakcia matematiky a lingvistiky, ktoré našli praktické uplatnenie pri riešení naliehavých vedeckých problémov.

V 50. rokoch 20. storočia, na priesečníku takých vied ako matematika, lingvistika, informatika a umelá inteligencia, vznikol nový smer vedy – počítačová lingvistika (známa aj ako strojová lingvistika alebo automatické spracovanie textov v prirodzenom jazyku). Hlavné etapy vývoja tohto smeru sa odohrali na pozadí vývoja metód umelej inteligencie. Silným impulzom pre rozvoj počítačovej lingvistiky bolo vytvorenie prvých počítačov. S príchodom novej generácie počítačov a programovacích jazykov v 60. rokoch sa však začína zásadne nová etapa vo vývoji tejto vedy. Treba tiež poznamenať, že počiatky počítačovej lingvistiky siahajú k prácam slávneho amerického lingvistu N. Chomského v oblasti formalizácie štruktúry jazyka. Výsledky jeho výskumu, získané na priesečníku lingvistiky a matematiky, vytvorili základ pre rozvoj teórie formálnych jazykov a gramatiky (generatívnej alebo generatívnej gramatiky), ktorá sa široko používa na opis prirodzených aj umelých jazykov. najmä programovacie jazyky. Presnejšie povedané, táto teória je dosť matematická disciplína. Možno ju považovať za jednu z prvých v takom smere aplikovanej lingvistiky, ako je matematická lingvistika.

Prvé experimenty a prvý vývoj v oblasti počítačovej lingvistiky sa týkajú vytvárania systémov strojového prekladu, ako aj systémov, ktoré simulujú schopnosti ľudského jazyka. Koncom 80-tych rokov, s nástupom a aktívnym rozvojom internetu, došlo k prudkému nárastu objemu textových informácií dostupných v elektronickej forme. To viedlo k tomu, že technológie na vyhľadávanie informácií sa posunuli na kvalitatívne novú etapu svojho vývoja. Vznikla potreba automatického spracovania textov v prirodzenom jazyku, objavili sa úplne nové úlohy a technológie. Vedci čelia takému problému, akým je rýchle spracovanie obrovského prúdu neštruktúrovaných údajov. S cieľom nájsť riešenie tohto problému sa veľký význam kládol rozvoju a aplikácii štatistických metód v oblasti automatického spracovania textu. S ich pomocou bolo možné vyriešiť také problémy, ako je rozdelenie textov do zhlukov spojených spoločnou témou, zvýraznenie určitých fragmentov v texte atď. Okrem toho použitie metód matematickej štatistiky a strojového učenia umožnilo vyriešiť problémy rozpoznávania reči a vytváranie vyhľadávacích nástrojov.

Vedci sa nezastavili pri dosiahnutých výsledkoch: naďalej si stanovovali nové ciele a ciele, vyvíjali nové techniky a metódy výskumu. To všetko viedlo k tomu, že lingvistika začala pôsobiť ako aplikovaná veda spájajúca množstvo iných vied, pričom vedúcu úlohu medzi nimi mala matematika s jej rozmanitosťou kvantitatívnych metód a schopnosťou ich využiť na hlbšie pochopenie javov. sa študuje. Tak sa začalo jej formovanie a rozvoj matematickej lingvistiky. V súčasnosti je to skôr „mladá“ veda (existuje asi päťdesiat rokov), no napriek svojmu veľmi „nízkému veku“ je to už etablovaná oblasť vedeckého poznania s mnohými úspešnými úspechmi.

Lingvistika (z lat. lingua -
jazyk), lingvistika, lingvistika - veda,
štúdium jazykov.
Je to veda o prirodzenom ľudskom jazyku vo všeobecnosti
a o všetkých jazykoch sveta ako jeho
personalizovaných zástupcov.
Všeobecne povedané, lingvistika
rozdelené na vedecké a praktické. Častejšie
práve lingvistika je myslená presne
vedecká lingvistika. Je súčasťou semiotiky
veda o znakoch.
Jazykovede sa profesionálne venujú lingvisti.

Lingvistika a informatika.
V živote modernej spoločnosti zohráva dôležitú úlohu automatizácia
Informačné technológie. Ale rozvoj informačných technológií je
veľmi nerovnomerne: ak súčasná úroveň výpočtovej techniky a
komunikačných prostriedkov je úžasný, potom v oblasti sémantického spracovania
informačný úspech je oveľa skromnejší. Tieto úspechy závisia predovšetkým od
úspechy v štúdiu procesov ľudského myslenia, procesov reči
komunikácia medzi ľuďmi a schopnosť simulovať tieto procesy na počítači. A to je úloha mimoriadne zložitá, pokiaľ ide o vytváranie sľubných
informačné technológie, potom problémy automatického spracovania textu
do popredia sa dostávajú informácie prezentované v prirodzených jazykoch.
Je to dané tým, že myslenie človeka je úzko späté s jeho jazykom. Viac
Okrem toho je prirodzený jazyk nástrojom myslenia. On je tiež
univerzálny prostriedok komunikácie medzi ľuďmi - prostriedok vnímania,
zhromažďovanie, uchovávanie, spracovanie a prenos informácií.
Problémy používania prirodzeného jazyka v automatickom režime
Spracovanie informácií je veda počítačovej lingvistiky. Táto veda
sa objavil pomerne nedávno - na prelome päťdesiatych a šesťdesiatych rokov
minulého storočia. Spočiatku, počas svojho formovania, mala rôzne
tituly: matematická lingvistika, počítačová lingvistika, inžinierstvo
lingvistika. Ale na začiatku osemdesiatych rokov sa to meno prilepilo
počítačová lingvistika.

Počítačová lingvistika je oblasť vedomostí súvisiaca s riešením problémov
automatické spracovanie informácií prezentovaných v prirodzenom jazyku.
Problémom sú ústredné vedecké problémy počítačovej lingvistiky
modelovanie procesu chápania významu textov (prechod od textu k
formalizované znázornenie jeho významu) a problém syntézy reči (prechod z
formalizovaná reprezentácia významu textom v prirodzenom jazyku). Tieto problémy
vznikajú pri riešení množstva aplikovaných problémov:
1) automatická detekcia a oprava chýb pri zadávaní textov do počítača,
2) automatická analýza a syntéza ústnej reči,
3) automatický preklad textov z jedného jazyka do druhého,
4) komunikácia s počítačom v prirodzenom jazyku,
5) automatická klasifikácia a indexácia textových dokumentov, ich
automatická sumarizácia, vyhľadávanie dokumentov vo fulltextových databázach.
Za posledné polstoročie v oblasti počítačovej lingvistiky
významné vedecké a praktické výsledky: systémy stroj
automatický preklad textov z jedného prirodzeného jazyka do druhého
vyhľadávanie informácií v textoch, systémy na automatickú analýzu a syntézu ústnej reči a
veľa iných. Prišli však aj sklamania. Napríklad problém strojového prekladu
texty z jedného jazyka do druhého sa ukázali byť oveľa náročnejšie, než sa zdalo
priekopníkov strojového prekladu a ich nástupcov. To isté možno povedať o
automatizované vyhľadávanie informácií v textoch a o úlohe analyzovať a syntetizovať ústne
reč. Vedci a inžinieri budú zrejme musieť ešte tvrdo pracovať
dosiahnuť požadované výsledky.

Spracovanie prirodzeného jazyka (angl. natural language processing; syntaktické,
morfologická, sémantická analýza textu). To tiež zahŕňa:
Korpusová lingvistika, tvorba a používanie elektronických textových korpusov
Tvorba elektronických slovníkov, tezaurov, ontológií. Napríklad Lingvo. Slovníky
používa sa napríklad na automatický preklad, kontrolu pravopisu.
Automatický preklad textov. Populárne medzi ruskými prekladateľmi
je Promt. Google Translate je známy bezplatný prekladač.
Automatická extrakcia faktov z textu (extrakcia informácií) (anglický fact
extrakcia, dolovanie textu)
Auto-abstracting (anglické automatické zhrnutie textu). Táto funkcia je povolená
napríklad v programe Microsoft Word.
Budovanie systémov riadenia znalostí. Pozri Expertné systémy
Tvorba systémov otázok a odpovedí (anglické systémy odpovedí na otázky).
Optické rozpoznávanie znakov (OCR). Napríklad FineReader
Automatické rozpoznávanie reči (ASR). Existuje platený a bezplatný softvér
Automatická syntéza reči

Na Filologickej fakulte Vysokej školy ekonomickej sa rozbieha nový magisterský program venovaný počítačovej lingvistike: víta uchádzačov so základným humanitným a matematickým vzdelaním a všetkých, ktorí majú záujem riešiť problémy v jednom z najperspektívnejších vedných odborov. . Jej vedúca Anastasia Bonch-Osmolovskaya pre teóriu a prax povedala, čo je počítačová lingvistika, prečo roboty nenahradia ľudí a čo sa bude vyučovať v magisterskom programe počítačovej lingvistiky HSE.

Tento program je takmer jediný svojho druhu v Rusku. Kde si sám študoval?

Študoval som na Moskovskej štátnej univerzite na Katedre teoretickej a aplikovanej lingvistiky Filologickej fakulty. Nedostal som sa tam hneď, najskôr som nastúpil na katedru ruštiny, no potom som sa začal vážne zaujímať o jazykovedu a lákala ma atmosféra, ktorá na katedre zostala dodnes. Najdôležitejší je dobrý kontakt medzi učiteľmi a študentmi a ich obojstranný záujem.

Keď som mal deti a musel som si zarábať na živobytie, išiel som do oblasti komerčnej lingvistiky. V roku 2005 nebolo veľmi jasné, čo je táto oblasť činnosti ako taká. Pracoval som v rôznych lingvistických spoločnostiach: začal som s malou spoločnosťou na webovej stránke Public.ru - to je taká mediálna knižnica, kde som začal pracovať s lingvistickými technológiami. Potom som rok pracoval v Rosnanotechu, kde som dostal nápad urobiť analytický portál tak, aby boli údaje na ňom automaticky štruktúrované. Potom som viedol lingvistické oddelenie vo firme Avicomp - to je už seriózna produkcia v oblasti výpočtovej lingvistiky a sémantických technológií. Zároveň som viedol kurz počítačovej lingvistiky na Moskovskej štátnej univerzite a snažil som sa ho urobiť modernejším.

Dva zdroje pre lingvistu: - stránka vytvorená lingvistami na vedecký a aplikovaný výskum týkajúci sa ruského jazyka. Toto je model ruského jazyka prezentovaný pomocou obrovského množstva textov z rôznych žánrov a období. Texty sú opatrené jazykovým značením, pomocou ktorého možno získať informácie o frekvencii určitých jazykových javov. Wordnet je obrovská lexikálna základňa anglického jazyka, hlavnou myšlienkou Wordnetu je spojiť nie slová, ale ich významy do jednej veľkej siete. Wordnet si môžete stiahnuť a použiť pre svoje vlastné projekty.

Čo robí počítačová lingvistika?

Ide o najinterdisciplinárnejšiu oblasť. Tu je najdôležitejšie pochopiť, čo sa deje v elektronickom svete a kto vám pomôže robiť konkrétne veci.

Sme obklopení veľkým množstvom digitálnych informácií, existuje veľa obchodných projektov, ktorých úspech závisí od spracovania informácií, tieto projekty sa môžu týkať marketingu, politiky, ekonomiky a čohokoľvek. A je veľmi dôležité vedieť s týmito informáciami efektívne narábať – hlavná je nielen rýchlosť spracovania informácií, ale aj jednoduchosť, s akou po odfiltrovaní šumu získate potrebné údaje a vytvoríte celý obrázok od nich.

Predtým sa niektoré globálne myšlienky spájali s počítačovou lingvistikou, napríklad: ľudia si mysleli, že strojový preklad nahradí ľudský preklad, namiesto ľudí budú pracovať roboty. Teraz to však vyzerá ako utópia a strojový preklad sa používa vo vyhľadávačoch na rýchle vyhľadávanie v neznámom jazyku. To znamená, že teraz sa lingvistika málokedy zaoberá abstraktnými úlohami – väčšinou nejakými drobnosťami, ktoré sa dajú vložiť do veľkého produktu a zarobiť na tom.

Jednou z veľkých úloh modernej lingvistiky je sémantický web, keď vyhľadávanie prebieha nielen podľa zhody slov, ale aj podľa významu a všetky stránky sú nejakým spôsobom poznačené sémantikou. To sa môže hodiť napríklad pri policajných alebo lekárskych správach, ktoré sa píšu každý deň. Analýza vnútorných prepojení dáva množstvo potrebných informácií a ich manuálne čítanie a výpočet trvá neskutočne dlho.

V skratke máme tisíc textov, potrebujeme ich zoradiť do kôp, každý text prezentovať ako štruktúru a získať tabuľku, s ktorou už vieme pracovať. Toto sa nazýva neštruktúrované spracovanie informácií. Na druhej strane, počítačová lingvistika sa zaoberá napríklad tvorbou umelých textov. Existuje spoločnosť, ktorá prišla s mechanizmom na generovanie textov na témy, o ktorých je pre človeka nuda písať: zmeny cien nehnuteľností, predpovede počasia, správy z futbalových zápasov. Objednávať tieto texty pre človeka je oveľa drahšie, navyše počítačové texty na takéto témy sú písané súvislým ľudským jazykom.

Yandex sa aktívne podieľa na vývoji v oblasti vyhľadávania neštruktúrovaných informácií v Rusku, Kaspersky Lab najíma výskumné skupiny, ktoré študujú strojové učenie. Snaží sa niekto na trhu prísť s niečím novým v oblasti počítačovej lingvistiky?

**Knihy o počítačovej lingvistike:**

Daniel Jurafsky, Spracovanie reči a jazyka

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Úvod do získavania informácií

Jacob Testelec, „Úvod do všeobecnej syntaxe“

Väčšina lingvistického vývoja je majetkom veľkých spoločností, takmer nič sa nedá nájsť vo verejnej sfére. Bráni to rozvoju odvetvia, nemáme voľný jazykový trh, krabicové riešenia.

Navyše nie je dostatok plnohodnotných informačných zdrojov. Existuje taký projekt ako Národný korpus ruského jazyka. Ide o jeden z najlepších národných korpusov na svete, ktorý sa rýchlo rozvíja a otvára neuveriteľné možnosti pre vedecký a aplikovaný výskum. Rozdiel je približne rovnaký ako v biológii – pred a po výskume DNA.

Ale veľa zdrojov v ruštine neexistuje. Neexistuje teda žiadny analóg k takému úžasnému zdroju v anglickom jazyku, ako je Framenet - je to taká koncepčná sieť, kde sú formálne prezentované všetky možné spojenia konkrétneho slova s ​​inými slovami. Existuje napríklad slovo „lietať“ – kto môže lietať, kde, s akou zámienkou sa toto slovo používa, s akými slovami sa spája a podobne. Tento zdroj pomáha prepojiť jazyk so skutočným životom, teda sledovať, ako sa konkrétne slovo správa na úrovni morfológie a syntaxe. Je to veľmi užitočné.

Avicomp v súčasnosti vyvíja doplnok na vyhľadávanie súvisiacich článkov. To znamená, že ak máte záujem o nejaký článok, môžete rýchlo vidieť históriu zápletky: kedy téma vznikla, čo bolo napísané a kedy bol vrchol záujmu o tento problém. Napríklad pomocou tohto pluginu bude možné od článku o dianí v Sýrii veľmi rýchlo vidieť, ako sa tam udalosti za posledný rok vyvíjali.

Ako bude štruktúrovaný vzdelávací proces v magisterskom programe?

Vzdelávanie na HSE je organizované do samostatných modulov, rovnako ako na západných univerzitách. Študenti budú rozdelení do malých tímov, ministartupov – čiže na konci by sme mali dostať niekoľko hotových projektov. Chceme získať skutočné produkty, ktoré potom otvoríme ľuďom a necháme ich vo verejnej sfére.

Okrem priamych supervízorov študentských projektov chceme nájsť kurátorov z radov ich potenciálnych zamestnávateľov – napríklad z rovnakého Yandexu, ktorí si túto hru zahrajú aj my a študentom poradia.

Dúfam, že na magistrát prídu ľudia z rôznych oblastí: programátori, lingvisti, sociológovia, marketéri. Budeme mať niekoľko adaptačných kurzov z lingvistiky, matematiky a programovania. Potom budeme mať dva seriózne kurzy lingvistiky a budú prepojené s najaktuálnejšími lingvistickými teóriami, chceme, aby naši absolventi vedeli čítať a chápať moderné lingvistické články. Rovnako je to aj s matematikou. Budeme mať kurz s názvom „Matematické základy počítačovej lingvistiky“, ktorý predstaví tie časti matematiky, na ktorých je založená moderná počítačová lingvistika.

Aby ste sa mohli zapísať na magisterský program, musíte absolvovať prijímaciu skúšku z jazyka a absolvovať portfóliovú súťaž.

Okrem hlavných kurzov to bude aj línia voliteľných predmetov, naplánovali sme niekoľko cyklov - dva z nich sú zamerané na hlbšie štúdium jednotlivých tém, medzi ktoré patrí napríklad strojový preklad a korpusová lingvistika, resp. naopak, jedna sa týka súvisiacich oblastí: ako sú sociálne siete, strojové učenie alebo digitálne humanitné vedy – kurz, ktorý, dúfame, bude prebiehať v angličtine.