Šta je računarska lingvistika? Brz rast količine tekstualnih informacija u elektroničkom obliku

21.09.2019

KURSNI RAD

u disciplini "Informatika"

na temu: "Računarska lingvistika"


UVOD

2. Savremena sučelja računske lingvistike

ZAKLJUČAK

LITERATURA


Uvod

Automatizirane informacijske tehnologije igraju važnu ulogu u životu modernog društva. Vremenom se njihov značaj stalno povećava. No, razvoj informacijskih tehnologija vrlo je neujednačen: ako suvremena razina računalne tehnologije i komunikacijskih objekata zadivljuje maštu, tada su u području semantičke obrade informacija uspjesi mnogo skromniji. Ovi uspjesi zavise, prije svega, od postignuća u proučavanju procesa ljudskog mišljenja, procesa verbalne komunikacije među ljudima i od sposobnosti simulacije tih procesa na računaru.

Kada je riječ o stvaranju obećavajućih informacijskih tehnologija, u prvi plan dolaze problemi automatske obrade tekstualnih informacija predstavljenih na prirodnim jezicima. To je određeno činjenicom da je razmišljanje osobe usko povezano s njegovim jezikom. Štaviše, prirodni jezik je oruđe za razmišljanje. To je također univerzalno sredstvo komunikacije među ljudima - sredstvo percepcije, akumulacije, pohrane, obrade i prijenosa informacija. Nauka računske lingvistike bavi se problemima upotrebe prirodnog jezika u sistemima za automatsku obradu informacija. Ova je nauka nastala relativno nedavno - na prijelazu pedesetih i šezdesetih godina prošlog stoljeća. U posljednjih pola stoljeća postignuti su značajni naučni i praktični rezultati na području računalne lingvistike: sistemi za mašinsko prevođenje tekstova s ​​jednog prirodnog jezika na drugi, sistemi za automatizirano pronalaženje informacija u tekstovima, sistemi za automatsku analizu i sintezu usmenog govor, i mnogi drugi su stvoreni. Ovaj rad je posvećen izgradnji optimalnog računarskog sučelja pomoću računalne lingvistike u lingvističkim istraživanjima.


1. Mjesto i uloga računalne lingvistike u lingvističkim istraživanjima

U suvremenom svijetu računarska se lingvistika sve više koristi u raznim lingvističkim istraživanjima.

Računarska lingvistika je područje znanja povezano s rješavanjem problema automatske obrade informacija prezentiranih na prirodnom jeziku. Centralni naučni problemi računske lingvistike su problem modeliranja procesa razumijevanja značenja tekstova (prijelaz iz teksta u formalizirani prikaz njegovog značenja) i problem sinteze govora (prijelaz iz formaliziranog prikaza značenja u tekstovi na prirodnom jeziku). Ovi problemi nastaju pri rješavanju niza primijenjenih problema, a posebno problema automatskog otkrivanja i ispravljanja grešaka pri unosu tekstova u računalo, automatske analize i sinteze usmenog govora, automatskog prevođenja tekstova s ​​jednog jezika na drugi, komunikacije sa računar na prirodnom jeziku, automatska klasifikacija i indeksiranje tekstualnih dokumenata, njihovo automatsko sumiranje, pretraživanje dokumenata u bazama podataka sa celim tekstom.

Lingvistički alati stvoreni i korišteni u računalnoj lingvistici mogu se uvjetno podijeliti u dva dijela: deklarativni i proceduralni. Deklarativni dio uključuje rječnike jezičnih i govornih jedinica, tekstove i različite gramatičke tablice, proceduralni dio uključuje alate za rukovanje jezičnim i govornim jedinicama, tekstove i gramatičke tablice. Računarsko sučelje odnosi se na proceduralni dio računske lingvistike.

Uspjeh u rješavanju primijenjenih problema računalne lingvistike ovisi, prije svega, o potpunosti i tačnosti prikaza deklarativnih sredstava u memoriji računara i o kvaliteti proceduralnih sredstava. Do danas potreban nivo rješavanja ovih problema još nije postignut, iako se radovi na polju računalne lingvistike obavljaju u svim razvijenim zemljama svijeta (Rusija, SAD, Engleska, Francuska, Njemačka, Japan itd.). ).

Ipak, mogu se primijetiti ozbiljna naučna i praktična dostignuća u području računalne lingvistike. Tako su u nizu zemalja (Rusija, SAD, Japan itd.) Izgrađeni eksperimentalni i industrijski sistemi za mašinsko prevođenje tekstova sa jednog jezika na drugi, izgrađeni su brojni eksperimentalni sistemi za komunikaciju sa računarima na prirodnom jeziku , u toku je rad na stvaranju terminoloških banaka podataka, tezaurusa, dvojezičnih i višejezičnih mašinskih rječnika (Rusija, SAD, Njemačka, Francuska itd.), grade se sistemi za automatsku analizu i sintezu usmenog govora (Rusija, SAD, Japan itd. .), istraživanja se provode u području izgradnje modela prirodnih jezika.

Važan metodološki problem primijenjene računske lingvistike je ispravna procjena potrebnog odnosa između deklarativne i proceduralne komponente sistema za automatsku obradu tekstualnih informacija. Kome dati prednost: moćnim računskim postupcima zasnovanim na relativno malim rječničkim sistemima s bogatim gramatičkim i semantičkim informacijama ili moćnoj deklarativnoj komponenti sa relativno jednostavnim računarskim sučeljima? Većina naučnika vjeruje da je drugi način poželjniji. Brzo će to dovesti do postizanja praktičnih ciljeva, jer će biti manje slijepih ulica i teško svladanih prepreka, a ovdje će biti moguće koristiti računare u širim razmjerima za automatizaciju istraživanja i razvoja.

Potreba za mobilizacijom napora, prije svega, na razvoju deklarativne komponente sistema za automatsku obradu tekstualnih informacija potvrđena je pola stoljeća iskustva u razvoju računalne lingvistike. Zaista, ovdje, unatoč neospornim uspjesima ove znanosti, entuzijazam za algoritamske procedure nije donio očekivani uspjeh. Bilo je čak i razočaranja u mogućnosti proceduralnih sredstava.

U svjetlu gore navedenog, takav način razvoja računalne lingvistike čini se obećavajućim, kada će glavni napori biti usmjereni na stvaranje moćnih rječnika jezičnih i govornih jedinica, proučavanje njihove semantičko-sintaksičke strukture i stvaranje osnovnih procedura za morfološku, semantičku sintaksička i konceptualna analiza i sinteza tekstova. To će u budućnosti omogućiti rješavanje širokog raspona primijenjenih problema.

Računarska lingvistika suočena je, prije svega, sa zadacima jezičke podrške procesima prikupljanja, akumulacije, obrade i preuzimanja informacija. Najvažniji od njih su:

1. Automatizacija sastavljanja i jezičke obrade mašinskih rječnika;

2. Automatizacija procesa otkrivanja i ispravljanja grešaka pri unosu tekstova u računar;

3. Automatsko indeksiranje dokumenata i zahtjeva za informacijama;

4. Automatska klasifikacija i sažimanje dokumenata;

5. Jezička podrška procesima traženja informacija u jednojezičnim i višejezičnim bazama podataka;

6. Mašinsko prevođenje tekstova sa jednog prirodnog jezika na drugi;

7. Izgradnja jezičkih procesora koji osiguravaju komunikaciju korisnika sa automatizovanim inteligentnim informacionim sistemima (posebno sa ekspertnim sistemima) na prirodnom jeziku ili na jeziku bliskom prirodnom;

8. Izdvajanje činjeničnih podataka iz neformalnih tekstova.

Zadržimo se detaljno na problemima koji se najviše odnose na temu istraživanja.

U praktičnoj djelatnosti informacijskih centara postoji potreba za rješavanjem problema automatiziranog otkrivanja i ispravljanja grešaka u tekstovima pri unosu u računar. Ovaj složeni zadatak može se uvjetno podijeliti u tri zadatka - zadaće pravopisa, sintaktičke i semantičke kontrole tekstova. Prvi od njih može se riješiti primjenom postupka morfološke analize koristeći dovoljno snažan referentni mašinski rječnik stabljika riječi. U procesu kontrole pravopisa, riječi u tekstu se podvrgavaju morfološkoj analizi, a ako se njihove baze identificiraju s osnovama referentnog rječnika, smatraju se ispravnima; ako nisu identificirani, tada ih, popraćene mikrokontekstom, izdaje osoba za pregled. Osoba otkriva i ispravlja iskrivljene riječi, a odgovarajući softverski sistem unosi te ispravke u ispravljeni tekst.

Zadatak sintaktičke kontrole tekstova radi otkrivanja grešaka u njima mnogo je složeniji od zadatka njihove kontrole pravopisa. Prvo, jer uključuje u svoj sastav i zadatak kontrole pravopisa kao svoju obaveznu komponentu, i drugo, jer problem sintaksičke analize neformalnih tekstova još nije u potpunosti riješen. Ipak, djelomična sintaksička kontrola tekstova sasvim je moguća. Ovdje možete ići na dva načina: ili sastaviti dovoljno reprezentativne mašinske rječnike referentnih sintaksičkih struktura i uporediti sintaksičke strukture analiziranog teksta s njima; ili razviti složen sistem pravila za provjeru gramatičke konzistentnosti elemenata teksta. Prvi način čini nam se obećavajućim, iako, naravno, ne isključuje mogućnost korištenja elemenata drugog načina. Sintaksičku strukturu tekstova treba opisati u smislu gramatičkih klasa riječi (tačnije, u obliku niza skupova gramatičkih informacija za riječi).

Zadatak semantičke kontrole nad tekstovima radi otkrivanja semantičkih grešaka u njima treba pripisati klasi zadataka umjetne inteligencije. U potpunosti se može riješiti samo na temelju modeliranja procesa ljudskog mišljenja. U ovom slučaju, očigledno, bit će potrebno stvoriti moćne enciklopedijske baze znanja i softverske alate za manipulaciju znanjem. Ipak, za ograničena područja i za formalizirane informacije, ovaj je zadatak prilično rješiv. Treba ga postaviti i riješiti kao zadatak semantičke i sintaksičke kontrole nad tekstovima.

Problem automatizacije indeksiranja dokumenata i upita tradicionalan je za sisteme automatskog pretraživanja tekstualnih informacija. U početku je indeksiranje shvaćeno kao proces dodjeljivanja klasifikacijskih indeksa dokumentima i upitima koji odražavaju njihov tematski sadržaj. Kasnije se ovaj koncept transformirao i izraz "indeksiranje" počeo je nazivati ​​proces prevođenja opisa dokumenata i upita iz prirodnog jezika u formalizirani, posebno u jezik "slika za pretraživanje". Slike za pretraživanje dokumenata počele su se, u pravilu, sastavljati u obliku popisa ključnih riječi i fraza koje odražavaju njihov tematski sadržaj, te slike upita za pretraživanje - u obliku logičkih struktura u kojima su ključne riječi i izrazi međusobno povezani. pomoću logičkih i sintaksičkih operatora.

Automatsko indeksiranje dokumenata prikladno je izvesti prema tekstovima njihovih sažetaka (ako ih ima), budući da se glavni sadržaj dokumenata odražava u sažecima u koncentriranom obliku. Indeksiranje se može obaviti sa ili bez kontrole tezaurusa. U prvom slučaju, u tekstu naslova dokumenta i njegovog sažetka traže se ključne riječi i izrazi rječnika referentne mašine, a samo oni koji se nalaze u rječniku uključeni su u POD. U drugom slučaju, ključne riječi i izrazi odvojeni su od teksta i uključeni u POD bez obzira na to da li pripadaju bilo kojem referentnom rječniku. Implementirana je i treća verzija, gdje je, pored izraza iz tezaurusa mašine, POD uključivao i izraze izvučene iz naslova i prve rečenice sažetka dokumenta. Eksperimenti su pokazali da POD -ovi sastavljeni u automatskom načinu rada zasnovani na naslovima i sažecima dokumenata pružaju veću potpunost pretraživanja od POD -ova sastavljenih ručno. To se objašnjava činjenicom da sistem automatskog indeksiranja potpunije odražava različite aspekte sadržaja dokumenata od sistema ručnog indeksiranja.

Problemi kod automatskog indeksiranja upita slični su problemima kod automatskog indeksiranja dokumenata. Ovdje također morate izdvojiti ključne riječi i izraze iz teksta i normalizirati riječi uključene u tekst upita. Logičke veze između ključnih riječi i izraza i kontekstualnih operatora mogu se unijeti ručno ili pomoću automatizirane procedure. Važan element procesa automatskog indeksiranja upita je dodavanje sastavnih ključnih riječi i izraza sa njihovim sinonimima i hiponimima (ponekad i hiperonimi i drugi pojmovi povezani s izvornim izrazima upita). To se može učiniti automatski ili interaktivno pomoću tezaurusa mašine.

Već smo djelomično razmatrali problem automatizacije pretraživanja dokumentarnih informacija u vezi s problemom automatskog indeksiranja. Ovdje najviše obećava potraga za dokumentima prema njihovim cjelovitim tekstovima, jer upotreba u tu svrhu svih vrsta zamjena (bibliografski opisi, slike dokumenata za pretraživanje i tekstovi njihovih sažetaka) dovodi do gubitka informacija tijekom pretraživanja. Najveći gubici nastaju kada se njihovi bibliografski opisi koriste kao zamjena za primarne dokumente, a najmanje kada se koriste sažeci.

Važne karakteristike kvalitete pretraživanja informacija su njihova potpunost i točnost. Potpunost pretraživanja može se osigurati maksimalnim uzimanjem u obzir paradigmatskih veza između jedinica jezika i govora (riječi i izraza), a tačnost - uzimajući u obzir njihove sintagmatske odnose. Postoji mišljenje da su potpunost i točnost pretraživanja obrnuto povezane: mjere za poboljšanje jedne od ovih karakteristika dovode do pogoršanja druge. Ali to vrijedi samo za fiksnu logiku pretraživanja. Ako se ova logika poboljša, tada se obje karakteristike mogu poboljšati istovremeno.

Preporučljivo je proces traženja informacija u cjelokupnim tekstualnim bazama podataka izgraditi kao proces dijaloga između korisnika i sistema za pronalaženje informacija (ISS), u kojem on uzastopno pregledava fragmente tekstova (odlomci, odlomci) koji zadovoljavaju logičke uslove upita i bira one od njih koji su za njega od interesa. Kao konačni rezultati pretraživanja mogu se vratiti i puni tekstovi dokumenata i bilo koji njihov fragment.

Kao što se može vidjeti iz prethodnog zaključivanja, u automatskom traženju informacija potrebno je prevladati jezičku barijeru koja nastaje između korisnika i Porezne uprave u vezi s različitim oblicima predstavljanja istog značenja u tekstovima. Ova barijera postaje još značajnija ako se pretrage moraju vršiti u višejezičnim bazama podataka. Kardinalno rješenje problema ovdje može biti mašinsko prevođenje tekstova dokumenata s jednog jezika na drugi. To se može učiniti unaprijed, prije postavljanja dokumenata na tražilicu ili u procesu traženja informacija. U potonjem slučaju, korisnikov upit mora biti preveden na jezik niza dokumenata u kojima se pretraga provodi, a rezultati pretraživanja moraju biti prevedeni na jezik upita. Ovakvi pretraživači već rade na internetu. Sistem ćiriličnog pretraživača takođe je izgrađen u VINITI RAS-u, koji vam omogućava da pretražujete informacije u tekstovima na ruskom jeziku po upitima na engleskom jeziku sa izdavanjem rezultata pretraživanja i na jeziku korisnika.

Važan i obećavajući zadatak računalne lingvistike je izgradnja lingvističkih procesora koji osiguravaju komunikaciju između korisnika i inteligentnih automatiziranih informacijskih sustava (posebno sa ekspertnim sistemima) na prirodnom jeziku ili na jeziku bliskom prirodnom. Budući da se informacije pohranjuju u formaliziranom obliku u modernim inteligentnim sistemima, lingvistički procesori, koji djeluju kao posrednici između osobe i računara, moraju riješiti sljedeće glavne zadatke: 1) problem prelaska s tekstova zahtjeva za unos informacija i poruka u prirodnom obliku jezik za predstavljanje njihovog značenja u formalizovanom jeziku (pri unosu informacija u računar); 2) zadatak prelaska sa formalizovanog predstavljanja značenja izlaznih poruka na njihovo predstavljanje u prirodnom jeziku (prilikom davanja informacija osobi). Prvi zadatak treba riješiti morfološkom, sintaktičkom i konceptualnom analizom ulaznih zahtjeva i poruka, drugi - konceptualnom, sintaktičkom i morfološkom sintezom izlaznih poruka.

Konceptualna analiza zahtjeva za informacijama i poruka sastoji se u identificiranju njihove konceptualne strukture (granice naziva koncepata i odnosi između pojmova u tekstu) i prevođenju te strukture u formalizirani jezik. Izvodi se nakon morfološke i sintaksičke analize zahtjeva i poruka. Konceptualna sinteza poruka sastoji se u prijelazu s predstavljanja elemenata njihove strukture u formaliziranom jeziku na verbalnu (verbalnu) reprezentaciju. Nakon toga poruke dobivaju potreban sintaksički i morfološki dizajn.

Za mašinsko prevođenje tekstova s ​​jednog prirodnog jezika na drugi potrebno je imati rječnike prijevodnih korespondencija između naziva pojmova. Znanje o takvim prijevodnim korespondencijama akumuliralo je mnogo generacija ljudi i formalizirano je u obliku posebnih izdanja - dvojezičnih ili višejezičnih rječnika. Za stručnjake koji u jednoj ili drugoj mjeri govore strane jezike, ovi su rječnici poslužili kao vrijedan alat za prevođenje tekstova.

U tradicionalnim dvojezičnim i višejezičnim rječnicima opće namjene ekvivalenti za prevođenje naznačeni su uglavnom za pojedinačne riječi, za kombinacije riječi - mnogo rjeđe. Navođenje prevodnih ekvivalenata za kombinacije riječi bilo je tipičnije za posebne terminološke rječnike. Stoga su učenici pri prevođenju segmenata tekstova koji sadrže polisemantičke riječi često imali poteškoća.

Dolje je prevedena korespondencija između nekoliko parova engleskih i ruskih fraza na "školsku" temu.

1) Šišmiš izgleda kao miš s krilima - Šišmiš izgleda kao miš s krilima.

2) Djeca se vole igrati u pijesku na plaži - Djeca se vole igrati u pijesku na plaži.

3) Kap kiše pala mi je na ruku - Kap kiše pala mi je na ruku.

4) Suvo drvo lako gori - suvo drvo dobro gori.

5) Pravio se da me ne čuje - Pravio se da me ne čuje.

Engleski izrazi ovdje nisu idiomatski izrazi. Ipak, njihov prijevod na ruski može se sa izvjesnom dužinom promatrati kao jednostavan prijevod riječi po riječi, budući da su gotovo sve riječi koje su u njima višeznačne. Stoga, ovdje učenicima mogu pomoći samo postignuća računalne lingvistike.

RAČUNARSKA LINGVISTIKA (papir za praćenje iz engleske računalne lingvistike), jedno od područja primijenjene lingvistike, u kojem se za proučavanje jezika i modeliranje funkcioniranja jezika u određenim uvjetima, situacijama i problematičnim područjima razvijaju i koriste računarski programi, računarske tehnologije za organizaciju i obradu podataka. S druge strane, ovo je područje primjene modela računarskih jezika u lingvistici i srodnim disciplinama. Računarska lingvistika oblikovala se kao poseban naučni pravac u evropskim studijama 1960 -ih. Budući da se engleski pridjev computational može prevesti i kao "computational", pojam "computational linguistics" također se nalazi u literaturi, ali u domaćoj znanosti dobiva uže značenje, približavajući se konceptu "kvantitativne lingvistike".

Često se izraz "kvantitativna lingvistika" odnosi na računalnu lingvistiku, koja karakterizira interdisciplinarni smjer u primijenjenom istraživanju, gdje se kvantitativne ili statističke metode analize koriste kao glavno oruđe za učenje jezika i govora. Ponekad se kvantitativna (ili kvantitativna) lingvistika suprotstavlja kombinatornoj lingvistici. U potonjem, dominantnu ulogu ima "nekvantitativni" matematički aparat - teorija skupova, matematička logika, teorija algoritama itd. S teorijskog gledišta, upotreba statističkih metoda u lingvistici omogućuje nam da dopunimo strukturni model jezika sa vjerojatnom komponentom, tj. stvoriti teorijski strukturno-vjerojatni model sa značajnim objašnjenjem. U primijenjenom području kvantitativna lingvistika predstavljena je, prije svega, korištenjem fragmenata ovog modela koji se koriste za jezičko praćenje funkcioniranja jezika, dešifriranje kodiranog teksta, autorizaciju / atribuciju teksta itd.

Izraz "računska lingvistika" i problemi ovog smjera često su povezani s modeliranjem komunikacije, a prije svega s pružanjem interakcije čovjek-računalo u prirodnom ili ograničenom prirodnom jeziku (u tu svrhu poseban prirodni jezik stvaraju se procesni sistemi), kao i sa teorijom i praksom informacionih tehnologija.tražilice (ISS). Osiguravanje komunikacije između osobe i računara na prirodnom jeziku ponekad se označava izrazom "obrada prirodnog jezika" (prijevod s engleskog izraza Obrada prirodnog jezika). Ovaj smjer računalne lingvistike pojavio se krajem 1960 -ih u inozemstvu i razvio se u okviru znanstveno -tehnološke discipline koja se naziva umjetna inteligencija (djela R. Schenka, M. Lebowitza, T. Vinograda itd.). U svom značenju izraz "obrada prirodnog jezika" trebao bi obuhvatiti sva područja u kojima se računari koriste za obradu jezičkih podataka. U praksi se, međutim, ukorijenilo uže razumijevanje pojma - razvoj metoda, tehnologija i specifičnih sistema koji osiguravaju komunikaciju između osobe i računara na prirodnom ili ograničenom prirodnom jeziku.

Računarska lingvistika može u određenoj mjeri uključivati ​​rad na polju stvaranja hipertekstualnih sistema, koji se smatra posebnim načinom organiziranja teksta, pa čak i fundamentalno novom vrstom teksta, suprotstavljenom po mnogim svojim svojstvima običnom tekstu nastalom u Gutenbergu tradicija tipografije (vidi Gutenberg).

Automatski prijevod također spada u nadležnost računske lingvistike.

U okviru računalne lingvistike pojavio se i relativno novi smjer, koji se aktivno razvijao od 1980 -ih i 90 -ih godina - korpusna lingvistika, gdje se opći principi za konstruiranje jezičkih korpusa podataka (posebno tekstualnih korpusa) razvijaju pomoću modernih računara tehnologijama. Tekstualni korpusi su zbirke posebno odabranih tekstova iz knjiga, časopisa, novina itd., Prenesenih na mašinske medije i namijenjene za automatsku obradu. Jedan od prvih korpusa tekstova kreiran je za američki engleski jezik na Univerzitetu Brown (tzv. Brown Corpus) 1962-63 pod vodstvom W. Francisa. U Rusiji je od početka 2000-ih Institut za ruski jezik Vinogradov Ruske akademije nauka razvijao Nacionalni korpus ruskog jezika, koji se sastoji od reprezentativnog uzorka tekstova na ruskom jeziku zapremine oko 100 miliona riječi upotreba. Osim stvarnog dizajna korpusa podataka, korpusna lingvistika bavi se stvaranjem računarskih alata (računarskih programa) dizajniranih za izvlačenje različitih informacija iz tekstualnih korpusa. Sa stanovišta korisnika, tekstualni korpusi nameću se zahtjevi reprezentativnosti (reprezentativnosti), potpunosti i ekonomičnosti.

Računarska lingvistika aktivno se razvija i u Rusiji i u inostranstvu. Protok publikacija u ovoj oblasti je veoma veliki. Osim tematskih zbirki, u Sjedinjenim Državama od 1984. kvartalno izlazi časopis "Computational Linguistics". Veliki organizacijski i naučni rad obavlja Asocijacija za računsku lingvistiku, koja ima regionalne strukture širom svijeta (posebno evropsku podružnicu). Svake dvije godine održavaju se međunarodne konferencije COLINT (2008. konferencija je održana u Manchesteru). Glavni pravci računarske lingvistike razmatraju se i na godišnjoj međunarodnoj konferenciji "Dijalog", koju organizuju Ruski istraživački institut za umjetnu inteligenciju, Filološki fakultet Moskovskog državnog univerziteta, Yandex i brojne druge organizacije. Relevantna pitanja također su široko zastupljena na međunarodnim konferencijama o umjetnoj inteligenciji na različitim nivoima.

Lit.: Zvegintsev V.A. Teorijska i primijenjena lingvistika. M., 1968; Piotrovski R.G., Bektaev K.B., Piotrovskaya A.A. Matematička lingvistika. M., 1977; Gorodetskiy B. Yu. Aktualni problemi primijenjene lingvistike // Novo u stranoj lingvistici. M., 1983. Issue. 12; Kibrik A.E. Primijenjena lingvistika // Kibrik A.E. Eseji o opštim i primijenjenim problemima lingvistike. M., 1992; Kennedy G. Uvod u korpusnu lingvistiku. L., 1998; Bolshakov I.A., Gelbukh A. Računarska lingvistika: modeli, izvori, aplikacije. Fur., 2004; Nacionalni korpus ruskog jezika: 2003-2005. M., 2005; Baranov A.N. Uvod u primijenjenu lingvistiku. 3rd ed. M., 2007; Računarska lingvistika i inteligentne tehnologije. M., 2008. Issue. 7.

lingvistika statistika lingvistika programska

Istorija razvoja računarske lingvistike

Proces formiranja i formiranja moderne lingvistike kao nauke o prirodnom jeziku dug je istorijski razvoj jezičkog znanja. Lingvističko znanje temelji se na elementima, čije se formiranje odvijalo u procesu aktivnosti, neraskidivo povezano s razvojem strukture usmenog govora, pojavom, daljim razvojem i usavršavanjem pisanja, poučavanjem pisanja, kao i tumačenjem i dekodiranje tekstova.

Prirodni jezik kao objekt lingvistike ključan je za ovu znanost. U procesu razvoja jezika mijenjale su se i ideje o tome. Ako se ranije unutrašnjoj organizaciji jezika nije pridavao poseban značaj, a smatralo se, prije svega, u kontekstu međusobne povezanosti s vanjskim svijetom, tada je, počevši od kraja 19. - početka 20. stoljeća, posebna uloga bila dodijeljen unutrašnjoj formalnoj strukturi jezika. U tom je razdoblju poznati švicarski lingvist Ferdinand de Saussure razvio temelje nauka kao što su semiologija i strukturna lingvistika, a detaljno su opisani u njegovoj knjizi "Kurs opće lingvistike" (1916).

Naučnik je došao na ideju da jezik posmatra kao jedinstveni mehanizam, integralni sistem znakova, što zauzvrat omogućava matematički opis jezika. Saussure je prvi predložio strukturalni pristup jeziku, naime: opisivanje jezika proučavanjem odnosa između njegovih jedinica. Pod jedinicama ili "znakovima", on je razumio riječ koja kombinira značenje i zvuk. Koncept koji je predložio švicarski naučnik temelji se na teoriji jezika kao sistemu znakova, koji se sastoji od tri dijela: jezika (iz francuskog langue), govora (iz francuskog uvjetnog otpusta) i govorne aktivnosti (iz francuskog jezika).

Sam naučnik je definisao nauku semiologije koju je stvorio kao "nauku koja proučava život znakova u okviru života društva". Budući da je jezik znakovni sistem, u potrazi za odgovorom na pitanje koje mjesto lingvistika zauzima među ostalim naukama, Saussure je ustvrdio da je lingvistika dio semiologije. Općenito je prihvaćeno da je švicarski filolog postavio teorijski temelj novog smjera u lingvistici, postavši utemeljitelj, "otac" moderne lingvistike.

Koncept koji je iznio F. de Saussure dalje je razvijen u djelima mnogih izuzetnih naučnika: u Danskoj - L. Elmslev, u Češkoj - N. Trubetskoy, u SAD - L. Bloomfield, 3. Harris, N. Chomsky. Što se tiče naše zemlje, ovdje je strukturna lingvistika započela svoj razvoj otprilike u isto vrijeme kao i na Zapadu, na prijelazu iz 19. u 20. stoljeće. - u djelima F. Fortunatova i I. Baudouina de Courtenaya. Treba napomenuti da je I. Baudouin de Courtenay blisko surađivao s F. de Saussureom. Ako je Saussure postavio teorijski temelj strukturne lingvistike, tada se Baudouin de Courtenay može smatrati osobom koja je postavila temelje za praktičnu primjenu metoda koje je predložio švicarski znanstvenik. On je bio taj koji je lingvistiku definirao kao znanost koristeći statističke metode i funkcionalne ovisnosti te je odvojio od filologije. Prvo iskustvo u primjeni matematičkih metoda u lingvistici bila je fonologija - nauka o strukturi zvukova jezika.

Treba napomenuti da su se postulati koje je iznio F. de Saussure ogledali u problemima lingvistike koji su bili relevantni sredinom 20. stoljeća. U tom se razdoblju ocrtala jasna tendencija ka matematizaciji nauke o jeziku. U gotovo svim velikim zemljama počinje brzi razvoj znanosti i računalne tehnologije, što je pak zahtijevalo sve više novih lingvističkih temelja. Rezultat svega toga bila je brza konvergencija egzaktnih i humanitarnih nauka, kao i aktivna interakcija matematike i lingvistike, koja je našla praktičnu primjenu u rješavanju hitnih naučnih problema.

Pedesetih godina XX stoljeća, na spoju nauka poput matematike, lingvistike, računarstva i umjetne inteligencije, pojavio se novi smjer znanosti - računalna lingvistika (poznata i kao strojna lingvistika ili automatska obrada tekstova na prirodnom jeziku). Glavne faze u razvoju ovog smjera odvijale su se u pozadini evolucije metoda umjetne inteligencije. Snažan poticaj razvoju računalne lingvistike bilo je stvaranje prvih računara. Međutim, pojavom 60 -ih godina nove generacije računara i programskih jezika počinje fundamentalno nova faza u razvoju ove nauke. Također treba napomenuti da ishodište računalne lingvistike seže do djela poznatog američkog lingviste N. Chomskog u području formalizacije strukture jezika. Rezultati njegovog istraživanja, dobiveni na sjecištu lingvistike i matematike, poslužili su kao temelj za razvoj teorije formalnih jezika i gramatika (generativne ili generativne, gramatike), koja se naširoko koristi za opisivanje prirodnih i umjetnih jezika, posebno programskih jezika. Tačnije, ova teorija je potpuno matematička disciplina. Može se smatrati jednim od prvih u takvom smjeru primijenjene lingvistike kao što je matematička lingvistika.

Prvi eksperimenti i prvi razvoj u računarskoj lingvistici odnose se na stvaranje sistema za mašinsko prevođenje, kao i sistema koji simuliraju jezične sposobnosti ljudi. Krajem 1980 -ih, s pojavom i aktivnim razvojem Interneta, došlo je do naglog rasta količine tekstualnih informacija dostupnih u elektroničkom obliku. To je dovelo do činjenice da su tehnologije za pretraživanje informacija prešle na kvalitativno novu fazu u svom razvoju. Pojavila se potreba za automatskom obradom tekstova na prirodnom jeziku, pojavili su se potpuno novi zadaci i tehnologije. Naučnici se suočavaju s takvim problemom kao što je brza obrada ogromnog toka nestrukturiranih podataka. Kako bi se pronašlo rješenje za ovaj problem, veliki značaj pridaje se razvoju i primjeni statističkih metoda u području automatske obrade teksta. Uz njihovu pomoć postalo je moguće riješiti probleme poput podjele tekstova na grozdove ujedinjene zajedničkom temom, isticanje određenih fragmenata u tekstu itd. Osim toga, upotreba metoda matematičke statistike i strojnog učenja omogućila je rješavanje problema prepoznavanja govora i stvaranje tražilica.

Naučnici nisu stali na postignutim rezultatima: nastavili su postavljati nove ciljeve i zadatke, razvijati nove tehnike i metode istraživanja. Sve je to dovelo do činjenice da je lingvistika počela djelovati kao primijenjena znanost, kombinirajući niz drugih znanosti, među kojima je vodeća uloga pripadala matematici s raznolikošću kvantitativnih metoda i sposobnošću njihove primjene za dublje razumijevanje proučavanog pojave. Tako je matematička lingvistika započela svoje formiranje i razvoj. U ovom trenutku ovo je prilično „mlada“ znanost (postoji već pedesetak godina), međutim, unatoč vrlo „mladoj dobi“, to je već etablirano područje znanstvenog znanja s mnogo uspješnih dostignuća.

Lingvistika (od latinskog lingua -
jezik), lingvistika, lingvistika - nauka,
učenje jezika.
Ovo je nauka o prirodnom ljudskom jeziku uopšte
i o svim jezicima svijeta poput njegovog
individualni predstavnici.
U najširem smislu riječi, lingvistika
podeljeni na naučne i praktične. Češće
od svega, lingvistika znači upravo
naučna lingvistika. Dio je semiotike kao
nauka o znakovima.
Lingvistikom se profesionalno bave lingvisti.

Lingvistika i informatika.
U životu modernog društva, automatizovano
informacione tehnologije. No, razvoj informacijske tehnologije se događa
vrlo neujednačeno: ako je savremeni nivo računarske tehnologije i
komunikacijska sredstva su zadivljujuća, zatim u području semantičke obrade
informacijski uspjesi su mnogo skromniji. Ovi uspjesi prvenstveno zavise od
dostignuća u proučavanju procesa mišljenja ljudi, govornih procesa
komunikaciju među ljudima i iz sposobnosti simulacije ovih procesa na računaru. A ovo je zadatak iznimne složenosti. Što se tiče stvaranja obećanja
informacijske tehnologije, problemi automatske obrade teksta
informacije predočene na prirodnim jezicima dolaze do izražaja.
To je određeno činjenicom da je razmišljanje osobe usko povezano s njegovim jezikom. Više
Štaviše, prirodni jezik je oruđe za razmišljanje. On je takođe
univerzalno sredstvo komunikacije među ljudima - sredstvo percepcije,
akumuliranje, skladištenje, obrada i prijenos informacija.
Problemi upotrebe prirodnog jezika u automatskim sistemima
obradom informacija bavi se znanost računalne lingvistike. Ova nauka
nastala relativno nedavno - na prijelazu iz pedesetih u šezdesete
prošlog veka. U početku, tokom svog formiranja, imala je razne
nazivi: matematička lingvistika, računarska lingvistika, inženjering
lingvistike. Ali početkom osamdesetih, ime se toga držalo
računarska lingvistika.

Računarska lingvistika područje je stručnosti vezano za rješavanje problema
automatska obrada informacija predstavljenih na prirodnom jeziku.
Centralni naučni problemi računske lingvistike su problem
modeliranje procesa razumijevanja značenja tekstova (prijelaz sa teksta na
formalizirani prikaz njegovog značenja) i problem sinteze govora (prijelaz iz
formalizirana prezentacija značenja tekstovima na prirodnom jeziku). Ovi problemi
nastaju pri rješavanju niza primijenjenih problema:
1) automatsko otkrivanje i ispravljanje grešaka pri unosu tekstova u računar,
2) automatska analiza i sinteza usmenog govora,
3) automatsko prevođenje tekstova sa jednog jezika na drugi,
4) komunikacija sa računarom na prirodnom jeziku,
5) automatska klasifikacija i indeksiranje tekstualnih dokumenata, njihova
automatsko sažimanje, pretraživanje dokumenata u punim tekstovnim bazama podataka.
Tokom proteklih pola veka na polju računarske lingvistike,
značajni naučni i praktični rezultati: sistemi mašina
prevođenje tekstova sa jednog prirodnog jezika na drugi, automatizovani sistemi
traženje informacija u tekstovima, sistemi za automatsku analizu i sintezu usmenog govora i
mnogo drugih. Ali bilo je i razočaranja. Na primjer, problem strojnog prevođenja
tekstovi s jednog jezika na drugi pokazali su se mnogo težim nego što se zamišljalo
pioniri mašinskog prevođenja i njihovi sljedbenici. Isto se može reći i za
automatizirano traženje informacija u tekstovima i zadatak analize i sinteze usmenog
govor. Naučnici i inženjeri će očigledno morati naporno da rade
postići željene rezultate.

Obrada prirodnog jezika; sintaksički,
morfološka, ​​semantička analiza teksta). Ovo takođe uključuje:
Korpusna lingvistika, stvaranje i upotreba korpusa elektronskog teksta
Stvaranje elektronskih rječnika, tezaurusa, ontologija. Na primjer, Lingvo. Rječnici
koristi se, na primjer, za automatsko prevođenje, provjeru pravopisa.
Automatski prijevod tekstova. Popularno među ruskim prevodiocima
je Promt. Prevodilac Google Translate poznat je među besplatnim prevodiocima.
Automatsko izdvajanje činjenica iz teksta (izdvajanje informacija) (eng. Fact
ekstrakcija, rudarenje teksta)
Automatsko sažimanje teksta. Ova funkcija je omogućena,
na primjer, u programu Microsoft Word.
Izgradnja sistema upravljanja znanjem. Pogledajte Ekspertni sistemi
Stvaranje sistema za odgovaranje na pitanja.
Optičko prepoznavanje znakova (OCR). Na primjer, FineReader
Automatsko prepoznavanje govora (ASR). Postoje plaćeni i besplatni softver
Automatska sinteza govora

Na Filološkom odsjeku Više ekonomske škole pokreće se novi magistarski program posvećen računarskoj lingvistici: kandidati sa osnovnim humanističkim i matematičkim obrazovanjem i svi koji su zainteresirani za rješavanje problema u jednoj od najperspektivnijih grana nauke su čeka ovde. Njena voditeljica Anastasia Bonch-Osmolovskaya ispričala je Teorijama i praksama šta je računska lingvistika, zašto roboti neće zamijeniti ljude i čemu će podučavati na HSE master programu iz računalne lingvistike.

Ovaj program je gotovo jedini takve vrste u Rusiji. Gdje ste sami učili?

Studirao sam na Moskovskom državnom univerzitetu na Katedri za teorijsku i primijenjenu lingvistiku Filološkog fakulteta. Nisam stigao odmah, isprva sam ušao na ruski odsjek, ali sam se onda ozbiljno zaneo lingvistikom i privukla me atmosfera koja na odjelu ostaje do danas. Najvažnija stvar je dobar kontakt između nastavnika i učenika i njihov obostrani interes.

Kad su mi se rodila djeca i morao sam zarađivati ​​za život, krenuo sam u područje komercijalne lingvistike. 2005. nije bilo sasvim jasno koje je to područje aktivnosti kao takvo. Radio sam u različitim lingvističkim firmama: počeo sam s malom firmom na web stranici Public.ru - ovo je medijska biblioteka, gdje sam se počeo baviti lingvističkim tehnologijama. Zatim je godinu dana radila u Rosnanotechu, gdje je postojala ideja da se napravi analitički portal tako da se podaci o njemu automatski strukturiraju. Zatim sam vodio jezički odjel u Avicompu - ovo je već ozbiljna produkcija na području računalne lingvistike i semantičkih tehnologija. Paralelno sam držao kurs iz računarske lingvistike na Moskovskom državnom univerzitetu i pokušao da ga učinim modernijim.

Dva izvora za lingvistu: - stranica koju su stvorili lingvisti za naučna i primijenjena istraživanja vezana za ruski jezik. Ovo je model ruskog jezika, predstavljen koristeći ogroman niz tekstova iz različitih žanrova i perioda. Tekstovi su opremljeni jezičkom oznakom pomoću koje je moguće doći do podataka o učestalosti pojedinih jezičnih pojava. Vordnet je ogromna leksička baza engleskog jezika, glavna ideja Vordneta je povezati u jednu veliku mrežu ne riječi, već njihovo značenje. WordNet se može preuzeti i koristiti za vlastite projekte.

Čime se bavi računarska lingvistika?

Ovo je najviše interdisciplinarno područje. Ovdje je najvažnije razumjeti što se događa u elektroničkom svijetu i tko će vam pomoći u određenim stvarima.

Okruženi smo velikom količinom digitalnih informacija, postoji mnogo poslovnih projekata čiji uspjeh ovisi o obradi informacija, ti se projekti mogu odnositi na područje marketinga, politike, ekonomije i bilo čega. I vrlo je važno moći efikasno rukovati ovim podacima - glavna stvar nije samo brzina obrade informacija, već i lakoća s kojom, filtriranjem buke, možete doći do potrebnih podataka i stvoriti cjelinu slika o tome.

Ranije su neke globalne ideje bile povezane s računalnom lingvistikom, na primjer: ljudi su mislili da će strojno prevođenje zamijeniti ljudsko prevođenje, roboti će raditi umjesto ljudi. Ali sada se čini kao utopija, a strojno prevođenje se koristi u tražilicama za brzo pretraživanje na nepoznatom jeziku. Odnosno, sada se lingvistika rijetko bavi apstraktnim zadacima - uglavnom nekim malim stvarima koje se mogu umetnuti u veliki proizvod i na njemu zaraditi.

Jedan od velikih zadataka moderne lingvistike je semantički web, kada se pretraživanje ne vrši samo slučajnošću riječi, već i značenjem, a sva su mjesta na neki način obilježena semantikom. Ovo može biti korisno, na primjer, za policijske ili medicinske izvještaje koji se pišu svaki dan. Analiza internih veza daje mnogo potrebnih informacija, a njihovo ručno čitanje i brojanje je nevjerojatno dugo.

Ukratko, imamo hiljadu tekstova, potrebno ih je složiti u hrpe, predstaviti svaki tekst u obliku strukture i dobiti tablicu s kojom već možete raditi. To se zove obrada nestrukturiranih informacija. S druge strane, računarska lingvistika bavi se, na primjer, stvaranjem umjetnih tekstova. Postoji kompanija koja je osmislila mehanizam za generiranje tekstova na teme o kojima je čovjeku dosadno pisati: promjene cijena nekretnina, vremenska prognoza, izvještaji o fudbalskim utakmicama. Naručivanje ovih tekstova za osobu je mnogo skuplje, štoviše, kompjuterski tekstovi na takve teme napisani su na koherentnom ljudskom jeziku.

Yandex se aktivno bavi razvojem na polju traženja nestrukturiranih informacija u Rusiji; Kaspersky Lab zapošljava istraživačke grupe koje proučavaju mašinsko učenje. Pokušava li netko na tržištu smisliti nešto novo u području računalne lingvistike?

** Knjige o računarskoj lingvistici: **

Daniel Jurafsky, Obrada govora i jezika

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, "Uvod u pronalaženje informacija"

Yakov Testelets, "Uvod u opštu sintaksu"

Većina jezičkog razvoja vlasništvo je velikih kompanija, gotovo ništa se ne može naći u javnom domenu. To koči razvoj industrije, nemamo slobodno jezičko tržište, pakirana rješenja.

Osim toga, postoji nedostatak punopravnih izvora informacija. Postoji takav projekat kao Nacionalni korpus ruskog jezika. Ovo je jedan od najboljih nacionalnih korpusa u svijetu, koji se brzo razvija i nudi nevjerojatne mogućnosti za naučna i primijenjena istraživanja. Razlika je otprilike ista kao u biologiji - prije i nakon DNK istraživanja.

Ali mnogi resursi ne postoje na ruskom. Dakle, ne postoji analog tako divnog izvora na engleskom jeziku kao što je Framenet - to je takva konceptualna mreža u kojoj su sve moguće veze određene riječi s drugim riječima formalno predstavljene. Na primjer, postoji riječ "letjeti" - ko može letjeti, gdje, s kojim prijedlogom se ova riječ koristi, s kojim riječima se kombinira itd. Ovaj izvor pomaže povezivanju jezika sa stvarnim životom, odnosno praćenju ponašanja određene riječi na nivou morfologije i sintakse. Vrlo je korisno.

Avicomp trenutno razvija dodatak za pretraživanje srodnih članaka. Odnosno, ako vas zanima članak, možete brzo pogledati povijest radnje: kada se pojavila tema, šta je napisano i kada je došlo do vrhunca interesa za ovaj problem. Na primjer, pomoću ovog dodatka bit će moguće, počevši od članka o događajima u Siriji, vrlo brzo vidjeti kako su se događaji tamo razvijali u posljednjih godinu dana.

Kako će biti strukturiran proces učenja na master programu?

Obrazovanje na HSE -u organizirano je u zasebnim modulima, kao na zapadnim univerzitetima. Studenti će biti podijeljeni u male timove, mini-startupove-to jest, na kraju bismo trebali primiti nekoliko gotovih projekata. Želimo dobiti prave proizvode, koje ćemo zatim otvoriti ljudima i ostaviti ih u javnoj domeni.

Osim direktnih menadžera studentskih projekata, želimo pronaći i kustose među njihovim potencijalnim poslodavcima - na primjer iz istog "Yandexa", koji će također igrati ovu igru ​​i studentima dati neke savjete.

Nadam se da će na master studije doći ljudi iz različitih oblasti: programeri, lingvisti, sociolozi, marketeri. Imat ćemo nekoliko kurseva prilagođavanja iz lingvistike, matematike i programiranja. Zatim ćemo imati dva ozbiljna kursa lingvistike, a oni će se odnositi na najrelevantnije lingvističke teorije, želimo da naši diplomci budu u mogućnosti čitati i razumjeti savremene lingvističke članke. Slično je i sa matematikom. Imat ćemo kurs pod nazivom "Matematičke osnove računske lingvistike", koji će ocrtati one dijelove matematike na kojima se zasniva savremena računska lingvistika.

Da biste se upisali na master program, potrebno je da položite prijemni ispit iz jezika i položite portfolio takmičenje.

Osim glavnih predmeta, bit će i izbornih predmeta. Planirali smo nekoliko ciklusa - dva su usmjerena na dublje proučavanje određenih tema, koje uključuju, na primjer, mašinsko prevođenje i korpusnu lingvistiku, i, naprotiv, , jedna se odnosi na srodna područja: kao što su društveni mediji, mašinsko učenje ili digitalne humanističke nauke - kurs za koji se nadamo da će biti održan na engleskom jeziku.