Kaj je računalniško jezikoslovje? Hitra rast obsega besedilnih informacij v elektronski obliki

21.09.2019

TEČAJNO DELO

v disciplini "Informatika"

na temo: "Računalniško jezikoslovje"


UVOD

2. Sodobni vmesniki računalniškega jezikoslovja

ZAKLJUČEK

LITERATURA


Uvod

Avtomatizirane informacijske tehnologije igrajo pomembno vlogo v življenju sodobne družbe. Sčasoma se njihov pomen nenehno povečuje. Toda razvoj informacijskih tehnologij je zelo neenakomeren: če sodobna raven računalniške tehnologije in komunikacijskih naprav preseneti domišljijo, potem so na področju semantične obdelave informacij uspehi veliko skromnejši. Ti uspehi so najprej odvisni od dosežkov pri preučevanju procesov človeškega mišljenja, procesov govorne komunikacije med ljudmi in od sposobnosti modeliranja teh procesov v računalniku.

Ko gre za ustvarjanje naprednih informacijskih tehnologij, pridejo do izraza problemi samodejne obdelave besedilnih informacij, predstavljenih v naravnih jezikih. To določa dejstvo, da je človekovo razmišljanje tesno povezano z njegovim jezikom. Poleg tega je naravni jezik orodje za razmišljanje. Je tudi univerzalno sredstvo komunikacije med ljudmi - sredstvo za zaznavanje, kopičenje, shranjevanje, obdelavo in prenos informacij. Znanost računalniškega jezikoslovja se ukvarja s problemi uporabe naravnega jezika v sistemih za avtomatsko obdelavo informacij. Ta znanost je nastala razmeroma nedavno - na prelomu petdesetih in šestdesetih let prejšnjega stoletja. V zadnjih pol stoletja so bili doseženi pomembni znanstveni in praktični rezultati na področju računalniške lingvistike: sistemi za strojno prevajanje besedil iz enega naravnega jezika v druge, sistemi za avtomatizirano iskanje informacij v besedilih, sistemi za samodejno analizo in sintezo ustnega govora in mnogi drugi. To delo je namenjeno konstrukciji optimalnega računalniškega vmesnika s pomočjo računalniške lingvistike v jezikoslovnih raziskavah.


1. Kraj in vloga računalniške lingvistike v lingvističnih raziskavah

V sodobnem svetu se računalniško jezikoslovje vse pogosteje uporablja v različnih jezikoslovnih raziskavah.

Računalniško jezikoslovje je področje znanja, povezano z reševanjem problemov samodejne obdelave informacij, predstavljenih v naravnem jeziku. Osrednji znanstveni problemi računalniške lingvistike so problem modeliranja postopka razumevanja pomena besedil (prehod iz besedila v formalizirano predstavitev njegovega pomena) in problem sinteze govora (prehod iz formalizirane predstavitve pomena v besedila v naravnem jeziku). Te težave se pojavijo pri reševanju številnih uporabnih problemov, zlasti pri težavah s samodejnim zaznavanjem in popravljanjem napak pri vnosu besedil v računalnik, samodejnem analiziranju in sintezi ustnega govora, samodejnem prevajanju besedil iz enega jezika v drugega, komunikaciji z računalniki v naravnem jeziku, samodejni klasifikaciji. in indeksiranje besedilnih dokumentov, njihovo samodejno povzemanje, iskanje dokumentov v polnobesedilnih zbirkah podatkov.

Jezikovna orodja, ustvarjena in uporabljena v računalniški lingvistiki, lahko pogojno razdelimo na dva dela: izjavna in procesna. Izjavni del vključuje slovarje jezikovnih in govornih enot, besedila in različne vrste slovničnih tabel, procesni del - sredstva za upravljanje z jezikovnimi in govornimi enotami, besedila in slovnične tabele. Računalniški vmesnik se nanaša na procesni del računalniške lingvistike.

Uspeh pri reševanju aplikativnih problemov računalniške lingvistike je odvisen predvsem od popolnosti in natančnosti predstavitve izjavnih sredstev v računalniškem pomnilniku ter od kakovosti procesnih sredstev. Do danes potrebna raven reševanja teh problemov še ni bila dosežena, čeprav se dela na področju računalniškega jezikoslovja izvajajo v vseh razvitih državah sveta (Rusija, ZDA, Anglija, Francija, Nemčija, Japonska itd.).

Kljub temu lahko opazimo resne znanstvene in praktične dosežke na področju računalniškega jezikoslovja. Tako so v številnih državah (Rusija, ZDA, Japonska itd.) Zgrajeni eksperimentalni in industrijski sistemi za strojno prevajanje besedil iz enega jezika v drugega, zgrajeni so bili številni eksperimentalni sistemi za komunikacijo z računalniki v naravnem jeziku, poteka delo za ustvarjanje terminoloških bank podatkov, tezavrov, dvojezični in večjezični strojni slovarji (Rusija, ZDA, Nemčija, Francija itd.), gradijo se sistemi za samodejno analizo in sintezo ustnega govora (Rusija, ZDA, Japonska itd.), potekajo raziskave na področju konstruiranja modelov naravnih jezikov.

Pomemben metodološki problem uporabne računalniške lingvistike je pravilna ocena potrebnega razmerja med izjavno in procesno komponento sistemov za avtomatsko obdelavo besedilnih informacij. Kateremu dati prednost: zmogljivi računski postopki, ki temeljijo na sorazmerno majhnih sistemih besedišča z bogatimi slovničnimi in semantičnimi informacijami, ali močna deklarativna komponenta z razmeroma preprostimi računalniškimi vmesniki? Večina znanstvenikov meni, da je zaželena druga pot. Hitro bo pripeljalo do doseganja praktičnih ciljev, saj bo manj slepih ulic in težkih ovir, ki jih je mogoče premagati, tukaj pa bo mogoče računalnike v večjem obsegu uporabljati za avtomatizacijo raziskav in razvoja.

Potrebo po mobilizaciji prizadevanj najprej za razvoj deklarativne komponente sistemov za samodejno obdelavo besedilnih informacij potrjujejo pol stoletja izkušenj z razvojem računalniškega jezikoslovja. Dejansko navdušenje nad algoritmičnimi postopki kljub neizpodbitnemu uspehu te znanosti ni prineslo pričakovanega uspeha. Bilo je celo nekaj razočaranja nad možnostmi postopkovnih sredstev.

Glede na zgoraj navedeno se zdi tak način razvoja računalniške lingvistike obetaven, ko bodo glavna prizadevanja usmerjena v ustvarjanje močnih slovarjev jezikovnih in govornih enot, proučevanje njihove pomenske in skladenjske strukture ter oblikovanje osnovnih postopkov za morfološko, semantično-sintaksično in konceptualno analizo in sintezo besedil. To bo v prihodnosti omogočilo reševanje številnih uporabnih problemov.

Računalniško jezikoslovje se najprej sooča z nalogami jezikovne podpore procesom zbiranja, kopičenja, obdelave in iskanja informacij. Najpomembnejši so:

1. avtomatizacija prevajanja in jezikovne obdelave strojnih slovarjev;

2. avtomatizacija procesov zaznavanja in popravljanja napak pri vnašanju besedil v računalnik;

3. samodejno indeksiranje dokumentov in zahtev za informacije;

4. Samodejna klasifikacija in povzemanje dokumentov;

5. Jezikovna podpora postopkom iskanja informacij v enojezičnih in večjezičnih zbirkah podatkov;

6. Strojno prevajanje besedil iz enega naravnega jezika v drugega;

7. Izdelava jezikovnih procesorjev, ki zagotavljajo komunikacijo med uporabniki in avtomatiziranimi inteligentnimi informacijskimi sistemi (zlasti s strokovnimi sistemi) v naravnem jeziku ali v jeziku, ki je blizu naravnemu;

8. Izvleček dejanskih informacij iz neformaliziranih besedil.

Podrobneje se ustavimo na problemih, ki so najbolj povezani s temo raziskave.

V praksi informacijskih centrov je treba rešiti problem avtomatiziranega odkrivanja in popravljanja napak v besedilih, ko so vnesena v računalnik. To zapleteno nalogo lahko pogojno razdelimo na tri naloge - naloge črkovanja, skladenjskega in pomenskega nadzora besedil. Prve izmed njih je mogoče rešiti s pomočjo morfološkega postopka analize z uporabo dovolj zmogljivega referenčnega strojnega slovarja besednih besed. V procesu črkovanja se besede besedila podvržejo morfološki analizi in če se njihove osnove identificirajo z osnovami referenčnega slovarja, se štejejo za pravilne; če niso identificirani, jih skupaj z mikrokontekstom damo osebi na ogled. Oseba zazna in popravi popačene besede, ustrezni programski sistem pa jih popravi v popravljenem besedilu.

Naloga skladenjskega nadzora besedil z namenom odkrivanja napak v njih je veliko težja kot naloga njihovega črkovanja. Prvič zato, ker vključuje v svojo sestavo in nalogo črkovanja kot obvezno komponento, in drugič, ker problem sintaktične analize neformaliziranih besedil še ni popolnoma razrešen. Kljub temu je delni skladenjski nadzor besedil povsem mogoč. Tu lahko gremo na dva načina: bodisi zberemo dovolj reprezentativne strojne slovarje referenčnih skladenjskih struktur in z njimi primerjamo skladenjske strukture analiziranega besedila; ali razviti zapleten sistem pravil za preverjanje slovnične skladnosti besedilnih elementov. Prva pot se nam zdi bolj obetavna, čeprav seveda ne izključuje možnosti uporabe elementov druge poti. Sintaksično strukturo besedil je treba opisati s slovničnimi razredi besed (natančneje v obliki zaporedij nizov slovničnih informacij za besede).

Nalogo semantičnega nadzora besedil za odkrivanje pomenskih napak v njih je treba pripisati razredu nalog umetne inteligence. V celoti jo je mogoče rešiti le na podlagi modeliranja procesov človeškega mišljenja. V tem primeru bo očitno treba ustvariti močne enciklopedične baze znanja in programska orodja za manipulacijo znanja. Kljub temu je ta problem za omejena področja in za formalizirane informacije povsem rešljiv. Postaviti in rešiti jo je treba kot nalogo pomenskega in skladenjskega nadzora besedil.

Problem avtomatizacije indeksiranja dokumentov in poizvedb je tradicionalen za sisteme samodejnega iskanja besedilnih informacij. Sprva je bilo indeksiranje razumljeno kot postopek dodeljevanja klasifikacijskih indeksov dokumentom in poizvedbam, ki odražajo njihovo tematsko vsebino. Kasneje se je ta koncept preoblikoval in izraz "indeksiranje" je začel imenovati postopek prevajanja opisov dokumentov in poizvedb iz naravnega jezika v formaliziran, zlasti v jezik "iskalnih slik". Iskalne slike dokumentov so se praviloma začele pripravljati v obliki seznamov ključnih besed in besednih zvez, ki odražajo njihovo tematsko vsebino, in iskalne slike poizvedb - v obliki logičnih struktur, v katerih so ključne besede in besedne zveze med seboj kombinirali logični in skladenjski operatorji.

Samodejno indeksiranje dokumentov je priročno izvesti glede na besedila njihovih povzetkov (če obstajajo), saj povzetki odražajo glavno vsebino dokumentov v koncentrirani obliki. Indeksiranje je mogoče opraviti z ali brez nadzora tezavra. V prvem primeru se v besedilu naslova dokumenta in njegovega povzetka iščejo ključne besede in besedne zveze slovarja referenčnega stroja, v POD pa so vključene samo tiste, ki jih najdete v slovarju. V drugem primeru se ključne besede in besedne zveze izvlečejo iz besedila in vključijo v POD, ne glede na njihovo pripadnost kateremu koli referenčnemu slovarju. Izvedena je bila tudi tretja možnost, kjer je POD poleg izrazov iz strojnega tezavra vključil tudi izraze, povzete iz naslova in prvi stavek povzetka dokumenta. Poskusi so pokazali, da POD-ji, sestavljeni v samodejnem načinu, ki temeljijo na naslovih in povzetkih dokumentov, omogočajo bolj obsežno iskanje kot POD-ji, sestavljeni ročno. To je razloženo z dejstvom, da sistem samodejnega indeksiranja popolneje odraža različne vidike vsebine dokumentov kot sistem ročnega indeksiranja.

Težave pri samodejnem indeksiranju poizvedb so podobne kot pri samodejnem indeksiranju dokumentov. Tu morate iz besedila izvleči tudi ključne besede in besedne zveze ter normalizirati besede, vključene v besedilo poizvedbe. Logične povezave med ključnimi besedami in besednimi zvezami ter kontekstualnimi operaterji lahko nastavite ročno ali z avtomatiziranim postopkom. Pomemben element postopka samodejnega indeksiranja poizvedbe je dodajanje sestavnih ključnih besed in fraz z njihovimi sopomenkami in hiponimi (včasih tudi hiperonimi in drugimi izrazi, povezanimi s prvotnimi poizvedbenimi izrazi). To lahko storite samodejno ali interaktivno z uporabo strojnega tezavra.

Problem avtomatizacije iskanja dokumentarnih informacij smo delno že obravnavali v povezavi s problemom samodejnega indeksiranja. Tu najbolj obeta iskanje dokumentov po celotnih besedilih, saj uporaba vseh vrst nadomestkov v ta namen (bibliografski opisi, iskalne slike dokumentov in besedila njihovih povzetkov) med iskanjem povzroči izgubo informacij. Največ izgub nastane, če se njihovi bibliografski opisi uporabijo kot nadomestki za primarne dokumente, najmanj pa pri povzetkih.

Pomembni značilnosti kakovosti pridobivanja informacij sta njena popolnost in natančnost. Popolnost iskanja je mogoče zagotoviti tako, da se maksimalno upoštevajo paradigmatske povezave med jezikovnimi in govornimi enotami (besede in besedne zveze), natančnost pa z upoštevanjem njihovih sintagmatskih razmerij. Obstaja mnenje, da sta popolnost in natančnost iskanja obratno povezani: ukrepi za izboljšanje ene od teh značilnosti vodijo v poslabšanje druge. Toda to velja le za fiksno logiko iskanja. Če se ta logika izboljša, se lahko hkrati izboljšata obe značilnosti.

Priporočljivo je postopek iskanja informacij v polnobesedilnih bazah podatkov zgraditi kot postopek dialoga med uporabnikom in sistemom za iskanje informacij (ISS), v katerem zaporedoma pregleduje drobce besedil (odstavki, odstavki), ki ustrezajo logičnim pogojem poizvedbe, in izbira tiste, ki so zanj. so zanimive. Kot končni rezultat iskanja je mogoče vrniti tako celotna besedila dokumentov kot tudi njihove fragmente.

Kot je razvidno iz prejšnjih razlogov, je treba pri samodejnem iskanju informacij premagati jezikovno oviro, ki nastane med uporabnikom in davčno upravi, v povezavi z različnimi oblikami predstavitve istega pomena v besedilih. Ta ovira postane še pomembnejša, če je treba iskati v večjezičnih zbirkah podatkov. Strojno prevajanje besedil dokumentov iz enega jezika v drugega je lahko glavna rešitev problema. To lahko storite vnaprej, pred nalaganjem dokumentov v iskalnik ali med iskanjem informacij. V slednjem primeru mora biti uporabnikova zahteva prevedena v jezik vrste dokumentov, v katerih poteka iskanje, in rezultati iskanja morajo biti prevedeni v jezik zahteve. Tovrstni iskalniki že delujejo na internetu. V VINITI RAS je bil zgrajen tudi sistem brskalnika Cirilica, ki omogoča iskanje informacij v ruskojezičnih besedilih po poizvedbah v angleščini z izdajo rezultatov iskanja tudi v uporabnikovem jeziku.

Pomembna in obetavna naloga računalniške lingvistike je izdelava jezikovnih procesorjev, ki zagotavljajo komunikacijo med uporabniki in inteligentnimi avtomatiziranimi informacijskimi sistemi (zlasti s strokovnimi sistemi) v naravnem jeziku ali v jeziku, ki je blizu naravnemu. Ker so informacije v sodobnih inteligentnih sistemih shranjene v formalizirani obliki, morajo jezikovni procesorji, ki delujejo kot posredniki med osebo in računalnikom, rešiti naslednje glavne naloge: 1) problem prehoda iz besedil vhodnih informacij in sporočil v naravnem jeziku na predstavitev njihovega pomena v formaliziranem jeziku (pri vnosu informacij v računalnik); 2) problem prehoda z formalizirane predstavitve pomena izhodnih sporočil na njegovo predstavitev v naravnem jeziku (pri dajanju informacij osebi). Prvo težavo je treba rešiti z morfološko, skladenjsko in konceptualno analizo vhodnih zahtev in sporočil, drugo - s konceptualno, sintaktično in morfološko sintezo izhodnih sporočil.

Konceptualna analiza zahtev po informacijah in sporočil vključuje identifikacijo njihove konceptualne strukture (meje imen pojmov in razmerja med pojmi v besedilu) in prevajanje te strukture v formaliziran jezik. Izvaja se po morfološki in skladenjski analizi prošenj in sporočil. Konceptualna sinteza sporočil je sestavljena iz prehoda od predstavitve elementov njihove strukture v formaliziranem jeziku v besedno (besedno) predstavitev. Nato sporočila dobijo potrebno skladenjsko in morfološko zasnovo.

Za strojno prevajanje besedil iz enega naravnega jezika v drugega je treba imeti slovarje prevodnih ujemanj med imeni konceptov. Znanje o takih prevajalskih korespondencah je nabralo veliko generacij ljudi in je izšlo v obliki posebnih izdaj - dvojezičnih ali večjezičnih slovarjev. Za strokovnjake, ki v takšni ali drugačni meri govorijo tuje jezike, so bili ti slovarji dragocena orodja za prevajanje besedil.

V tradicionalnih dvojezičnih in večjezičnih splošnih slovarjih so bili prevodni ustrezniki označeni predvsem za posamezne besede, za besedne kombinacije - veliko manj pogosto. Navedba prevodnih ustreznikov za besedne zveze je bila bolj značilna za posebne terminološke slovarje. Zato so imeli učenci pri prevajanju segmentov besedil, ki vsebujejo večznačne besede, pogosto težave.

Spodaj so prevedene korespondence med več pari angleških in ruskih fraz na "šolsko" temo.

1) Netopir izgleda kot miška s krili - Netopir izgleda kot miš s krili.

2) Otroci se radi igrajo v pesku na plaži - Otroci se radi igrajo v pesku ob morju.

3) Kapljica dežja mi je padla na roko - Kapljica dežja mi je padla na roko.

4) Suh les zlahka gori - suh les dobro gori.

5) Pretvarjal se je, da me ne sliši - pretvarjal se je, da me ne sliši.

Angleške besedne zveze tukaj niso idiomatski izrazi. Kljub temu je njihov prevod v ruščino mogoče le nekoliko razlagati kot preprost prevod od besede do besede, saj so skoraj vse besede, ki so vključene v njih, večznačne. Zato lahko učencem tukaj pomagajo le dosežki računalniškega jezikoslovja.

RAČUNALNIŠKA LINGVISTIKA (paus iz angleškega računalniškega jezikoslovja), eno od področij uporabne lingvistike, na katerem se za preučevanje jezika in modeliranje delovanja jezika v določenih razmerah, situacijah in problematičnih področjih razvijajo in uporabljajo računalniški programi, računalniške tehnologije za organiziranje in obdelavo podatkov. Po drugi strani je to področje uporabe računalniških jezikovnih modelov v jezikoslovju in sorodnih disciplinah. Računalniško jezikoslovje se je v šestdesetih letih oblikovalo kot posebna znanstvena smer v evropskih študijah. Ker je angleški pridevnik computational mogoče prevesti tudi kot "computational", izraz "računalniško jezikoslovje" srečujemo tudi v literaturi, v domači znanosti pa dobi ožji pomen, ki se približuje pojmu "kvantitativno jezikoslovje".

Izraz "kvantitativna lingvistika" se pogosto nanaša na računalniško lingvistiko, ki označuje interdisciplinarno smer uporabnih raziskav, kjer se kvantitativne ali statistične metode analize uporabljajo kot glavno orodje za učenje jezika in govora. Včasih kvantitativno (ali kvantitativno) jezikoslovje nasprotuje kombinatorialnemu jezikoslovju. Pri slednjem ima prevladujočo vlogo "nekvantitativni" matematični aparat - teorija množic, matematična logika, teorija algoritmov itd. S teoretičnega vidika nam uporaba statističnih metod v jezikoslovju omogoča dopolnitev strukturnega modela jezika z verjetnostno komponento, to je ustvarjanje teoretične strukturno-verjetnostne model s pomembnim pojasnjevalnim potencialom. Na uporabnem področju kvantitativno jezikoslovje predstavlja najprej uporaba drobcev tega modela, ki se uporabljajo za jezikovno spremljanje delovanja jezika, dekodiranje kodiranega besedila, avtorizacija / dodeljevanje besedila itd.

Izraz "računalniško jezikoslovje" in problemi te smeri so pogosto povezani z modeliranjem komunikacije in predvsem z zagotavljanjem interakcije med človekom in računalnikom v naravnem ali omejenem naravnem jeziku (v ta namen se ustvarjajo posebni sistemi za obdelavo naravnega jezika), pa tudi s teorijo in prakso informacij iskalniki (ISS). Zagotavljanje komunikacije med osebo in računalnikom v naravnem jeziku včasih označujemo z izrazom "obdelava naravnega jezika" (prevod iz angleščine izraza Natural Language Processing). Ta smer računalniškega jezikoslovja se je pojavila konec šestdesetih let v tujini in se razvijala v okviru znanstvene in tehnološke discipline, imenovane umetna inteligenca (dela R. Schenka, M. Lebowitza, T. Vinograda itd.). Beseda "obdelava naravnega jezika" bi morala v svojem pomenu zajemati vsa področja, na katerih se računalniki uporabljajo za obdelavo jezikovnih podatkov. V praksi pa se je utrdilo ožje razumevanje izraza - razvoj metod, tehnologij in specifičnih sistemov, ki zagotavljajo komunikacijo med osebo in računalnikom v naravnem ali omejenem naravnem jeziku.

Do določene mere lahko računsko jezikoslovje pripišemo delu na področju ustvarjanja hipertekstnih sistemov, ki ga obravnavamo kot poseben način organiziranja besedila in celo kot bistveno novo vrsto besedila, v številnih lastnostih nasprotuje navadnemu besedilu, izoblikovanemu v Gutenberški tradiciji tipografije (glej Gutenberg).

Med pristojnosti računalniškega jezikoslovja spada tudi samodejno prevajanje.

V okviru računske lingvistike se je pojavila tudi razmeroma nova smer, ki se aktivno razvija od 80. do 90. let prejšnjega stoletja - korpusna lingvistika, kjer se ob uporabi sodobnih računalniških tehnologij razvijajo splošna načela za gradnjo jezikovnih korpusov podatkov (zlasti besedilnih korpusov). Korpusi besedil so zbirke posebej izbranih besedil iz knjig, revij, časopisov itd., Ki se prenesejo v računalniške medije in so namenjene samodejni obdelavi. Eden prvih korpusov besedil je bil ustvarjen za ameriško angleščino na univerzi Brown (tako imenovani Brown Corpus) v letih 1962–63 pod vodstvom W. Francisca. V Rusiji od začetka 2000-ih Inštitut za ruski jezik Vinogradov Ruske akademije znanosti razvija Nacionalni korpus ruskega jezika, ki ga sestavlja reprezentativni vzorec besedil v ruskem jeziku z obsegom približno 100 milijonov besed. Poleg dejanskega oblikovanja podatkovnih korpusov se korpusno jezikoslovje ukvarja tudi z ustvarjanjem računalniških orodij (računalniških programov), namenjenih pridobivanju različnih informacij iz besedilnih korpusov. Z vidika uporabnika se besedilnim korpusom nalagajo zahteve po reprezentativnosti (reprezentativnosti), popolnosti in ekonomičnosti.

Računalniško jezikoslovje se aktivno razvija tako v Rusiji kot v tujini. Pretok publikacij na tem področju je zelo velik. Poleg tematskih zbirk v ZDA od leta 1984 vsako četrtletje izhaja revija "Računalniška lingvistika". Veliko organizacijsko in znanstveno delo izvaja Združenje za računalniško jezikoslovje, ki ima regionalne strukture po vsem svetu (zlasti evropska podružnica). Vsaki dve leti potekajo mednarodne konference COLINT (leta 2008 je bila konferenca v Manchestru). O glavnih področjih računske lingvistike razpravljajo tudi na letni mednarodni konferenci "Dialog", ki jo organizirajo Ruski raziskovalni inštitut za umetno inteligenco, Filološka fakulteta Moskovske državne univerze, Yandex in številne druge organizacije. Ustrezne teme so široko predstavljene tudi na mednarodnih konferencah o umetni inteligenci na različnih ravneh.

Lit .: Zvegincev V. A. Teoretično in uporabno jezikoslovje. M., 1968; Piotrovskiy R.G., Bektayev K.B., Piotrovskaya A.A.Matematična lingvistika. M., 1977; Gorodetskiy B. Yu. Dejanske težave uporabnega jezikoslovja // Novo v tujem jezikoslovju. M., 1983. Izdaja. 12; Kibrik A. E. Uporabna lingvistika // Kibrik A. E. Eseji o splošnih in uporabnih problemih jezikoslovja. M., 1992; Kennedy G. Uvod v korpusno jezikoslovje. L., 1998; Bolšakov I.A., Gelbukh A. Računalniško jezikoslovje: modeli, viri, aplikacije. Fur., 2004; Nacionalni korpus ruskega jezika: 2003-2005. M., 2005; Baranov A. N. Uvod v uporabno jezikoslovje. 3. izd. M., 2007; Računalniška lingvistika in inteligentne tehnologije. M., 2008. Izdaja. 7.

programska oprema za jezikoslovno statistično jezikoslovje

Zgodovina razvoja računske jezikoslovja

Proces oblikovanja in oblikovanja sodobnega jezikoslovja kot znanosti o naravnem jeziku je dolgoročen zgodovinski razvoj jezikovnega znanja. V središču jezikovnega znanja so elementi, katerih oblikovanje je potekalo v procesu dejavnosti, neločljivo povezano z razvojem strukture ustnega govora, nastankom, nadaljnjim razvojem in izboljšanjem pisanja, poučevanja pisanja, pa tudi z interpretacijo in dekodiranjem besedil.

Naravni jezik kot predmet jezikoslovja je osrednji v tej znanosti. V procesu jezikovnega razvoja so se spremenile tudi ideje o njem. Če prej notranji ureditvi jezika ni bilo pripisanega posebnega pomena in je veljalo, da gre najprej za kontekst medsebojnega povezovanja z zunanjim svetom, potem je od konca 19. do začetka 20. stoletja posebna vloga pripadla notranji formalni strukturi jezika. V tem obdobju je priznani švicarski jezikoslovec Ferdinand de Saussure razvil temelje znanosti, kot sta semiologija in strukturna lingvistika, podrobno pa jih je opisal v svoji knjigi Tečaj splošnega jezikoslovja (1916).

Znanstvenik je prišel na idejo, da bi jezik obravnaval kot en sam mehanizem, celovit sistem znakov, kar pa omogoča matematični opis jezika. Saussure je prvi predlagal strukturni pristop do jezika, in sicer opisovanje jezika s preučevanjem odnosov med njegovimi enotami. Pod enotami ali »znaki« je razumel besedo, ki združuje pomen in zvok. Koncept, ki ga je predlagal švicarski znanstvenik, temelji na teoriji jezika kot sistema znakov, ki je sestavljen iz treh delov: jezika (iz francoskega jezika), govora (iz francoske parole) in govorne dejavnosti (iz francoskega jezika).

Znanstvenik sam je semiologijo, ki jo je ustvaril, opredelil kot "znanost, ki preučuje življenje znamenj v okviru življenja družbe". Ker je jezik znakovni sistem, je Saussure v iskanju odgovora na vprašanje, katero mesto jezikoslovje zaseda med drugimi vedami, trdil, da je jezikoslovje del semiologije. Splošno sprejeto je, da je švicarski filolog postavil teoretične temelje nove smeri v jezikoslovju in postal utemeljitelj, "oče" sodobnega jezikoslovja.

Koncept F. de Saussureja je bil nadalje razvit v delih številnih izjemnih znanstvenikov: na Danskem - L. Elmslev, na Češkem - N. Trubetskoy, v ZDA - L. Bloomfield, 3. Harris, N. Chomsky. Kar zadeva našo državo, se je tukaj strukturno jezikoslovje začelo razvijati približno v istem časovnem obdobju kot na Zahodu - na prehodu iz 19. v 20. stoletje. - v delih F. Fortunatova in I. Baudouina de Courtenayja. Treba je opozoriti, da je I. Baudouin de Courtenay tesno sodeloval s F. de Saussurejem. Če bi Saussure postavil teoretične temelje strukturne lingvistike, potem Baudouina de Courtenayja lahko štejemo za osebo, ki je postavila temelje za praktično uporabo metod, ki jih je predlagal švicarski znanstvenik. Prav on je opredelil jezikoslovje kot znanost z uporabo statističnih metod in funkcionalnih odvisnosti ter ga ločil od filologije. Prva izkušnja uporabe matematičnih metod v jezikoslovju je bila fonologija - znanost o strukturi zvokov nekega jezika.

Treba je opozoriti, da so se postulati, ki jih je predlagal F. de Saussure, odražali v jezikoslovnih problemih, pomembnih sredi 20. stoletja. V tem obdobju je bila začrtana jasna težnja k matematizaciji jezikovne vede. V skoraj vseh velikih državah se začne hiter razvoj znanosti in računalništva, kar je posledično zahtevalo vedno več novih jezikovnih temeljev. Rezultat vsega tega je bila hitro zbliževanje natančnih in humanitarnih ved, pa tudi aktivno medsebojno delovanje matematike in jezikoslovja, ki je našlo praktično uporabo pri reševanju nujnih znanstvenih problemov.

V 50. letih 20. stoletja se je na stičišču takšnih znanosti, kot so matematika, jezikoslovje, računalništvo in umetna inteligenca, pojavila nova smer znanosti - računalniška lingvistika (znana tudi kot strojna lingvistika ali avtomatska obdelava besedil v naravnem jeziku). Glavne faze v razvoju te smeri so potekale v ozadju razvoja metod umetne inteligence. Ustvarjanje prvih računalnikov je močno spodbudilo razvoj računalniške jezikoslovja. Toda s pojavom v 60. letih nove generacije računalnikov in programskih jezikov se začne bistveno nova faza v razvoju te znanosti. Prav tako je treba opozoriti, da izvor računalniške lingvistike sega v dela slavnega ameriškega jezikoslovca N. Chomskega na področju formalizacije strukture jezika. Rezultati njegovih raziskav, pridobljeni na stičišču jezikoslovja in matematike, so bili osnova za razvoj teorije formalnih jezikov in slovnic (generativne ali generativne, slovnice), ki se široko uporablja za opisovanje tako naravnih kot umetnih jezikov, zlasti programskih jezikov. Natančneje, ta teorija je popolnoma matematična disciplina. Velja za eno prvih v takšni smeri uporabnega jezikoslovja, kot je matematično jezikoslovje.

Prvi poskusi in prvi razvoj računalniške lingvistike se nanašajo na ustvarjanje sistemov strojnega prevajanja in sistemov, ki simulirajo človeške jezikovne sposobnosti. Konec osemdesetih let prejšnjega stoletja je s prihodom in aktivnim razvojem interneta hitro naraščala količina besedilnih informacij, ki so na voljo v elektronski obliki. To je pripeljalo do dejstva, da so tehnologije za iskanje informacij prešle na kakovostno novo stopnjo v svojem razvoju. Pojavila se je potreba po samodejni obdelavi besedil v naravnem jeziku, pojavile so se povsem nove naloge in tehnologije. Znanstveniki se soočajo s takšno težavo, kot je hitra obdelava ogromnega toka nestrukturiranih podatkov. Da bi našli rešitev tega problema, je bil velik pomen dan razvoju in uporabi statističnih metod na področju avtomatske obdelave besedil. Z njihovo pomočjo je bilo mogoče rešiti takšne težave, kot je delitev besedil v grozde, združene s skupno temo, poudarjanje določenih fragmentov v besedilu itd. Poleg tega je uporaba metod matematične statistike in strojnega učenja omogočila reševanje problemov prepoznavanja govora in oblikovanja iskalnikov.

Znanstveniki se niso ustavili pri doseženih rezultatih: še naprej so si postavljali nove cilje in cilje, razvijali nove tehnike in raziskovalne metode. Vse to je privedlo do tega, da je jezikoslovje začelo delovati kot uporabna znanost in je združevalo številne druge vede, med katerimi je vodilna vloga matematike s svojo raznolikostjo kvantitativnih metod in zmožnost njihove uporabe za globlje razumevanje preučenih pojavov. Tako se je začelo razvijati in razvijati matematična lingvistika. Trenutno gre za dokaj "mlado" znanost (obstaja že približno petdeset let), vendar je kljub zelo "mladi dobi" že uveljavljeno področje znanstvenega znanja z mnogimi uspešnimi dosežki.

Jezikoslovje (iz latinskega lingua -
jezik), jezikoslovje, jezikoslovje - znanost,
učenje jezikov.
To je znanost o naravnem človeškem jeziku na splošno
in o vseh jezikih sveta, kot je njegov
individualizirani predstavniki.
V najširšem pomenu besede jezikoslovje
razdeljeni na znanstvene in praktične. Pogosteje
vsega, jezikoslovje točno pomeni
znanstveno jezikoslovje. Je del semiotike kot
znanost o znakih.
Jezikoslovci se profesionalno ukvarjajo z jezikoslovci.

Jezikoslovje in informatika.
V življenju sodobne družbe avtomatizirano
Informacijska tehnologija. Toda razvoj informacijske tehnologije se dogaja
zelo neenakomerno: če sodobna raven računalniške tehnologije in
sredstva za komunikacijo so neverjetna, torej na področju pomenske obdelave
informacijski uspehi so veliko bolj skromni. Ti uspehi so odvisni predvsem od tega
dosežki pri preučevanju človekovih miselnih procesov, govornih procesov
komunikacija med ljudmi in sposobnost simulacije teh procesov v računalniku. To je izjemno težka naloga, ko gre za ustvarjanje obetavnih
informacijska tehnologija, problemi avtomatske obdelave besedila
informacije, predstavljene v naravnih jezikih, pridejo do izraza.
To določa dejstvo, da je človekovo razmišljanje tesno povezano z njegovim jezikom. Več
Poleg tega je naravni jezik orodje za razmišljanje. Tudi on je
univerzalno sredstvo komunikacije med ljudmi - sredstvo za zaznavanje,
zbiranje, shranjevanje, obdelava in prenos informacij.
Težave uporabe naravnega jezika v avtomatskih sistemih
obdelava informacij je znanost računalniškega jezikoslovja. Ta znanost
pojavili so se relativno nedavno - na prelomu petdesetih in šestdesetih let
prejšnjem stoletju. Sprva je bila v času nastanka različna
imena: matematično jezikoslovje, računska lingvistika, inženirstvo
jezikoslovje. Toda v začetku osemdesetih se je ime prijelo
računalniška lingvistika.

Računalniška lingvistika je strokovno področje, povezano z reševanjem problemov
avtomatska obdelava informacij, predstavljenih v naravnem jeziku.
Težava so osrednji znanstveni problemi računske jezikoslovja
modeliranje procesa razumevanja pomena besedil (prehod iz besedila v
formalizirana predstavitev njegovega pomena) in problem sinteze govora (prehod iz
formalizirana predstavitev pomena besedilom v naravnem jeziku). Te težave
pojavijo pri reševanju številnih uporabnih problemov:
1) samodejno odkrivanje in odpravljanje napak pri vnašanju besedil v računalnik,
2) avtomatska analiza in sinteza ustnega govora,
3) samodejno prevajanje besedil iz enega jezika v drugega,
4) komunikacija z računalnikom v naravnem jeziku,
5) samodejno razvrščanje in indeksiranje besedilnih dokumentov, njihovih
avtomatsko povzemanje, iskanje dokumentov v celotnih besedilnih bazah.
V zadnjem pol stoletja na področju računalniške lingvistike je dr.
pomembni znanstveni in praktični rezultati: strojni sistemi
prevajanje besedil iz enega naravnega jezika v drugega, avtomatizirani sistemi
iskanje informacij v besedilih, sistemih za avtomatsko analizo in sintezo ustnega govora in
veliko drugih. Vendar so bila tudi razočaranja. Na primer problem strojnega prevajanja
besedila iz enega jezika v drugega se je izkazalo za veliko težje, kot so si predstavljali
pionirji strojnega prevajanja in njihovi privrženci. O tem lahko rečemo enako
avtomatizirano iskanje informacij v besedilih in naloge analize in sinteze ustnega
govor. Znanstveniki in inženirji se bodo očitno morali zelo potruditi
doseči želene rezultate.

Obdelava naravnega jezika; skladenjska,
morfološka, \u200b\u200bpomenska analiza besedila). Sem spada tudi:
Corpus lingvistika, ustvarjanje in uporaba korpusov elektronskih besedil
Izdelava elektronskih slovarjev, tezavrov, ontologij. Na primer Lingvo. Slovarji
uporablja se na primer za samodejno prevajanje, preverjanje črkovanja.
Samodejno prevajanje besedil. Priljubljeno med ruskimi prevajalci
je Promt. Med brezplačnimi je prevajalec Google Translate
Samodejno pridobivanje dejstev iz besedila (pridobivanje informacij) (eng. Fact
črpanje, rudarjenje besedil)
Avtoferenca (angleško avtomatsko povzemanje besedila). Ta funkcija je omogočena,
na primer v Microsoft Wordu.
Gradnja sistemov za upravljanje znanja Glejte Strokovni sistemi
Izdelava sistemov za odgovore na vprašanja.
Optično prepoznavanje znakov (OCR). Na primer, FineReader
Samodejno prepoznavanje govora (ASR). Obstajajo plačljiva in brezplačna programska oprema
Samodejna sinteza govora

Na filološkem oddelku Visoke šole za ekonomijo se začenja nov magistrski program, namenjen računalniški lingvistiki: tu čakajo prosilci z osnovno humanitarno in matematično izobrazbo in vsi, ki jih zanima reševanje problemov v eni najbolj perspektivnih vej znanosti. Njegova vodja Anastasia Bonch-Osmolovskaya je za Teorije in prakse povedala, kaj je računalniška lingvistika, zakaj roboti ne bodo nadomestili človeka in kaj bodo učili v magistrskem programu HSE iz računalniške lingvistike.

Ta program je skoraj edini tovrstni program v Rusiji. Kje ste se sami učili?

Študiral sem na Moskovski državni univerzi na oddelku za teoretsko in uporabno jezikoslovje Filološke fakultete. Tja nisem prišel takoj, sprva sem vstopil na ruski oddelek, potem pa me je jezikovna politika resno zavzela in pritegnilo me je vzdušje, ki na oddelku ostaja do danes. Najpomembnejša stvar je dober stik med učitelji in učenci ter njihov obojestranski interes.

Ko so se mi rodili otroci in sem si moral zaslužiti za preživljanje, sem vstopil na področje komercialne lingvistike. Leta 2005 ni bilo povsem jasno, kakšno je to področje dejavnosti kot take. Delal sem v različnih jezikovnih podjetjih: začel sem z majhnim podjetjem na spletni strani Public.ru - to je takšna medijska knjižnica, kjer sem se začel ukvarjati z jezikovnimi tehnologijami. Nato je eno leto delala pri Rosnanotechu, kjer je obstajala ideja, da bi naredili analitični portal, tako da bodo podatki o njem samodejno strukturirani. Potem sem vodil jezikovni oddelek pri Avicompu - to je že resna produkcija na področju računalniškega jezikoslovja in semantičnih tehnologij. Vzporedno sem na Moskovski državni univerzi predaval na računalniškem jezikoslovju in ga poskušal narediti modernejšega.

Dva vira za jezikoslovca: - spletno mesto, ki so ga oblikovali jezikoslovci za znanstvene in uporabne raziskave, povezane z ruskim jezikom. To je model ruskega jezika, predstavljen z ogromno paleto besedil različnih žanrov in obdobij. Besedila so opremljena z jezikovno oznako, s pomočjo katere je mogoče pridobiti informacije o pogostosti določenih jezikovnih pojavov. Vordnet je ogromna leksikalna osnova angleškega jezika, glavna ideja Vordneta je povezati v eno veliko mrežo ne besede, ampak njihove pomene. Wordnet je mogoče prenesti in uporabiti za lastne projekte.

Kaj počne računska lingvistika?

To je najbolj interdisciplinarno področje. Najpomembnejše pri tem je razumeti, kaj se dogaja v elektronskem svetu in kdo vam bo pomagal narediti določene stvari.

Obkroženi smo z zelo veliko količino digitalnih informacij, veliko je poslovnih projektov, katerih uspeh je odvisen od obdelave informacij, ti projekti se lahko nanašajo na področje marketinga, politike, ekonomije in česar koli drugega. In zelo pomembno je, da lahko s temi informacijami ravnate učinkovito - glavna stvar ni le hitrost obdelave informacij, temveč tudi enostavnost, s katero lahko s filtriranjem hrupa pridobite potrebne podatke in ustvarite celostno sliko o njej.

Prej so bile nekatere globalne ideje povezane na primer z računalniško lingvistiko: ljudje so mislili, da bo strojno prevajanje nadomestilo človeško prevajanje, namesto ljudi bodo delovali roboti. Toda zdaj se zdi kot utopija in iskalniki uporabljajo strojno prevajanje za hitro iskanje v neznanem jeziku. To pomeni, da se zdaj jezikoslovje redko ukvarja z abstraktnimi nalogami - predvsem z nekaterimi majhnimi stvarmi, ki jih je mogoče vstaviti v velik izdelek in na njem zaslužiti.

Ena večjih nalog sodobne jezikoslovnosti je semantični splet, ko iskanje poteka ne le po besednem naključju, ampak po pomenu, vsa mesta pa so nekako zaznamovana s pomensko semantiko. To je lahko koristno na primer za policijska ali zdravniška poročila, ki se pišejo vsak dan. Analiza notranjih povezav daje veliko potrebnih informacij, branje in štetje ročno pa je neverjetno dolgo.

Na kratko, imamo na tisoče besedil, jih moramo razvrstiti v kup, vsako besedilo predstaviti v obliki strukture in dobiti tabelo, s katero lahko že delate. To se imenuje obdelava nestrukturiranih informacij. Po drugi strani se računska lingvistika ukvarja na primer z ustvarjanjem umetnih besedil. Obstaja podjetje, ki je ustvarilo mehanizem za ustvarjanje besedil o temah, o katerih se človek dolgočasi, ko piše: spremembe cen nepremičnin, vremenske napovedi, poročila o nogometnih tekmah. Če želite naročiti ta besedila za osebo, je veliko dražje, poleg tega so računalniška besedila na takšne teme napisana v skladnem človeškem jeziku.

Yandex je aktivno vključen v nestrukturirano iskanje informacij v Rusiji, medtem ko Kaspersky Lab najema raziskovalne skupine, ki preučujejo strojno učenje. Se nekdo na trgu trudi, da bi na področju računalniške lingvistike iznašel kaj novega?

** Knjige o računalniški lingvistiki: **

Daniel Jurafsky, obdelava govora in jezika

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, "Uvod v iskanje informacij"

Yakov Testelets, "Uvod v splošno sintakso"

Večina jezikovnih dogodkov je last velikih podjetij, skoraj ničesar ni mogoče najti v javni lasti. To zavira razvoj industrije, nimamo prostega jezikovnega trga, škatlaste rešitve.

Poleg tega primanjkuje celovitih informacijskih virov. Obstaja takšen projekt, kot je Nacionalni korpus ruskega jezika. To je eden najboljših nacionalnih korpusov na svetu, ki se hitro razvija in ponuja neverjetne možnosti za znanstvene in aplikativne raziskave. Razlika je približno enaka kot v biologiji - pred in po raziskavah DNK.

Toda mnogi viri ne obstajajo v ruščini. Torej ni analogja tako čudovitega vira v angleščini, kot je Framenet - to je takšna konceptualna mreža, kjer so formalno predstavljene vse možne povezave določene besede z drugimi besedami. Na primer, obstaja beseda "leteti" - kdo lahko leti, kje, s kakšnim predlogom se uporablja ta beseda, s katerimi besedami je kombinirana itd. Ta vir pomaga povezati jezik z resničnim življenjem, torej izslediti, kako se določena beseda obnaša na ravni morfologije in skladnje. To je zelo koristno.

Avicomp trenutno razvija vtičnik za iskanje povezanih člankov. Se pravi, če vas kakšen članek zanima, lahko hitro pogledate zgodbo zapleta: kdaj se je pojavila tema, kaj je bilo napisano in kdaj je bil vrhunec zanimanja za to težavo. Na primer, s pomočjo tega vtičnika bo mogoče, od članka o dogodkih v Siriji, zelo hitro videti, kako so se tam v zadnjem letu razvijali dogodki.

Kako bo strukturiran učni proces v magistrskem programu?

Izobraževanje na HSE je organizirano v ločenih modulih, tako kot na zahodnih univerzah. Študentje bomo razdeljeni na majhne ekipe, mini startupe - torej na koncu bi morali dobiti več pripravljenih projektov. Želimo dobiti prave izdelke, ki jih bomo nato odprli ljudem in jih pustili v javnosti.

Poleg neposrednih vodij projektov študentov želimo, da za njih najdemo kuratorje med njihovimi potencialnimi delodajalci - na primer iz istega "Yandexa", ki bo tudi igral to igro in študentom dal nasvete.

Upam, da bodo na magistrski program prišli ljudje z različnih področij: programerji, jezikoslovci, sociologi, tržniki. Imeli bomo več prilagoditvenih tečajev jezikoslovja, matematike in programiranja. Potem bomo imeli dva resna predmeta jezikoslovja, povezana pa bodo z najpomembnejšimi jezikovnimi teorijami, želimo, da bodo naši diplomanti lahko brali in razumeli sodobne jezikovne članke. Enako je z matematiko. Imeli bomo tečaj z naslovom "Matematične osnove računalniške lingvistike", ki bo orisal tiste odseke matematike, na katerih temelji sodobna računalniška lingvistika.

Če se želite vpisati na magistrski program, morate opraviti sprejemni izpit iz jezika in opraviti portfelsko tekmovanje.

Poleg glavnih predmetov bodo izbirne predmetne vrstice. Načrtovali smo več ciklov - dva sta osredotočena na globlje preučevanje posameznih tem, ki vključujejo na primer strojno prevajanje in korpusno jezikoslovje, nasprotno, eno je povezano s sorodnimi področji: npr. , družbene medije, strojno učenje ali digitalne humanistike - tečaj, za katerega upamo, da bo opravljen v angleščini.