Mi a számítási nyelvészet? Az elektronikus formában megjelenő szöveges információk gyors növekedése

21.09.2019

KURZUS MUNKA

az "informatika" tudományágban

a témáról: "Számítástechnikai nyelvészet"


BEVEZETÉS

2. A számítási nyelvészet modern interfészei

KÖVETKEZTETÉS

IRODALOM


Bevezetés

Az automatizált információs technológiák fontos szerepet játszanak a modern társadalom életében. Idővel fontosságuk folyamatosan növekszik. Az információs technológiák fejlődése azonban nagyon egyenetlen: ha a számítógépes technológia és a kommunikációs eszközök korszerű szintje elképeszt a képzeletben, akkor a szemantikai információfeldolgozás területén a haladás sokkal szerényebb. Ezek a sikerek elsősorban az emberi gondolkodás, az emberek közötti beszédkommunikáció folyamatainak tanulmányozásában elért eredményektől és attól, hogy képesek-e ezeket a folyamatokat számítógépen modellezni.

A fejlett információs technológiák létrehozásakor a természetes nyelveken bemutatott szöveges információk automatikus feldolgozásának problémái kerülnek előtérbe. Ezt az a tény határozza meg, hogy az ember gondolkodása szorosan kapcsolódik a nyelvéhez. Sőt, a természetes nyelv a gondolkodás eszköze. Ez egyben az emberek közötti kommunikáció univerzális eszköze is - az információk észlelésének, felhalmozásának, tárolásának, feldolgozásának és továbbításának eszköze. A számítási nyelvészet tudománya a természetes nyelv automatikus információfeldolgozó rendszerekben való használatának problémáival foglalkozik. Ez a tudomány viszonylag nemrég merült fel - a múlt század ötvenes és hatvanas éveinek fordulóján. Az elmúlt fél évszázadban jelentős tudományos és gyakorlati eredményeket értek el a számítástechnológia területén: létrehoztak rendszereket a szövegek gépi fordítására az egyik természetes nyelvről a másikra, az automatikus információkeresés a szövegekben, a szóbeli beszéd automatikus elemzésének és szintézisének rendszerei, és még sokan mások. Ezt a munkát az optimális számítógépes interfész felépítésére fordítják a nyelvi kutatás számítástechnikai nyelvészet segítségével.


1. A számítási nyelvészet helye és szerepe a nyelvi kutatásban

A modern világban a számítástechnológiát egyre inkább használják különféle nyelvi kutatásokban.

A számítógépes nyelvészet olyan tudásterület, amely a természetes nyelven bemutatott információk automatikus feldolgozásának problémáinak megoldásával jár. A számítástechnológiai nyelvészet központi tudományos problémái a szövegek értelmezésének modellezésének problémája (átmenet a szövegből a jelentés hivatalos megjelenítéséig) és a beszédszintézis problémája (átmenet a jelentés hivatalos megjelenítésétől a természetes nyelvű szövegekig). Ezek a problémák számos alkalmazott probléma megoldásakor merülnek fel, különös tekintettel a hibák automatikus észlelésére és kijavítására, amikor szöveget írnak be a számítógépbe, automatikusan elemzik és szintetizálják a szóbeli beszédet, automatikusan fordítják a szövegeket egyik nyelvről a másikra, kommunikálnak a számítógéppel természetes nyelven, automatikus osztályozással. és a szöveges dokumentumok indexelése, automatikus összefoglalása, dokumentumkeresés a teljes szövegű adatbázisokban.

A számítástechnológiában létrehozott és használt nyelvi eszközök feltételesen két részre oszthatók: deklaratív és eljárási. A deklaratív rész magában foglalja a nyelv- és beszédegységek szótárait, szövegeket és különféle nyelvtani táblázatokat, az eljárási rész - a nyelv- és beszédegységek, a szövegek és a nyelvtani táblák kezelésének eszközét. A számítógépes interfész a számítási nyelvészet eljárási részét jelenti.

A számítási nyelvészet alkalmazott problémáinak megoldása elsősorban a deklaratív eszközök számítógépes memóriában való megjelenítésének teljességétől és pontosságától, valamint az eljárási eszközök minőségétől függ. Mindeddig a problémák megoldásának szükséges szintjét még nem sikerült elérni, bár a számviteli nyelvészet területén a világ minden fejlett országában (Oroszország, USA, Anglia, Franciaország, Németország, Japán stb.) Folynak munka.

Mindazonáltal komoly tudományos és gyakorlati eredményekre számíthatunk a számítási nyelvészet területén. Tehát számos országban (Oroszország, USA, Japán stb.) Kiépítették a szövegek egyik nyelvről a másikra történő gépi fordítására szolgáló kísérleti és ipari rendszereket, számos kísérleti rendszert építettek a számítógépekkel természetes nyelven történő kommunikációra, folyamatban vannak terminológiai adatbankok, tezauruszok létrehozása, kétnyelvű és többnyelvű gépi szótárak (Oroszország, USA, Németország, Franciaország stb.), a szóbeli beszéd automatikus elemzésére és szintézisére szolgáló rendszerek építése (Oroszország, USA, Japán, stb.), kutatások folynak a természetes nyelvek modelleinek megalkotása területén.

Az alkalmazott számítási nyelvészet egyik fontos módszertani problémája a szöveges információk automatikus feldolgozására szolgáló rendszerek deklaratív és eljárási összetevői közötti szükséges arány helyes felmérése. Melyiket részesítik előnyben: nagy teljesítményű számítási eljárásokat, amelyek viszonylag kis szókincs-rendszereken alapulnak, gazdag nyelvtani és szemantikai információval, vagy egy erőteljes deklaratív összetevőn, viszonylag egyszerű számítógépes interfészekkel? A legtöbb tudós úgy gondolja, hogy a második módszer jobb. Ez gyorsan gyakorlati célok eléréséhez vezet, mivel kevesebb zsákutcába kerül és nehéz akadályokat leküzdeni, és itt szélesebb skálán lehet számítógépeket használni a kutatás és fejlesztés automatizálásához.

Az, hogy elsősorban a szöveges információk automatikus feldolgozására szolgáló rendszerek deklaratív alkotóelemeinek kidolgozása érdekében mozgósítsák az erőfeszítéseket, a számítógépes nyelvészet fejlesztésének fél évszázados tapasztalata megerősíti. Valójában itt, a tudomány vitathatatlan sikere ellenére, az algoritmikus eljárások iránti lelkesedés nem hozta meg a várt sikert. Még némi csalódás is volt az eljárási eszközök lehetőségeiben.

A fentiek fényében ígéretesnek tűnik a számítási nyelvészet ilyen fejlődési módja, amikor a fő erőfeszítések a nyelvi és beszédegységek erőteljes szótárainak létrehozására, azok szemantikai-szintaktikai szerkezetének tanulmányozására, valamint a szövegek morfológiai, szemantikai-szintaktikai és fogalmi elemzésére, valamint szintetizálására szolgáló alapvető eljárások létrehozására irányulnak. Ez lehetővé teszi a jövőben az alkalmazott problémák széles skálájának megoldását.

A számítógépes nyelvészet elsősorban az információgyűjtés, -gyűjtés, -feldolgozás és -keresés folyamatainak nyelvi támogatásának feladataival szembesül. A legfontosabbak a következők:

1. A gépi szótárak összeállításának és nyelvi feldolgozásának automatizálása;

2. A hibák észlelésének és kijavításának folyamatainak automatizálása szövegek számítógépbe történő bevitelekor;

3. A dokumentumok és az információkérések automatikus indexelése;

4. A dokumentumok automatikus besorolása és összefoglalása;

5. Az információgyűjtési folyamatok nyelvi támogatása egynyelvű és többnyelvű adatbázisokban;

6. A szövegek gépi fordítása az egyik természetes nyelvről a másikra;

7. Nyelvi processzorok felépítése, amelyek biztosítják a felhasználók kommunikációját az automatizált intelligens információs rendszerekkel (különösen a szakértői rendszerekkel) természetes nyelven vagy a természeteshez közeli nyelven;

8. Tényszerű információk kinyerése a nem formalizált szövegekből.

Nézzünk részletesebben a kutatási témához leginkább kapcsolódó problémákra.

Az információs központok gyakorlatában meg kell oldani a hibák automatikus észlelésének és kijavításának a problémáját a szövegekben, amikor beírják őket a számítógépbe. Ez az összetett feladat feltételesen három feladatra osztható - szövegek helyesírási, szintaktikai és szemantikai irányítási feladataira. Az első megoldható morfológiai elemzési eljárással, egy elég hatékony referenciagép-szótár használatával. A helyesírás-ellenőrzés során a szöveg szavait morfológiai elemzésnek vetik alá, és ha azok alapjait azonosítják a referenciaszótár alapjaival, akkor helyesnek tekintik őket; ha nem azonosítják, akkor azokat mikrokontextussal együtt adják meg egy személy számára megtekintés céljából. Az ember észleli és javítja a torz szavakat, és a megfelelő szoftverrendszer ezeket a javításokat elvégzi a javított szövegben.

A szövegek szintaktikai vezérlése sokkal nehezebb a szövegek hibáinak felismerése érdekében, mint a helyesírás-ellenőrzés feladata. Egyrészt azért, mert az összetételében és a helyesírás-ellenőrzés feladatát magában foglalja, mint kötelező összetevőt, másrészt azért, mert a nem formalizált szövegek szintaktikai elemzésének problémáját még nem oldották meg teljesen. Ennek ellenére a szövegek részleges szintaktikai irányítása teljesen lehetséges. Itt kétféleképpen járhat: vagy összeállít kellőképpen reprezentatív gépi szótárakat a referenciaszintaktikai struktúrákról, és összehasonlítja velük az elemzett szöveg szintaktikai struktúráit; vagy dolgozzon ki egy komplex szabályrendszert a szöveges elemek grammatikai következetességének ellenőrzésére. Az első út számunkra ígéretesebbnek tűnik, bár természetesen nem zárja ki a második út elemek használatának lehetőségét. A szövegek szintaktikai szerkezetét a szavak nyelvtani osztályai szerint kell meghatározni (pontosabban, a szavak nyelvtani információinak sorozatainak formájában).

A szövegek szemantikai ellenőrzésének feladatát a szemantikai hibák felismerése érdekében a mesterséges intelligencia feladatcsoportjába kell sorolni. Teljes egészében csak az emberi gondolkodás folyamatainak modellezése alapján oldható meg. Ebben az esetben nyilvánvalóan erőteljes enciklopédikus tudásbázisokat és szoftver eszközöket kell létrehozni a tudás manipulálásához. Ennek ellenére a korlátozott tárgykörökben és a formalizált információkkal ez a probléma meglehetősen megoldható. Ezt a szövegek szemantikai és szintaktikai irányításának feladatává kell tenni és megoldani.

A dokumentumok és a lekérdezések indexelésének automatizálásának problémája a szöveges információk automatikus keresésének rendszereiben a hagyományos. Az indexelést kezdetben úgy értették, mint a besorolási indexek hozzárendelésének olyan dokumentumokhoz és lekérdezésekhez, amelyek tükrözik azok tematikus tartalmát. Később ezt a fogalmat átalakították, és az "indexelés" kifejezés a dokumentumok leírása és a lekérdezések természetes nyelvről hivatalos formává, nevezetesen a "keresési képek" nyelvére fordítását kezdte hívni. A dokumentumok keresési képeit rendszerint a tematikus tartalmat tükröző kulcsszavak és mondatok, valamint a lekérdezések keresési képeinek - a logikai struktúrák formájában - amelyekben a kulcsszavakat és a mondatokat logikai és szintaktikai operátorok kombinálják - készítésével kezdték elkészíteni.

A dokumentumok automatikus indexelését kényelmes elvégezni a kivonatok (ha vannak) szövege alapján, mivel az összefoglalók koncentrált formában tükrözik a dokumentumok fő tartalmát. Az indexelés tezauruszvezérléssel vagy anélkül is elvégezhető. Az első esetben a dokumentum címében és annak absztraktjában a referenciagép-szótár kulcsszavain és kifejezésein keresik, és csak azokat, amelyek a szótárban találhatók, tartalmazzák a POD-ban. A második esetben a kulcsszavakat és kifejezéseket a szövegből vonják ki, és belefoglalják a POD-ba, függetlenül attól, hogy tartoznak-e bármely referencia-szótárhoz. Végül megvalósult egy harmadik lehetőség is, amelyben a POD a géptezaurusz kifejezéseivel együtt a dokumentum címéből és az elvont első mondatából kibontott kifejezéseket is tartalmazta. A kísérletek kimutatták, hogy az automatikus módban összeállított POD-k a dokumentumok címe és kivonata alapján átfogóbb keresést nyújtanak, mint a kézzel összeállított POD-k. Ez azzal magyarázható, hogy az automatikus indexelési rendszer jobban tükrözi a dokumentumok különböző aspektusait, mint a kézi indexelési rendszer.

A lekérdezések automatikus indexelésével kapcsolatos problémák hasonlóak a dokumentumok automatikus indexelésével kapcsolatos problémákhoz. Itt kulcsszavakat és kifejezéseket is ki kell vonnia a szövegből, és normalizálnia kell a lekérdezési szövegben szereplő szavakat. A kulcsszavak és kifejezések, valamint a kontextuális operátorok közötti logikai kapcsolatok manuálisan vagy automatizált eljárással állíthatók be. A lekérdezés automatikus indexelésének fontos eleme az alkotó kulcsszavak és mondatok hozzáadása szinonimáikhoz és hiponimáikhoz (néha hiperonimák és más kifejezések, amelyek az eredeti lekérdezési kifejezésekhez kapcsolódnak). Ezt automatikusan vagy interaktív módon, gépes tezaurusz segítségével lehet megtenni.

Az automatikus indexelés kapcsán már részben megvizsgáltuk a dokumentációs információk keresésének automatizálásának problémáját. A legígéretesebb itt a dokumentumok teljes szövegek alapján történő keresése, mivel mindenféle helyettesítő eszköz erre a célra történő felhasználása (bibliográfiai leírások, dokumentumok keresési képei és kivonataik szövege) információkereséshez vezet a keresés során. A legnagyobb veszteség akkor fordul elő, ha bibliográfiai leírásaikat az elsődleges dokumentumok helyettesítésére használják, legkevésbé, ha kivonatokat használnak.

Az információkeresés minőségének fontos jellemzője a teljesség és pontosság. A keresés teljességét a nyelv és a beszéd egységei (szavak és kifejezések) közötti paradigmatikus kapcsolatok maximális figyelembe vételével és a pontosság - a szintagmatikus kapcsolataik figyelembevételével - lehet biztosítani. Véleményünk szerint a keresés teljessége és pontossága fordítottan összefüggenek: ezen tulajdonságok egyikének javítására irányuló intézkedések a másik romlását eredményezik. De ez csak a rögzített keresési logikára igaz. Ha ezt a logikát javítják, akkor mindkét tulajdonság javulhat egyszerre.

Célszerű az információkeresés folyamatát a teljes szövegű adatbázisokban felépíteni, mint a felhasználó és az információ-visszakeresési rendszer (ISS) közötti párbeszéd folyamatát, amelyben egymás után áttekinti a lekérdezés logikai feltételeit kielégítő szövegrészleteket (bekezdéseket, bekezdéseket), és kiválasztja azokat, amelyek neki vannak. érdekesek. Végső keresési eredményként mind a dokumentumok teljes szövege, mind azok töredékei visszaadhatók.

Amint az az előző érvelésből kitűnik, az automatikus információkeresés során le kell küzdeni a nyelvi korlátokat, amelyek a felhasználó és az IRS között felmerülnek az ugyanazon jelentést mutató szövegek különféle megjelenítési formái kapcsán. Ez a gát még jelentősebbé válik, ha a kereséseket többnyelvű adatbázisokban kell elvégezni. A dokumentumszövegek gépi fordítása az egyik nyelvről a másikra kardinal megoldás lehet a problémára. Ezt megteheti akár előre, akár egy dokumentum feltöltése előtt egy keresőmotorra, akár információkeresés közben. Ez utóbbi esetben a felhasználó lekérdezését le kell fordítani annak a dokumentumoknak a nyelvére, amelyben a keresést végzik, és a keresési eredményeket le kell fordítani a lekérdezési nyelvre. Az ilyen keresőmotorok már működnek az interneten. A cirill böngésző rendszert szintén beépítették a VINITI RAS-ba, amely lehetővé teszi az orosz nyelvű szövegekben az angol nyelvű lekérdezésekkel való információkeresést, a felhasználói eredmények szintén a felhasználó nyelvén történő kiadásával.

A számítástechnikai nyelvészet fontos és ígéretes feladata a nyelvprocesszorok felépítése, amelyek biztosítják a kommunikációt a felhasználók és az intelligens automatizált információs rendszerek között (különösen a szakértői rendszerekkel) természetes nyelven vagy a természeteshez közeli nyelven. Mivel az információkat formalizált formában tárolják a modern intelligens rendszerekben, a személyes és a számítógép közötti közvetítőként működő nyelvi feldolgozóknak meg kell oldaniuk a következő fő feladatokat: 1) a bemeneti információkérelmek és az üzenetek természetes nyelvű szövegeiről a jelentéseik formalizált nyelven történő ábrázolására való áttérés problémája (amikor információt ír be a számítógépbe); 2) a kimeneti üzenetek jelentésének formalizált ábrázolásától a természetes nyelvű ábrázolásig történő áttérés problémája (amikor információt adnak egy személynek). Az első problémát a bemeneti kérések és üzenetek morfológiai, szintaktikai és fogalmi elemzésével kell megoldani, a második - a kimeneti üzenetek fogalmi, szintaktikai és morfológiai szintézisével.

Az információkérelmek és az üzenetek fogalmi elemzése a fogalmi felépítés (a fogalomnevek határai és a fogalmak közötti kapcsolatok a szövegben) azonosítását és ennek a szerkezetnek a formalizált nyelvre fordítását jelenti. Ezt a kérések és üzenetek morfológiai és szintaktikai elemzése után végzik el. Az üzenetek fogalmi szintézise abban áll, hogy szerkezetük elemeinek formalizált nyelven történő ábrázolásáról verbális (verbális) ábrázolásra kerülnek átmenet. Ezután az üzenetek megkapják a szükséges szintaktikai és morfológiai felépítést.

A szövegek gépi fordításához az egyik természetes nyelvről a másikra szükség van a fogalmak nevei közötti fordítási megfelelések szótáraira. Az ilyen fordítói megfelelésekről sok ember nemzedéke halmozott fel ismereteket és speciális kiadások formájában adták ki - kétnyelvű vagy többnyelvű szótárak. Azok a szakemberek, akik valamilyen mértékben idegen nyelveket beszélnek, ezek a szótárak értékes eszközként szolgáltak a szövegek fordításához.

A hagyományos kétnyelvű és többnyelvű általános célú szótárakban fordítási ekvivalenseket jelöltek meg főként az egyes szavakhoz, a szóösszeállításokhoz - sokkal ritkábban. A kifejezések fordítási egyenértékének jelölése inkább a speciális terminológiai szótárak esetében volt jellemző. Ezért a poliszemantikus szavakat tartalmazó szövegrészek fordításakor a hallgatók gyakran nehézségekbe ütköztek.

Az alábbiakban lefordítottuk az angol és az orosz kifejezések párjának az "iskola" témájáról való párosítását.

1) A denevér úgy néz ki, mint egy szárnyas egér - A denevér úgy néz ki, mint egy szárnyas egér.

2) A gyerekek szeretnek játszani a homokban a tengerparton - A gyerekek szeretnek játszani a homokban a tenger mellett.

3) Egy csepp eső esett a kezemre - Egy csepp eső esett a kezemre.

4) A száraz fa könnyen ég - a száraz fa jól ég.

5) Úgy tett, mintha nem hallott volna engem - úgy tett, mintha nem hallott volna engem.

Az angol kifejezések itt nem idiomatikus kifejezések. Ennek ellenére oroszul történő fordításuk csak némely szakaszonként tekinthetõ egyszerû szavakkal történõ fordításoknak, mivel szinte az összes benne lévõ szavak poliszemikusak. Ezért itt a tanulók csak a számítógépes nyelvészet eredményeivel segíthetnek.

A SZÁMÍTÓGÉP-LINGUISZTIKA (nyomtatvány az angol számítástechnológiából), az alkalmazott nyelvészet egyik területe, amelyben a nyelv tanulmányozására és a nyelv működésének modellezésére bizonyos körülmények között, helyzetekben és problémás területeken számítógépes programokat fejlesztenek és használnak, számítógépes technológiákat az adatok szervezésére és feldolgozására. Másrészt ez a számítógépes nyelvi modellek alkalmazási területe a nyelvészetben és a kapcsolódó tudományágakban. A számítógépes nyelvészet az 1960-as években az európai tanulmányok speciális tudományos irányának formáját öltötte. Mivel az angol melléknév computational is lefordítható "computational" -re, a "számítási nyelvészet" kifejezés az irodalomban is előfordul, de a hazai tudományban szűkebb jelentést szerez, megközelítve a "kvantitatív nyelvészet" fogalmát.

Gyakran a „kvantitatív nyelvészet” kifejezésre utal a számítási nyelvészet, amely az interdiszciplináris irányt jellemzi az alkalmazott kutatásban, ahol a nyelv és a beszéd megtanulásának fő eszköze a kvantitatív vagy statisztikai elemzési módszerek. A kvantitatív (vagy kvantitatív) nyelvészet néha ellentétben áll a kombinatorikus nyelvészettel. Ez utóbbiban a domináns szerepet egy "nem kvantitatív" matematikai készülék játssza - meghatározott elmélet, matematikai logika, algoritmusok elmélete stb. Elméleti szempontból a statisztikai módszerek használata a nyelvészetben lehetővé teszi, hogy a nyelv szerkezeti modelljét kiegészítsük egy valószínűségi összetevővel, vagyis elméleti szerkezeti-valószínűségi létrehozásához. jelentős magyarázattal rendelkező modell. Az alkalmazott területen a kvantitatív nyelvtudást mindenekelőtt e modell töredékeinek használata jelenti, amelyeket a nyelv működésének nyelvi megfigyelésére, a kódolt szöveg dekódolására, a szöveg engedélyezésére / hozzárendelésére stb. Használnak.

A "számítástechnológiai nyelvészet" kifejezést és ennek az iránynak a problémáit gyakran a kommunikáció modellezésével, és mindenekelőtt az ember-számítógép interakció biztosításával egy természetes vagy korlátozott természetes nyelvben (erre a célra speciális természetes nyelvfeldolgozó rendszereket hoznak létre), valamint az információ elméletével és gyakorlatával. keresőmotorok (ISS). Az ember és a számítógép közötti természetes nyelvű kommunikáció biztosítását néha a "természetes nyelvfeldolgozás" kifejezés jelöli (a Natural Language Processing kifejezés angol fordítása). A számítástechnológiai nyelvészet ezen iránya az 1960-as évek végén alakult ki külföldön, és a tudományos és technológiai tudományág (úgynevezett mesterséges intelligencia) keretei között alakult ki (R. Schenk, M. Lebowitz, T. Vinograd, stb. Művek). Ennek értelmében a „természetes nyelvfeldolgozás” kifejezésnek ki kell terjednie minden olyan területre, ahol a számítógépeket használják a nyelvi adatok feldolgozására. A gyakorlatban azonban a fogalom szűkebb megértése beágyazódott - olyan módszerek, technológiák és speciális rendszerek kifejlesztése, amelyek természetes vagy korlátozott természetes nyelven biztosítják az ember és a számítógép közötti kommunikációt.

A számítógépes nyelvészet bizonyos mértékig a hipertext rendszerek létrehozása terén végzett munkának tulajdonítható, amelyet a szöveg speciális szervezési módjának és még alapvetően új szövegtípusnak tekintünk, sok tulajdonságában ellentétben áll a Gutenberg tipográfia hagyományában kialakult rendes szöveggel (lásd Gutenberg).

A számítási nyelvészet kompetenciája magában foglalja az automatikus fordítást is.

A számítási nyelvészet keretein belül megjelent egy viszonylag új irány, amely az 1980-as és 90-es évek óta aktívan fejlődik - a korpusz-nyelvészet, ahol a nyelvi adathalmazok (különösen a szöveges korpuszok) építésének általános elveit a modern számítógépes technológiák alkalmazásával fejlesztették ki. A szövegrészek a könyvekből, folyóiratokból, újságokból stb. Származó, speciálisan kiválasztott szövegek gyűjteményei, amelyeket számítógépes adathordozóra továbbítanak és automatikus feldolgozásra szánnak. Az egyik első szöveges törzs 1962-63-ban készült el az amerikai angol nyelv számára a Brown Egyetemen (úgynevezett Brown Corpus) W. Francis irányítása alatt. Oroszországban a 2000-es évek eleje óta az Orosz Tudományos Akadémia Vinogradovi Orosz Nyelvi Intézete fejleszti az Orosz nyelv nemzeti testületét, amely reprezentatív mintából áll az orosz nyelvű szövegek körülbelül 100 millió szóhasználattal. Az adathalmazok tényleges kialakítása mellett a korpusz-nyelvészet olyan számítógépes eszközök (számítógépes programok) létrehozásával is foglalkozik, amelyek célja a különféle információk kivonása a szövegekből. A felhasználó szempontjából a reprezentativitásra (reprezentativitásra), a teljességre és a gazdaságosságra vonatkozó követelményeket támasztják a szöveges corpora-ra.

A számviteli nyelvészet aktívan fejlődik Oroszországban és külföldön egyaránt. A kiadványok száma ezen a területen nagyon nagy. A tematikus gyűjtemények mellett az Egyesült Államokban 1984 óta negyedévente megjelent a "Computational Linguistics" folyóirat. Nagyméretű szervezeti és tudományos munkát végez a Számítástechnikai Nyelvészet Szövetsége, amelynek regionális struktúrái vannak a világ minden tájáról (különösen az európai ágazat). Kétévente kerül megrendezésre a COLINT nemzetközi konferencia (2008-ban a konferenciát Manchesterben tartották). A számítástechnológia fő területeit szintén megvitatják a „Dialogue” éves nemzetközi konferencián, amelyet a Mesterséges Intelligencia Orosz Kutatóintézete, a Moszkvai Állami Egyetem Filológiai Karja, a Yandex és számos más szervezet szervezett. A releváns kérdéseket széles körben képviselik a mesterséges intelligencia nemzetközi szintű konferenciáin is, különféle szinteken.

Lit .: Zvegintsev V. A. Elméleti és alkalmazott nyelvészet. M., 1968; Piotrovsky R.G., Bektayev K.B., Piotrovskaya A.A. Matematikai nyelvészet. M., 1977; Gorodetskiy B. Yu. Az alkalmazott nyelvészet aktuális problémái // Új az idegen nyelvészetben. M., 1983. Kiadás. 12; Kibrik A.E. Alkalmazott nyelvészet // Kibrik A.E. Esszék a nyelvészet általános és alkalmazott problémáiról. M., 1992; Kennedy G. Bevezetés a korpusznyelvészetbe. L., 1998; Bolsakov I. A., Gelbukh A. Számítógépes nyelvészet: modellek, források, alkalmazások. Fur., 2004; Az orosz nyelv nemzeti testülete: 2003-2005. M., 2005; Baranov A. N. Bevezetés az alkalmazott nyelvészetbe. 3. szerk. M., 2007; Számítógépes nyelvészet és intelligens technológiák. M., 2008. Kiadás. 7.

nyelvészet statisztikai nyelvészeti szoftver

A számítási nyelvészet fejlődésének története

A modern nyelvészet mint a természetes nyelv tudománya kialakulásának és kialakulásának folyamata a nyelvtudás hosszú távú történelmi fejlődése. A nyelvi ismeretek azon elemekre épülnek, amelyek kialakulása a tevékenység folyamán elválaszthatatlanul kapcsolódott a szóbeli beszéd szerkezetének kialakulásához, az írás, az írás oktatásának megjelenéséhez, továbbfejlesztéséhez és továbbfejlesztéséhez, valamint a szövegek értelmezéséhez és dekódolásához.

A természetes nyelv, mint a nyelvészet tárgya, központi szerepet játszik ebben a tudományban. A nyelvfejlesztés során a róla vonatkozó elképzelések is megváltoztak. Ha korábban a nyelv belső szervezetének nem volt különös jelentősége, és mindenekelőtt a külső világgal való összekapcsolódás szempontjából vették fontolóra, akkor a 19. század végétől - a 20. század elejétől kezdve a nyelv belső formális szerkezetének különös szerepet kaptak. Ebben az időszakban fejlesztette ki a neves svájci nyelvész Ferdinand de Saussure az olyan tudományok alapjait, mint a szemiológia és a strukturális nyelvészet, és ezeket az Általános nyelvészet kurzusa (1916) című könyvében részletezi.

A tudós birtokolja azt a gondolatot, hogy a nyelvet egyetlen mechanizmusként, a jelek integrált rendszerének tekinti, amely viszont lehetõvé teszi a nyelv matematikai leírását. Saussure volt az első, aki a nyelv strukturális megközelítését javasolta, nevezetesen a nyelv leírását az egységei közötti kapcsolatok tanulmányozása révén. Egységek vagy "jelek" alapján megértette a szót, amely ötvözi a jelentést és a hangot. A svájci tudós által javasolt koncepció a nyelv mint a jelek rendszerének elméletén alapszik, amely három részből áll: nyelv (francia nyelvből), beszéd (francia nyelvről) és beszédtevékenység (francia nyelvből).

Maga a tudós fogalmazta meg az általa létrehozott szemiológia tudományát: "a tudomány, amely a jelek életét vizsgálja a társadalom életének keretein belül". Mivel a nyelv egy jelrendszer, választ keresve arra a kérdésre, hogy a nyelvészet milyen helyet foglal el más tudományok között, Saussure azzal érvelt, hogy a nyelvészet a szemiológia része. Általánosan elfogadott tény, hogy a nyelvi új irány elméleti alapjait a svájci filológus tette le, és a modern nyelvészet alapítójává és „apjává” vált.

Az F. de Saussure által felvetett koncepciót számos kiemelkedő tudós munkájában fejlesztették tovább: Dániában - L. Elmslev, a Cseh Köztársaságban - N. Trubetskoy, az USA-ban - L. Bloomfield, 3. Harris, N. Chomsky. Ami a mi országunkat illeti, itt a strukturális nyelvészet fejlődése körülbelül ugyanabban az időszakban kezdődött, mint a Nyugaton - a XIX-XX. Század fordulóján. - F. Fortunatov és I. Baudouin de Courtenay alkotásaiban. Meg kell jegyezni, hogy I. Baudouin de Courtenay szorosan együttműködött F. de Saussure-val. Ha Saussure lefektette a strukturális nyelvészet elméleti alapját, akkor Baudouin de Courtenay-t lehet annak a személynek tekinteni, aki megalapozta a svájci tudós által javasolt módszerek gyakorlati alkalmazását. Ő volt az, aki statisztikai módszerekkel és funkcionális függőségekkel határozta meg a nyelvtudományt mint tudományt, és elválasztotta a filológiától. A matematikai módszerek nyelvészetben való alkalmazásának első tapasztalata a fonológia - a nyelv hangjainak szerkezetének tudománya.

Meg kell jegyezni, hogy F. de Saussure állításai tükröződtek a 20. század közepén releváns nyelvészeti problémákban. Ebben az időszakban vonták fel a nyelvtudomány egyértelmű tendenciáját a matematikának. Szinte az összes nagy országban megindul a tudomány és a számítástechnika gyors fejlődése, ami viszont egyre több új nyelvi alapot igényelt. Ennek eredménye a pontos és a humanitárius tudományok gyors konvergenciája, valamint a matematika és a nyelvészet aktív kölcsönhatása volt, amely gyakorlati alkalmazást talált a sürgős tudományos problémák megoldásában.

A XX. Század 50-es éveiben, a matematika, a nyelvészet, a számítógépes tudomány és a mesterséges intelligencia tudományának kereszteződésénél a tudomány új iránya jelent meg - számítási nyelvészet (más néven gépi nyelvészet vagy a szövegek automatikus feldolgozása a természetes nyelven). Ennek az iránynak a fejlõdésének fõ szakaszai a mesterséges intelligencia módszereinek fejlõdésének hátterében zajlottak. Az első számítógépek létrehozása nagy lendületet adott a számviteli nyelvészet fejlesztésének. Mivel azonban a 60-as években megjelenik a számítógépek és a programozási nyelvek új generációja, megkezdődik a tudomány fejlődésének alapvetően új szakasza. Azt is meg kell jegyezni, hogy a számítási nyelvészet eredete a híres amerikai nyelvész, N. Chomsky munkáiban nyúlik vissza, a nyelv szerkezetének formalizálása terén. Kutatásainak eredményei, amelyeket a nyelvészet és a matematika kereszteződésénél szereztek, képezték az alapot a formális nyelvek és a nyelvtan (generatív vagy generatív nyelvtan) elméletének kifejlesztésére, amelyet széles körben használnak mind a természetes, mind a mesterséges nyelvek, különösen a programozási nyelvek leírására. Pontosabban, ez az elmélet egy teljesen matematikai tudományág. Az egyik legelsőnek tekinthető az alkalmazott nyelvészet olyan irányában, mint a matematikai nyelvészet.

Az első kísérletek és a számítógépes nyelvészet első fejlesztései a gépi fordítási rendszerek, valamint az emberi nyelvi képességeket szimuláló rendszerek létrehozására vonatkoznak. Az 1980-as évek végén, az internet megjelenésével és aktív fejlesztésével, gyorsan növekedett az elektronikus formában elérhető szöveges információk mennyisége. Ez vezetett ahhoz a tényhez, hogy az információ-visszakeresési technológiák fejlesztésük során egy minőségileg új szakaszba kerültek. Felmerült a szükségesség a természetes nyelvű szövegek automatikus feldolgozására, teljesen új feladatok és technológiák jelentkeztek. A tudósok olyan problémával szembesülnek, mint a nem strukturált adatok hatalmas áramának gyors feldolgozása. Annak érdekében, hogy megoldást találjunk erre a problémára, nagy jelentőséget tulajdonítanak a statisztikai módszerek fejlesztésének és alkalmazásának az automatikus szövegszerkesztés területén. Segítségükkel vált lehetővé olyan problémák megoldása, mint például a szövegek közös témát egyesítő klaszterekre bontása, a szöveg egyes töredékeinek kiemelése stb. Ezenkívül a matematikai statisztikák és a gépi tanulás módszereinek használata lehetővé tette a beszédfelismerés és a keresőmotorok létrehozásának problémáinak megoldását.

A tudósok nem álltak meg az elért eredményeknél: továbbra is új célokat tűztek ki maguk számára, új technikákat és kutatási módszereket fejlesztettek ki. Mindez ahhoz a tényhez vezetett, hogy a nyelvészet alkalmazott tudományként kezdett el működni, és számos más tudományt ötvözött, amelyek vezető szerepe a matematikának a sokféle kvantitatív módszerrel és azok alkalmazhatóságával volt a vizsgált jelenségek mélyebb megértése érdekében. Így kezdődött a matematikai nyelvészet kialakulása és fejlődése. Jelenleg ez egy meglehetősen „fiatal” tudomány (kb. Ötven éve létezik), ám „nagyon fiatal korának” ellenére ez egy már megalapozott tudományos ismeretek területe, számos sikeres eredményességgel.

Nyelvészet (latin nyelvről -
nyelv), nyelvészet, nyelvészet - tudomány,
Nyelveket tanulni.
Ez általában a természetes emberi nyelv tudománya
és a világ minden nyelvén, mint az övé
egyéni képviselők.
A szó legszélesebb értelemben a nyelvészet
felosztva tudományos és gyakorlati. Gyakrabban
Mindenekelőtt a nyelvészet pontosan azt jelenti
tudományos nyelvészet. A szemiotika része
a jelek tudománya.
A nyelvészettel szakemberekkel foglalkoznak a nyelvtudósok.

Nyelvészet és informatika.
A modern társadalom életében automatizált
Informatika. De az információs technológia fejlődése történik
nagyon egyenetlenül: ha a számítástechnika modern szintje és
A kommunikációs eszközök elképesztőek, akkor a szemantikai feldolgozás területén
az információs siker sokkal szerényebb. Ezek a siker elsősorban a következőktől függ:
eredmények az emberi gondolkodási folyamatok, beszédfolyamatok tanulmányozásában
az emberek közötti kommunikáció és az a képesség, hogy ezeket a folyamatokat számítógépen szimulálni lehessen. Ez egy rendkívül nehéz feladat, amikor ígéretes létrehozni kell
információs technológia, a szöveg automatikus feldolgozásának problémái
a természetes nyelveken bemutatott információk kerülnek előtérbe.
Ezt az a tény határozza meg, hogy az ember gondolkodása szorosan kapcsolódik a nyelvéhez. Több
Sőt, a természetes nyelv a gondolkodás eszköze. Ő is
az emberek közötti kommunikáció univerzális eszköze - az észlelés eszköze,
információ felhalmozása, tárolása, feldolgozása és továbbítása.
A természetes nyelv használatának problémái az automatikus rendszerekben
az információfeldolgozás a számítógépes nyelvészet tudománya. Ez a tudomány
viszonylag nemrégiben alakult ki - az ötvenes és hatvanas évek fordulóján
múlt század. Eleinte a kialakulása során különféle volt
nevek: matematikai nyelvészet, számítási nyelvészet, mérnöki tudományok
nyelvészet. De a nyolcvanas évek elején a név ragaszkodott hozzá
számítási nyelvészet.

A számítógépes nyelvészet a problémamegoldással kapcsolatos szakértelem területe
a természetes nyelven bemutatott információk automatikus feldolgozása.
A számítástechnológiai nyelvészet központi tudományos problémái a problémák
a szövegek jelentésének megértésének folyamatának modellezése (átmenet a szövegről a
jelentésének hivatalos bemutatása) és a beszédszintézis problémája (átmenet a
a jelentés nyelvi szövegek formális ábrázolása). Ezek a problémák
számos alkalmazott probléma megoldásakor merül fel:
1) a hibák automatikus észlelése és kijavítása szövegek számítógépbe történő bevitelekor,
2) a szóbeli beszéd automatikus elemzése és szintézise,
3) a szövegek automatikus fordítása egyik nyelvről a másikra,
4) kommunikáció számítógéppel természetes nyelven,
5) a szöveges dokumentumok automatikus besorolása és indexelése, azok
automatikus összefoglalás, dokumentumok keresése teljes szövegű adatbázisokban.
Az elmúlt fél évszázadban a számítási nyelvészet területén,
jelentős tudományos és gyakorlati eredmények: géprendszerek
szövegek fordítása egyik természetes nyelvről a másikra, automatizált rendszerek
információkeresés a szövegekben, a szóbeli beszéd automatikus elemzési és szintézisrendszereiben, valamint a
sok más. De voltak csalódások is. Például a gépi fordítás problémája
az egyik nyelvről a másikra szövegek sokkal nehezebbnek bizonyultak, mint gondolnák
a gépi fordítás úttörői és követői. Ugyanez mondható el
automatizált információkeresés a szövegekben és a szóbeli elemzés és szintetizálás feladata
beszéd. A tudósoknak és a mérnököknek nyilvánvalóan keményen kell dolgozniuk
érje el a kívánt eredményeket.

Természetes nyelvi feldolgozás; szintaktikai,
a szöveg morfológiai, szemantikai elemzése). Ez magában foglalja a következőket:
Corpus nyelvészet, elektronikus szövegek létrehozása és használata
Elektronikus szótárak, tezauruszok, ontológiák készítése. Például a Lingvo. Szótár
például automatikus fordításhoz, helyesírás-ellenőrzéshez használják.
A szövegek automatikus fordítása. Népszerű az orosz fordítók körében
a Promt. Az ingyen megtalálható a Google Translate fordító
A tények automatikus kibontása a szövegből (információkivonás) (angol
kivonás, szövegbányászat)
Autoreferencia (angol automatikus szövegösszegzés). Ez a szolgáltatás engedélyezve van,
például a Microsoft Wordben.
Tudásmenedzsment rendszerek kiépítése. Lásd: Expert Systems
Kérdések megválaszolásának rendszerei.
Optikai karakterfelismerés (OCR). Például a FineReader
Automatikus beszédfelismerés (angol ASR). Vannak fizetett és ingyenes szoftverek
Automatikus beszédszintézis

A Közgazdaságtudományi Egyetem Filológia Tanszékén elindul egy új, a számítástechnika nyelvészetére szakosodott program: itt várnak humanitárius és matematikai alapképzettséggel rendelkező jelentkezők, valamint mindenki, aki érdeklődik a tudomány egyik legígéretesebb ágának problémáinak megoldásában. Vezetője, Anastasia Bonch-Osmolovskaya elméletekhez és gyakorlatokhoz mondta, mi a számítási nyelvészet, miért nem helyettesítik a robotok az embereket, és mit fognak tanítani a HSE mesterképzésén a számítástechnikai nyelvészet területén.

Ez a program szinte az egyetlen ilyen jellegű program Oroszországban. Hol tanultál magad?

A Moszkvai Állami Egyetemen tanulmányoztam a Filológiai Kar Elméleti és Alkalmazott Nyelvészeti Tanszékén. Nem jutottam oda azonnal, először beléptem az orosz osztályba, de aztán komolyan elvonult a nyelvészet és engem vonzott a légkör, amely a tanszéknél ma is fennáll. A legfontosabb dolog a jó kapcsolat a tanárok és a hallgatók között, valamint kölcsönös érdeklődésük.

Amikor gyermekeim születtek, és megélhetést kellett keresnem, bementem a kereskedelmi nyelvészet területére. 2005-ben nem volt egyértelmű, hogy mi ez a tevékenységi terület mint ilyen. Különböző nyelvi cégekben dolgoztam: egy kicsi cégnél kezdtem a Public.ru webhelyen - ez egy médiakönyvtár, ahol elkezdtem foglalkozni a nyelvi technológiákkal. Aztán egy évig dolgozott a Rosnanotechnél, ahol ötlet volt elemző portált készíteni, hogy az rajta lévő adatok automatikusan felépüljenek. Aztán vezettem az Avicompi nyelvi osztályt - ez már komoly produkció a számítási nyelvészet és a szemantikai technológiák területén. Ezzel párhuzamosan a Moszkvai Állami Egyetemen tanítottam egy számítástudományi nyelvészet kurzust, és megpróbáltam modernizálni.

Két forrás a nyelvészek számára: - a nyelvészek által létrehozott oldal az orosz nyelvtel kapcsolatos tudományos és alkalmazott kutatásokhoz. Ez az orosz nyelv modellje, amelyet különféle műfajokból és időszakokból származó szövegek hatalmas tömbjének felhasználásával mutatnak be. A szövegeket nyelvi jelöléssel látják el, amelyek segítségével információt szerezhetnek bizonyos nyelvi jelenségek gyakoriságáról. A Vordnet az angol nyelv hatalmas lexikai alapja, a Vordnet fő gondolata az, hogy egy nagy hálózatba összekapcsolja a szavakat, hanem azok jelentését. A Wordnet letölthető és felhasználható saját projektekhez.

Mit csinál a számítási nyelvészet?

Ez a leg interdiszciplinárisabb terület. A legfontosabb itt megérteni, mi történik az elektronikus világban, és ki segít konkrét dolgok elvégzésében.

Nagyon sok digitális információ vesz körül minket, sok üzleti projekt létezik, amelyek sikere az információfeldolgozástól függ, ezek a projektek kapcsolódhatnak a marketing, a politika, a közgazdaságtan és bármi máshoz. És nagyon fontos, hogy hatékonyan tudjuk kezelni ezeket az információkat - a lényeg nem csak az információfeldolgozás sebessége, hanem az is, hogy mennyire könnyű a zaj kiszűrésével beszerezni a szükséges adatokat, és ezekből integrált képet készíteni.

Korábban néhány globális ötlet társult a számítástechnológiához, például: az emberek úgy gondolták, hogy a gépi fordítás helyettesíti az emberi fordítást, a robotok az emberek helyett működnek. Most azonban utópiának tűnik, és a gépi fordítást a keresőmotorok használják az ismeretlen nyelven történő gyors kereséshez. Vagyis a nyelvészet ritkán foglalkozik absztrakt feladatokkal - főleg néhány apró dologgal, amelyeket be lehet helyezni egy nagy termékbe, és így pénzt keresni.

A modern nyelvészet egyik nagy feladata a szemantikai web, amikor a keresés nem csupán a szó egybeesése, hanem a jelentése is, és az összes helyet valamilyen módon szemantika jelöli. Ez hasznos lehet például a rendõrségi vagy orvosi beszámolókhoz, amelyeket minden nap írnak. A belső kapcsolatok elemzése sok szükséges információt nyújt, és a kézi olvasás és számolás hihetetlenül hosszú.

Dióhéjban ezer szöveg van, halmoznunk kell őket halomra, minden szöveget struktúra formájában kell bemutatnunk, és be kell szereznünk egy táblát, amellyel már dolgozhatunk. Ez a strukturálatlan információ feldolgozása. Másrészt a számítógépes nyelvészet például a mesterséges szövegek létrehozásával foglalkozik. Van egy cég, amely kifejlesztett egy olyan mechanizmust, amely szövegeket generál olyan témákról, amelyekről az ember unatkozni ír: az ingatlanárak változásai, az időjárás-előrejelzés, a futball-mérkőzésekről szóló jelentések. Az ilyen szövegek megrendelése egy ember számára sokkal drágább, ráadásul az ilyen témájú számítógépes szövegek koherens emberi nyelven készülnek.

A Yandex aktívan részt vesz Oroszországban a strukturálatlan információk keresése terén, a Kaspersky Lab kutatócsoportokat foglalkoztat, amelyek gépi tanulást tanulmányoznak. Valaki a piacon próbál valami újat kidolgozni a számviteli nyelvészet területén?

** Könyvek a számítási nyelvészetről: **

Daniel Jurafsky, Beszéd és nyelvfeldolgozás

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, "Bevezetés az információkeresésbe"

Yakov Testelets, "Bevezetés az általános szintaxisba"

A nyelvi fejlesztések többsége nagyvállalatok tulajdonában van, szinte semmi sem található a nyilvánosság számára. Ez akadályozza az ipar fejlődését, nincs szabad nyelvi piac, dobozos megoldások.

Ezen felül hiányzik az átfogó információs források. Van egy olyan projekt, mint az orosz nyelv Nemzeti Ház. Ez a világ egyik legjobb nemzeti testülete, amely gyorsan fejlődik, és hihetetlen lehetőségeket kínál a tudományos és alkalmazott kutatások számára. A különbség nagyjából ugyanaz, mint a biológiában - a DNS-kutatás előtt és után.

De sok forrás nem létezik oroszul. Tehát nincs olyan analóg egy olyan csodálatos angol nyelvű forrásról, mint a Framenet - ez egy olyan fogalmi hálózat, ahol egy adott szó minden lehetséges kapcsolatát más szavakkal formálisan bemutatják. Például létezik a "légy" szó - ki tud repülni, hol, milyen elõszóval ezt a szót használják, milyen szavakkal kombinálva, és így tovább. Ez az erőforrás elősegíti a nyelv és a valós élet összekapcsolását, azaz annak nyomon követését, hogy egy adott szó hogyan viselkedik a morfológia és a szintaxis szintjén. Nagyon hasznos.

Az Avicomp jelenleg fejleszt egy plugint a kapcsolódó cikkek keresésére. Vagyis ha érdekel egy cikk, akkor gyorsan megnézheti a cselekmény történetét: mikor felmerült a téma, mi volt az írás és mikor volt a csúcs az érdeklődés erről a problémáról. Például e beépülő modul használatával a szíriai eseményekről szóló cikkből kezdve nagyon gyorsan megnézheti, hogy az események hogyan fejlődtek ott az elmúlt évben.

Hogyan strukturálódik a mesterképzésben a tanulási folyamat?

Az oktatás a HSE-ben külön modulokban szerveződik, akárcsak a nyugati egyetemeken. A hallgatókat kis csoportokba osztják, mini-startup-okba - vagyis a végén több kész projektet kell kapnunk. Valódi termékeket akarunk előállítani, amelyeket azután az emberek számára nyitva hagyunk, és a nyilvánosság számára hagyjuk őket.

A hallgatói projektek közvetlen menedzserei mellett a potenciális munkáltatók közül is szeretnénk kurátorokat találni számukra - például ugyanabból a „Yandexből”, aki szintén ezt a játékot játssza és tanácsokat ad a hallgatóknak.

Remélem, hogy a mesterképzésre különböző területeken jelennek meg emberek: programozók, nyelvészek, szociológusok, marketingszakemberek. Számos adaptációs kurzusunk lesz a nyelvészet, a matematika és a programozás területén. Akkor két komoly nyelvészeti tanfolyamunk lesz, és összekapcsolódnak a legrelevánsabb nyelvi elméletekkel. Azt akarjuk, hogy diplomásaink képesek legyenek olvasni és megérteni a modern nyelvi cikkeket. Ugyanez vonatkozik a matematikára. Rendelkezünk egy „Számítógépes nyelvészet matematikai alapjai” című tanfolyammal, amely felvázolja azokat a matematikai szakaszokat, amelyeken a modern számítási nyelvészet alapul.

A mesterképzésbe való beiratkozáshoz meg kell tartania a nyelvvizsga felvételi vizsgaját, és meg kell felelnie a portfólióversenyen.

A főtanfolyamokon kívül választható tantárgyak is lesznek. Több ciklust terveztünk - közülük kettő bizonyos témák mélyebb tanulmányozására összpontosít, amelyek közé tartozik például a gépi fordítás és a korpusz-nyelvészet, és éppen ellenkezőleg, az egyik kapcsolódó területekhez kapcsolódik: például , közösségi média, gépi tanulás vagy digitális humán tudományok - egy tanfolyam, amely remélhetőleg angol nyelven kerül előadásra.