कम्प्यूटेशनल भाषाविज्ञान एक लागू भाषाई अनुशासन के रूप में। पाठ से विभिन्न शब्दकोशों की स्वचालित पुनर्प्राप्ति। कॉर्पस के आधार पर, आप डेटा प्राप्त कर सकते हैं

21.09.2019
योजना:

1. कम्प्यूटेशनल भाषाविज्ञान क्या है?

2. कम्प्यूटेशनल भाषा विज्ञान का उद्देश्य और विषय

4. कम्प्यूटेशनल भाषाविज्ञान के उद्देश्य

5. कम्प्यूटेशनल भाषा विज्ञान में अनुसंधान के तरीके

6. कम्प्यूटेशनल भाषा विज्ञान के उद्भव के लिए इतिहास और कारण

7. कम्प्यूटेशनल भाषा विज्ञान की मूल शर्तें

8. कम्प्यूटेशनल भाषा विज्ञान की समस्या से निपटने वाले वैज्ञानिक

9. कम्प्यूटेशनल भाषा विज्ञान में संघ और सम्मेलन

10. साहित्य का इस्तेमाल किया।


अभिकलनात्मक भाषाविज्ञान -लागू भाषाविज्ञान में एक स्वतंत्र दिशा, प्राकृतिक भाषा के उपयोग से संबंधित समस्याओं को हल करने के लिए कंप्यूटर के उपयोग पर केंद्रित है। (शचीलाकिना के.एम.)


अभिकलनात्मक भाषाविज्ञान- अनुप्रयुक्त भाषाविज्ञान के क्षेत्रों में से एक होने के नाते, वह कंप्यूटर विज्ञान की भाषाई नींव और भाषा और सोच, मॉडलिंग भाषा और कंप्यूटर कार्यक्रमों का उपयोग करके कंप्यूटर वातावरण में सोच के बीच संबंधों के सभी पहलुओं का अध्ययन करती है, और उनके हितों के क्षेत्र में निहित हैं: 1) भाषाई ज्ञान के आधार पर संचार का अनुकूलन 2) निर्माण प्राकृतिक भाषा इंटरफ़ेस और मानव-मशीन संचार के लिए भाषा समझ के प्रकार 3) सूचना कंप्यूटर सिस्टम का निर्माण और मॉडलिंग (Sosnina E.P.)


कम्प्यूटेशनल भाषाविज्ञान ऑब्जेक्ट- संचार की विभिन्न स्थितियों में लोगों द्वारा उपयोग की प्रक्रिया में भाषा की अपनी प्राकृतिक स्थिति का विश्लेषण, और भाषा की विशेषताएं कैसे बनाई जा सकती हैं।


कम्प्यूटेशनल भाषाविज्ञान कार्य:


कम्प्यूटेशनल भाषा विज्ञान अनुसंधान विधियों:

1. मॉडलिंग विधि-अध्ययन की एक विशेष वस्तु जो प्रत्यक्ष अवलोकन में उपलब्ध नहीं है। गणितज्ञ के। शैनन की परिभाषा के अनुसार, एक मॉडल किसी न किसी रूप में किसी वस्तु का प्रतिनिधित्व है, जो उनके वास्तविक अस्तित्व के रूप से अलग है।

2. ज्ञान प्रतिनिधित्व सिद्धांत विधिआधुनिक कंप्यूटर द्वारा स्वचालित प्रसंस्करण पर केंद्रित ज्ञान का प्रतिनिधित्व करने के तरीके का अर्थ है।

3. प्रोग्रामिंग भाषा सिद्धांत विधि(प्रोग्रामिंग लैंग्वेज सिद्धांत) कंप्यूटर विज्ञान का एक क्षेत्र है जो प्रोग्रामिंग भाषाओं के डिजाइन, विश्लेषण, लक्षण वर्णन और वर्गीकरण और उनकी व्यक्तिगत विशेषताओं के अध्ययन से संबंधित है।


कम्प्यूटेशनल भाषाविज्ञान के उद्भव के लिए कारण

1. कंप्यूटर का उद्भव

2. अप्रशिक्षित उपयोगकर्ताओं के कंप्यूटर के साथ संचार की समस्या


1. 1948 में लंदन के बर्कबेक कॉलेज में एक शब्दकोश खोज इंजन विकसित किया गया।

2. वारेन वीवर मेमोरेंडम

3. मशीनी अनुवाद के क्षेत्र में पहला कंप्यूटर शुरू करने की शुरुआत

4. 1954 में जॉर्जटाउन प्रोजेक्ट


1. अल्फा (स्वचालित भाषा प्रसंस्करण सलाहकार समिति) 2. कंप्यूटर तकनीकों के विकास में एक नया चरण और भाषाई कार्यों में उनके सक्रिय उपयोग 3. कंप्यूटर और प्रोग्रामिंग भाषाओं की एक नई पीढ़ी का निर्माण 4. मशीन अनुवाद में बढ़ती रुचि 60

-70 के दशक में बीसवीं सदी


80 के दशक के उत्तरार्ध में - XX सदी के शुरुआती 90 के दशक

    इंटरनेट का उद्भव और सक्रिय विकास

  • इलेक्ट्रॉनिक रूप में पाठ जानकारी की मात्रा में तेजी से वृद्धि

  • प्राकृतिक भाषा ग्रंथों के स्वचालित प्रसंस्करण की आवश्यकता


1. PROMT और ABBY (लिंगवो) के उत्पाद 2. मशीनी अनुवाद प्रौद्योगिकियाँ 3. अनुवाद मेमोरी प्रौद्योगिकियाँ

आधुनिक वाणिज्यिक प्रणाली

  • ग्रंथों का एनीमेशन

  • संचार मॉडल

  • कंप्यूटर लेक्सोग्राफी

  • मशीनी अनुवाद

  • ग्रंथों का कोर्पस


प्राकृतिक भाषा ग्रंथों का विश्लेषण

पाठ संरचना के 3 स्तर:
  • सरफेस सिनेटिक संरचना

  • गहरी वाक्य रचना

  • शब्दार्थ स्तर


संश्लेषण की समस्या विश्लेषण के विपरीत है

चेतन पाठ

1. डिस्प्ले स्क्रीन पर दृश्य चित्रों के माध्यम से ग्रंथों का आदान-प्रदान

2. मानव सोच के 2 तरीके: प्रतीकात्मक और दृश्य।


1. संचार प्रक्रिया का अनुकरण 2. एक प्रभावी संवाद मॉडल का निर्माण संचार मॉडल


हाइपरटेक्स्ट- पाठ के आयोजन और प्रस्तुत करने का एक विशेष तरीका, जिसमें पाठ के कई पाठ या टुकड़े विभिन्न प्रकार के लिंक द्वारा एक दूसरे से जुड़े हो सकते हैं।


हाइपरटेक्स्ट और पारंपरिक पाठ के बीच अंतर

हाइपरटेक्स्ट

    1. मौखिक भाषण के अतिरिक्त

  • 2. लिखित पाठ का प्रसंस्करण


भाषण प्रसंस्करण

1. ओटोमेटिक भाषण संश्लेषण

ए) पाठ से वाक् सिंथेसाइज़र का विकास। 2 ब्लॉक शामिल हैं: भाषाई पाठ प्रसंस्करण इकाईतथा ध्वनिक संश्लेषण का ब्लॉक।

2. ओटोमेटिक भाषण पहचान


1) पाठ मान्यता

2) पाठ विश्लेषण

3) पाठ संश्लेषण


IPS (सूचना पुनर्प्राप्ति प्रणाली)क्या ब्याज की जानकारी संग्रहीत करने, खोजने और जारी करने के लिए सॉफ्टवेयर सिस्टम हैं।

ज़खरोव वी.पी. मानना \u200b\u200bहै कि, आईपीएस सूचनाओं को संग्रहीत करने और खोज करने के लिए दस्तावेजों और सूचना तकनीकों का एक निर्धारित सेट है - ग्रंथ या डेटा।


3 प्रकार के आई.पी.एस.

3 प्रकार के आई.पी.एस.

    गाइड एक पुस्तकालय खोज है।

  • यंत्रीकृत आईएसएस तकनीकी साधन हैं जो आवश्यक दस्तावेजों के चयन को सुनिश्चित करते हैं

  • स्वचालित - कंप्यूटर का उपयोग कर जानकारी के लिए खोज


कंप्यूटर लेक्सोग्राफी

कंप्यूटर लेक्सोग्राफी- अनुप्रयुक्त भाषाविज्ञान के महत्वपूर्ण क्षेत्रों में से एक, शब्दकोशों के संकलन के सिद्धांत और अभ्यास में संलग्न है।

लेक्सोग्राफी में 2 दिशाएँ हैं:
  • पारंपरिक शब्दालंकारपारंपरिक शब्दकोशों का संकलन करता है

  • मशीन लेक्सोग्राफीशब्दकोशों की तैयारी के स्वचालन में लगा हुआ है और इलेक्ट्रॉनिक शब्दकोशों के विकास की समस्याओं को हल करता है


कंप्यूटर लेक्सोग्राफी के कार्य

  • पाठ से विभिन्न शब्दकोशों की स्वचालित पुनर्प्राप्ति

  • ऐसे शब्दकोश बनाएं जो पारंपरिक शब्दावली के इलेक्ट्रॉनिक संस्करणों या जटिल शब्दावली के लिए जटिल इलेक्ट्रॉनिक भाषाई शब्दकोश हैं, जैसे कि LINGVO

  • विशेष कंप्यूटर शब्दकोशों के संकलन के सैद्धांतिक और व्यावहारिक पहलुओं का विकास, उदाहरण के लिए, सूचना पुनर्प्राप्ति, मशीन अनुवाद के लिए


मशीनी अनुवाद

मशीनी अनुवाद- एक प्राकृतिक भाषा में एक कंप्यूटर का उपयोग करके एक प्राकृतिक भाषा में पाठ परिवर्तित करना।

मशीनी अनुवाद के प्रकार
  • एफएएमटी (पूरी तरह से स्वचालित मशीन अनुवाद) - पूरी तरह से स्वचालित अनुवाद

  • HAMT (मानव सहायता प्राप्त मशीन अनुवाद)

  • MAHT (मशीन एडेड ह्यूमन ट्रांसलेशन) - सहायक सॉफ्टवेयर और भाषाई साधनों की सहायता से किसी व्यक्ति द्वारा किया गया अनुवाद।


  • 2) पेशेवर सांसद- बाद के मानव संपादन के साथ बेहतर अनुवाद

  • 3) इंटरैक्टिव सांसद- विशेष सहायता प्रणालियों में एक अनुवाद माना जाता है, एक कंप्यूटर सिस्टम के साथ एक संवाद मोड में होता है। MT की गुणवत्ता अनुकूलन क्षमताओं, संसाधनों, ग्रंथों के प्रकार पर निर्भर करती है।

ग्रंथों का कोर्पस

ग्रंथों का कोर्पसएक तार्किक डिजाइन पर आधारित ग्रंथों का एक संग्रह है, एक तार्किक विचार जो इन ग्रंथों को एकजुट करता है।

भाषा कॉर्पसभाषाई डेटा की एक बड़ी, इलेक्ट्रॉनिक रूप से प्रस्तुत, एकीकृत, संरचित, लेबल, दार्शनिक रूप से सक्षम सरणी, जिसका उद्देश्य विशिष्ट भाषाई समस्याओं को हल करना है।


प्रतिनिधित्व शरीर की सबसे महत्वपूर्ण संपत्ति है


भाषाई कॉर्पस का उद्देश्य अपने प्राकृतिक संदर्भ वातावरण में भाषाई इकाइयों के कामकाज को दिखाना है



कॉर्पस के आधार पर, आप डेटा प्राप्त कर सकते हैं:

1. व्याकरणिक श्रेणियों की आवृत्ति के बारे में

2. आवृत्ति में परिवर्तन

3. अलग-अलग समय में संदर्भों में बदलाव के बारे में

5. लेक्सिकल इकाइयों की सह-घटना

6. उनकी संगतता की विशेषताओं के बारे में


ब्राउन कोर


ग्रंथों का कोर्पस एक तार्किक डिजाइन पर आधारित ग्रंथों का एक संग्रह है, एक तार्किक विचार जो इन ग्रंथों को एकजुट करता है। इस तार्किक विचार का मूर्त रूप: ग्रंथों के कोष के विश्लेषण के लिए नियम, ग्रंथों के कोष, संबंधित विचारधारा और कार्यप्रणाली के विश्लेषण के लिए कार्यक्रम। राष्ट्रीय कोर किसी दिए गए भाषा को उसके अस्तित्व के एक निश्चित चरण (या चरणों) में और सभी शैलियों, शैलियों, क्षेत्रीय और सामाजिक रूपांतरों, आदि का प्रतिनिधित्व करता है। कम्प्यूटेशनल भाषा विज्ञान में बुनियादी शब्द

    प्रोग्रामिंग भाषा (पीएल) कृत्रिम भाषाओं का एक वर्ग है जिसे कंप्यूटर का उपयोग करके जानकारी को संसाधित करने के लिए डिज़ाइन किया गया है। कोई भी प्रोग्रामिंग भाषा एक सख्त (औपचारिक) संकेत प्रणाली है जिसके साथ कंप्यूटर प्रोग्राम लिखे जाते हैं। विभिन्न अनुमानों के अनुसार, वर्तमान में एक हजार से दस हजार विभिन्न प्रोग्रामिंग भाषाएं हैं।

  • सूचना विज्ञान(कंप्यूटर विज्ञान) -रिकॉर्डिंग, भंडारण, प्रसंस्करण, हस्तांतरण और तकनीकी साधनों का उपयोग करके जानकारी के कानूनों का विज्ञान।



जानकारी के लिए खोजे (सूचना पुनर्प्राप्ति) इस तरह के दस्तावेज (ग्रंथ, रिकॉर्ड और

आदि) जो अनुरोध से मेल खाते हैं।

« सूचना पुनर्प्राप्ति प्रणाली (ISS) दस्तावेज़ों (दस्तावेज़ों के सरणियों) और सूचना प्रौद्योगिकियों का एक सेट सेट है जो सूचनाओं को संग्रहीत करने और खोज करने के लिए है - ग्रंथ (दस्तावेज़) या डेटा (तथ्य)।

मशीन लेक्सोग्राफी(Сomputational Lexicography)शब्दकोशों की तैयारी के स्वचालन में संलग्न है और इलेक्ट्रॉनिक विकसित करने की समस्याओं को हल करता है

शब्दकोश।

मशीनी अनुवाद एक पर पाठ का कंप्यूटर परिवर्तन है

दूसरे में एक समकक्ष पाठ में प्राकृतिक भाषा

प्राकृतिक भाषा।

हाइपरटेक्स्ट कंप्यूटर वातावरण में सूचना के प्रभावी प्रस्तुतीकरण के लिए, सूचना को व्यवस्थित करने के लिए एक तकनीक है और एक विशेष रूप से संरचित पाठ, जिसे अलग-अलग ब्लॉकों में विभाजित किया गया है, गैर-रेखीय प्रतिनिधित्व है।


    ढांचा एक एकीकृत रूप से एकीकृत स्थिति के बारे में घोषित ज्ञान का प्रतिनिधित्व करने के लिए एक संरचना है, अर्थात्। एक टकसाली स्थिति के बारे में डेटा संरचना।

  • परिदृश्य - यह समय में कई एपिसोड का एक क्रम है, यह एक स्टीरियोटाइप स्थिति या रूढ़िबद्ध व्यवहार का भी प्रतिनिधित्व है, केवल स्क्रिप्ट के तत्व एल्गोरिदम या निर्देशों के चरण हैं।
  • योजना - एक विशिष्ट लक्ष्य को प्राप्त करने के लिए आवश्यक क्रियाओं के बारे में ज्ञान का प्रतिनिधित्व।



कम्प्यूटेशनल भाषा विज्ञान के क्षेत्र में वैज्ञानिक:

  • सोवियत और रूसी वैज्ञानिक: एलेक्सी लायपुनोव, इगोर मेलचुक, ओल्गा कुलगिना, यू.डी. Apresyan, एन.एन. लियोन्टीव, यू.एस. मार्टेमानोव, जेड एम। चलीपिन, इगोर बोगुस्लावस्की, ए.एस. नारायणी, ए.ई. किब्रिक, बारानोव ए.एन.

  • पाश्चात्य विद्वान: योरिक विल्क्स, ग्रेगरी ग्रीफनेट, ग्रेविल कॉर्बेट, जॉन कैरोल, डायना मैकार्थी, लुइस मार्क्वेज़, डैन मोल्दोवन, जोआचिम निवार, विक्टर रस्किन, एडवर्ड होवी।


कम्प्यूटेशनल भाषा विज्ञान में संघ और सम्मेलन:
  • "संवाद" - पर मुख्य रूसी सम्मेलन अभिकलनात्मक भाषाविज्ञान अंतर्राष्ट्रीय भागीदारी के साथ।

संवाद की प्राथमिकता है कंप्यूटर मॉडलिंग रूसी भाषा। सम्मेलन की कामकाजी भाषाएँ रूसी और अंग्रेजी हैं। विदेशी समीक्षकों को आकर्षित करने के लिए, लागू कार्यों का थोक अंग्रेजी में प्रस्तुत किया जाता है।

सम्मेलन के मुख्य निर्देश:
  • भाषाई शब्दार्थ और अर्थ विश्लेषण

  • औपचारिक भाषा मॉडल और उनका अनुप्रयोग

  • सैद्धांतिक और कंप्यूटर कोशरचना

  • पाठ विश्लेषण और मशीन अनुवाद प्रणालियों के लिए मूल्यांकन के तरीके

  • कॉर्पस भाषाविज्ञान... निर्माण, अनुप्रयोग, बाड़ों का मूल्यांकन

  • इंटरनेट भाषाई संसाधन के रूप में। इंटरनेट पर भाषाई प्रौद्योगिकियां

  • ओंटोलॉजी. ज्ञान का अर्क ग्रंथों से

  • दस्तावेजों का कंप्यूटर विश्लेषण: सार, वर्गीकरण, खोज

  • ग्रंथों का स्वचालित भाव विश्लेषण

  • मशीनी अनुवाद

  • संचार मॉडल। संचार, संवाद और भाषण अधिनियम

  • विश्लेषण और भाषा संकलन



2. कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन (एसीएल) प्राकृतिक भाषा और अभिकलन से जुड़ी समस्याओं पर काम करने वाले लोगों का एक अंतर्राष्ट्रीय वैज्ञानिक और व्यावसायिक समाज है। वार्षिक बैठक हर गर्मियों में उन स्थानों पर आयोजित की जाती है जहाँ महत्वपूर्ण कम्प्यूटेशनल भाषाविज्ञान अनुसंधान किया जाता है। 1962 में स्थापित, मूल रूप से नाम मशीन अनुवाद और कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन (AMTCL)... यह 1968 में एसीएल बन गया।
  • एसीएल में एक यूरोपीय है (ईएसीएल) और उत्तरी अमेरिकी (एनएएसीएल) शाखाओं।

  • ACL लॉग, अभिकलनात्मक भाषाविज्ञान, कम्प्यूटेशनल भाषा विज्ञान और प्राकृतिक भाषा प्रसंस्करण में अनुसंधान के लिए प्राथमिक मंच है। 1988 से पत्रिका एसीएल के लिए प्रकाशित हुई है एमआईटी प्रेस.
  • पुस्तक श्रृंखला ACL, प्राकृतिक भाषा प्रसंस्करण में अनुसंधानप्रकाशित हुआ कैम्ब्रिज यूनिवर्सिटी प्रेस द्वारा.

  • हर साल एसीएल और इसके अध्याय विभिन्न देशों में अंतर्राष्ट्रीय सम्मेलन आयोजित करते हैं।

एसीएल 2014 बाल्टीमोर, यूएसए में आयोजित किया गया था।

  • संदर्भ:

  • 1. मरचुक यू.एन. कंप्यूटर भाषाविज्ञान: पाठ्यपुस्तक / यू.एन. मरचुक.- एम .: एएसटी: पूर्व-पश्चिम, 2007yu- 317 पी।

  • 2. शिलिखिना के.एम. एप्लाइड लिंग्विस्टिक्स के फंडामेंटल: टेक्स्टबुक फॉर स्पेशलिटी 021800 (031301) - सैद्धांतिक और अनुप्रयुक्त भाषाविज्ञान, वोरोनिश, 2006।

  • 3. बोयर्सकी के.के. कम्प्यूटेशनल भाषाविज्ञान का परिचय। पाठ्यपुस्तक.- एसपीबी: एनआरयू आईटीएमओ, 2013.- 72 पी।

  • 4. शचीपिट्सिना एल.वाई। भाषाविज्ञान में सूचना प्रौद्योगिकी: पाठ्यपुस्तक / एल.वाई। शचीपित्सिन, मॉस्को: FLINT: विज्ञान, 2013, 128 पी।

  • 5. सोसिना ई.पी. लागू भाषाविज्ञान का परिचय: पाठ्यपुस्तक / ई.पी.सोनिना। - दूसरा संस्करण।, रेव। और जोड़। - उल्यानोवस्क: उलस्टीयू, 2012.110 पी।

  • 6. बारानोव ए.एन. अनुप्रयुक्त भाषाविज्ञान का परिचय: पाठ्यपुस्तक।- मॉस्को: संपादकीय URSS, 2001।- 360 पी।

  • 7. अनुप्रयुक्त भाषाविज्ञान: पाठ्यपुस्तक / एल.वी. बोंदरको, एल.ए. वेरबिट्काया, जी। हां। मार्टीनेंको और अन्य; प्रतिक्रिया दें। संपादक ए.एस. गर्ड। एसपीबी।: सेंट पीटर्सबर्ग का प्रकाशन गृह। विश्वविद्यालय, 1996. - 528 पी।

  • 8. शेम्याकिन यू.आई. कम्प्यूटेशनल भाषाविज्ञान की शुरुआत: पाठ्यपुस्तक। एम।: एमजीओयू, ए / ओ "रोसुवज़ुनाका" का प्रकाशन गृह, 1992।

  • भाषाविज्ञान सांख्यिकीय भाषाविज्ञान प्रोग्रामेटिक

    कम्प्यूटेशनल भाषा विज्ञान के विकास का इतिहास

    प्राकृतिक भाषा के विज्ञान के रूप में आधुनिक भाषाविज्ञान के गठन और निर्माण की प्रक्रिया भाषाई ज्ञान का एक लंबा ऐतिहासिक विकास है। भाषाई ज्ञान तत्वों पर आधारित है, जिसका गठन गतिविधि की प्रक्रिया में हुआ, जो मौखिक भाषण की संरचना के विकास के साथ-साथ जुड़ा हुआ है, उद्भव, आगे के विकास और लेखन में सुधार, शिक्षण लेखन, साथ ही व्याख्या। और ग्रंथों की डिकोडिंग।

    भाषा विज्ञान की एक वस्तु के रूप में प्राकृतिक भाषा इस विज्ञान के लिए केंद्रीय है। भाषा के विकास की प्रक्रिया में, इसके बारे में विचार भी बदल गए। यदि पहले भाषा के आंतरिक संगठन से कोई विशेष महत्व नहीं जुड़ा था, और यह माना जाता था, सबसे पहले, बाहरी दुनिया के साथ अंतर्संबंध के संदर्भ में, फिर, 19 वीं सदी के अंत से - 20 वीं शताब्दी की शुरुआत में, एक विशेष भूमिका थी भाषा की आंतरिक औपचारिक संरचना को सौंपा। यह इस अवधि के दौरान था कि प्रसिद्ध स्विस भाषाविद् फर्डिनेंड डी सॉसर ने अर्धविज्ञान और संरचनात्मक भाषा विज्ञान के रूप में इस तरह की विज्ञान की नींव विकसित की, और उनकी पुस्तक "जनरल लिंग्विस्टिक्स में कोर्स" (1916) में विस्तृत हैं।

    वैज्ञानिक भाषा को एक एकल तंत्र, संकेतों की एक अभिन्न प्रणाली के रूप में मानते हैं, जो बदले में गणितीय रूप से भाषा का वर्णन करना संभव बनाता है। सॉस्सर भाषा के लिए एक संरचनात्मक दृष्टिकोण का प्रस्ताव करने वाला पहला था, अर्थात्: अपनी इकाइयों के बीच संबंधों का अध्ययन करके भाषा का वर्णन करना। इकाइयों द्वारा, या "संकेत", वह एक ऐसा शब्द समझ गया जो अर्थ और ध्वनि दोनों को जोड़ता है। स्विस वैज्ञानिक द्वारा प्रस्तावित अवधारणा संकेतों के एक प्रणाली के रूप में भाषा के सिद्धांत पर आधारित है, जिसमें तीन भाग शामिल हैं: भाषा (फ्रांसीसी भाषा से), भाषण (फ्रेंच पैरोल से) और भाषण गतिविधि (फ्रेंच भाषा से)।

    वैज्ञानिक ने स्वयं विज्ञान के विज्ञान को परिभाषित किया जिसे उन्होंने "विज्ञान के रूप में बनाया जो समाज के जीवन के ढांचे के भीतर संकेतों के जीवन का अध्ययन करता है।" चूंकि भाषा एक संकेत प्रणाली है, इस सवाल के जवाब की तलाश में कि भाषाविज्ञान किस स्थान पर अन्य विज्ञानों के बीच है, सॉसर ने तर्क दिया कि भाषाविज्ञान अर्धविराम का एक हिस्सा है। यह आमतौर पर स्वीकार किया जाता है कि यह स्विस दार्शनिक था जिसने भाषाविज्ञान में एक नई दिशा की सैद्धांतिक नींव रखी, जो आधुनिक भाषाविज्ञान के संस्थापक "पिता" बन गए।

    F. de Saussure द्वारा सामने रखी गई अवधारणा को कई उत्कृष्ट वैज्ञानिकों के कामों में विकसित किया गया था: डेनमार्क में - एल। एल्म्सलेव, चेक गणराज्य में - एन। ट्रूबेत्सोए, यूएसए में - एल। ब्लूमफील्ड, 3. हैरिस, एन। चम्स्की। हमारे देश के रूप में, यहाँ संरचनात्मक भाषाविज्ञान ने अपना विकास लगभग उसी समय की अवधि में शुरू किया जैसे कि पश्चिम में - १ ९वीं -२० वीं शताब्दी के अंत में। - एफ। फार्चुनैटोव और आई। बौडोइन डे कर्टेन के कार्यों में। यह ध्यान दिया जाना चाहिए कि I. Baudouin de Courtenay ने F. de Saussure के साथ मिलकर काम किया। यदि सॉसर ने संरचनात्मक भाषाविज्ञान की सैद्धांतिक नींव रखी, तो बॉडॉइन डे कर्टेने को उस व्यक्ति के रूप में माना जा सकता है जिसने स्विस वैज्ञानिक द्वारा प्रस्तावित विधियों के व्यावहारिक अनुप्रयोग के लिए नींव रखी थी। यह वह था जिसने भाषाविज्ञान को एक विज्ञान के रूप में परिभाषित किया जो सांख्यिकीय विधियों और कार्यात्मक निर्भरताओं का उपयोग करता है, और इसे भाषाविज्ञान से अलग कर दिया। भाषाविज्ञान में गणितीय तरीकों को लागू करने का पहला अनुभव था, नादविद्या - एक भाषा की आवाज़ की संरचना का विज्ञान।

    यह ध्यान दिया जाना चाहिए कि एफ। डी। सौसुरे द्वारा लगाए गए पोस्ट भाषा विज्ञान की समस्याओं में परिलक्षित होते थे जो 20 वीं शताब्दी के मध्य में प्रासंगिक थे। यह इस अवधि के दौरान था कि भाषा के विज्ञान के गणितीयकरण की दिशा में एक स्पष्ट प्रवृत्ति को रेखांकित किया गया था। लगभग सभी बड़े देशों में, विज्ञान और कंप्यूटर प्रौद्योगिकी का तेजी से विकास शुरू होता है, जो बदले में अधिक से अधिक नए भाषाई नींव की आवश्यकता होती है। इस सबका परिणाम सटीक और मानवीय विज्ञान के साथ-साथ गणित और भाषा विज्ञान की सक्रिय बातचीत का तेजी से अभिसरण था, जिसने तत्काल वैज्ञानिक समस्याओं को हल करने में व्यावहारिक अनुप्रयोग पाया है।

    गणित, भाषा विज्ञान, कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता जैसे विज्ञानों के जंक्शन पर XX सदी के 50 के दशक में, विज्ञान की एक नई दिशा उभरी - कम्प्यूटेशनल भाषा विज्ञान (प्राकृतिक भाषा में ग्रंथों की मशीन भाषा विज्ञान या स्वचालित प्रसंस्करण के रूप में भी जाना जाता है)। इस दिशा के विकास में मुख्य चरण कृत्रिम बुद्धि विधियों के विकास की पृष्ठभूमि के खिलाफ हुआ। पहले कंप्यूटरों का निर्माण कम्प्यूटेशनल भाषा विज्ञान के विकास के लिए एक शक्तिशाली प्रेरणा के रूप में कार्य करता था। हालांकि, 60 के दशक में कंप्यूटर और प्रोग्रामिंग भाषाओं की एक नई पीढ़ी में उपस्थिति के साथ, इस विज्ञान के विकास में एक मूल रूप से नया चरण शुरू होता है। यह भी ध्यान दिया जाना चाहिए कि कम्प्यूटेशनल भाषाविज्ञान की उत्पत्ति भाषा की संरचना को औपचारिक बनाने के क्षेत्र में प्रसिद्ध अमेरिकी भाषाविद् एन। चॉम्स्की के कार्यों पर वापस जाती है। भाषाविज्ञान और गणित के चौराहे पर प्राप्त उनके शोध के परिणामों ने औपचारिक भाषाओं और व्याकरणों के सिद्धांत के विकास के लिए आधार तैयार किया (सामान्य, या जनरेटिव, व्याकरण), जो प्राकृतिक और कृत्रिम दोनों का वर्णन करने के लिए व्यापक रूप से उपयोग किया जाता है। विशेष प्रोग्रामिंग भाषाओं में भाषाएँ। अधिक सटीक रूप से, यह सिद्धांत पूरी तरह से गणितीय अनुशासन है। इसे गणितीय भाषाविज्ञान के रूप में अनुप्रयुक्त भाषाविज्ञान की पहली दिशा में से एक माना जा सकता है।

    पहला प्रयोग और कम्प्यूटेशनल भाषाविज्ञान में पहला घटनाक्रम मशीन अनुवाद प्रणालियों के निर्माण से संबंधित है, साथ ही ऐसी प्रणालियां जो मानव भाषाई क्षमताओं का अनुकरण करती हैं। 1980 के दशक के अंत में, इंटरनेट के आगमन और सक्रिय विकास के साथ, इलेक्ट्रॉनिक रूप में उपलब्ध पाठ्य सूचनाओं की मात्रा में तेजी से वृद्धि हुई। इससे यह तथ्य सामने आया कि सूचना पुनर्प्राप्ति प्रौद्योगिकियां अपने विकास में गुणात्मक रूप से नए चरण में चली गई हैं। प्राकृतिक भाषा में ग्रंथों के स्वचालित प्रसंस्करण के लिए आवश्यकता उत्पन्न हुई, पूरी तरह से नए कार्य और प्रौद्योगिकियां दिखाई दीं। वैज्ञानिकों को इस तरह की समस्या का सामना करना पड़ रहा है क्योंकि असंरचित डेटा की एक विशाल धारा का तेजी से प्रसंस्करण होता है। इस समस्या का हल खोजने के लिए, स्वचालित वर्ड प्रोसेसिंग के क्षेत्र में सांख्यिकीय विधियों के विकास और अनुप्रयोग के लिए बहुत महत्व दिया गया है। यह उनकी मदद से था कि इस तरह की समस्याओं को हल करना संभव हो गया क्योंकि ग्रंथों को एक सामान्य विषय द्वारा एकजुट समूहों में विभाजित करना, पाठ में कुछ अंशों को उजागर करना, आदि। इसके अलावा, गणितीय सांख्यिकी और मशीन सीखने के तरीकों के उपयोग ने भाषण मान्यता और खोज इंजन के निर्माण की समस्याओं को हल करना संभव बना दिया।

    वैज्ञानिकों ने प्राप्त परिणामों पर रोक नहीं लगाई: उन्होंने नई तकनीकों और अनुसंधान विधियों को विकसित करने के लिए अपने लिए नए लक्ष्य और उद्देश्य निर्धारित किए। यह सब इस तथ्य की ओर ले गया कि भाषाविज्ञान ने एक अनुप्रयुक्त विज्ञान के रूप में कार्य करना शुरू किया, कई अन्य विज्ञानों को मिलाकर, जिसकी प्रमुख भूमिका गणित से संबंधित थी जिसमें इसकी मात्रात्मक विधियां और अध्ययन की गहन समझ के लिए उन्हें लागू करने की क्षमता थी। घटना। इस तरह गणितीय भाषाविज्ञान ने अपना गठन और विकास शुरू किया। फिलहाल, यह एक काफी "युवा" विज्ञान है (यह लगभग पचास वर्षों से अस्तित्व में है), हालांकि, इसकी बहुत "युवा उम्र" के बावजूद, यह कई सफल उपलब्धियों के साथ वैज्ञानिक ज्ञान का एक पहले से ही स्थापित क्षेत्र है।

    कम्प्यूटेशनल भाषा विज्ञान के लिए समर्पित एक नए मास्टर कार्यक्रम को अर्थशास्त्र के उच्चतर स्कूल के फिजियोलॉजी विभाग में लॉन्च किया जा रहा है: एक बुनियादी मानवीय और गणितीय शिक्षा वाले आवेदक और विज्ञान की सबसे होनहार शाखाओं में से एक में समस्याओं को हल करने में रुचि रखने वाले सभी लोग यहां इंतजार कर रहे हैं। । इसके प्रमुख अनास्तासिया बोन्च-ओस्मोलोव्स्काया ने थ्योरीज़ और प्रैक्टिस को बताया कि कम्प्यूटेशनल भाषा विज्ञान क्या है, क्यों रोबोट मनुष्यों की जगह नहीं लेंगे, और कम्प्यूटेशनल भाषा विज्ञान में एचएसई मास्टर कार्यक्रम में वे क्या सिखाएंगे।

    यह कार्यक्रम रूस में अपनी तरह का लगभग एकमात्र है। आपने स्वयं कहां अध्ययन किया?

    मैंने मॉस्को स्टेट यूनिवर्सिटी में सैद्धांतिक संकाय के सैद्धांतिक और अनुप्रयुक्त भाषाविज्ञान विभाग में अध्ययन किया। मैं तुरंत वहां नहीं पहुंचा, सबसे पहले मैंने रूसी विभाग में प्रवेश किया, लेकिन फिर मैं गंभीरता से भाषाविज्ञान से दूर हो गया, और मैं उस माहौल से आकर्षित हुआ जो आज तक विभाग में बना हुआ है। सबसे महत्वपूर्ण बात यह है कि शिक्षकों और छात्रों और उनके आपसी हित के बीच अच्छा संपर्क है।

    जब मेरे बच्चे पैदा हुए और मुझे जीविकोपार्जन करना पड़ा, तो मैं व्यावसायिक भाषाविज्ञान के क्षेत्र में चला गया। 2005 में, यह बहुत स्पष्ट नहीं था कि गतिविधि का यह क्षेत्र क्या था। मैंने विभिन्न भाषाई फर्मों में काम किया: मैंने Public.ru वेबसाइट पर एक छोटी सी फर्म के रूप में शुरुआत की - यह एक मीडिया लाइब्रेरी है, जहां मैंने भाषाई प्रौद्योगिकियों से निपटना शुरू किया। फिर उसने एक वर्ष के लिए रोज़नोटेक में काम किया, जहाँ एक विश्लेषणात्मक पोर्टल बनाने का विचार था, ताकि उस पर मौजूद डेटा अपने आप संरचित हो जाए। तब मैंने एविकम्प में भाषाई विभाग का नेतृत्व किया - यह पहले से ही कम्प्यूटेशनल भाषा विज्ञान और अर्धचालक प्रौद्योगिकियों के क्षेत्र में एक गंभीर उत्पादन है। समानांतर में, मैंने मॉस्को स्टेट यूनिवर्सिटी में कम्प्यूटेशनल भाषा विज्ञान में एक पाठ्यक्रम पढ़ाया और इसे और अधिक आधुनिक बनाने की कोशिश की।

    एक भाषाविद् के लिए दो संसाधन: - रूसी भाषा से संबंधित वैज्ञानिक और व्यावहारिक अनुसंधान के लिए भाषाविदों द्वारा बनाई गई एक साइट। यह रूसी भाषा का एक मॉडल है, जिसे विभिन्न शैलियों और अवधियों से ग्रंथों की एक विशाल सरणी का उपयोग करके प्रस्तुत किया गया है। ग्रंथ भाषाई मार्कअप के साथ प्रदान किए जाते हैं, जिनकी मदद से कुछ भाषाई घटनाओं की आवृत्ति के बारे में जानकारी प्राप्त करना संभव है। Vordnet अंग्रेजी भाषा का एक विशाल शाब्दिक आधार है, Vordnet का मुख्य विचार एक बड़े नेटवर्क को शब्दों में नहीं, बल्कि उनके अर्थ से जोड़ना है। WordNet को अपने स्वयं के प्रोजेक्ट के लिए डाउनलोड और उपयोग किया जा सकता है।

    और कम्प्यूटेशनल भाषा विज्ञान क्या करता है?

    यह सबसे अंतःविषय क्षेत्र है। यहां सबसे महत्वपूर्ण बात यह समझना है कि इलेक्ट्रॉनिक दुनिया में क्या हो रहा है और कौन आपको विशिष्ट चीजें करने में मदद करेगा।

    हम बहुत बड़ी मात्रा में डिजिटल जानकारी से घिरे हैं, कई व्यावसायिक परियोजनाएं हैं, जिनमें से सफलता सूचना प्रसंस्करण पर निर्भर करती है, ये परियोजनाएं विपणन, राजनीति, अर्थशास्त्र और जो भी हो, से संबंधित हो सकती हैं। और इस जानकारी को कुशलता से संभालने में सक्षम होना बहुत महत्वपूर्ण है - मुख्य बात न केवल सूचना प्रसंस्करण की गति है, बल्कि यह भी कि आप आसानी से शोर को फ़िल्टर करके, अपनी ज़रूरत के डेटा को प्राप्त कर सकते हैं और एक संपूर्ण बना सकते हैं। इसका चित्र।

    पहले, कुछ वैश्विक विचार कम्प्यूटेशनल भाषा विज्ञान से जुड़े थे, उदाहरण के लिए: लोगों ने सोचा कि मशीन अनुवाद मानव अनुवाद को बदल देगा, रोबोट लोगों के बजाय काम करेंगे। लेकिन अब यह एक यूटोपिया की तरह लगता है, और मशीन अनुवाद का उपयोग खोज इंजन में जल्दी से किसी अपरिचित भाषा में खोज करने के लिए किया जाता है। यही है, अब भाषाविज्ञान शायद ही कभी अमूर्त कार्यों से निपटता है - ज्यादातर कुछ छोटी चीजों के साथ जिन्हें एक बड़े उत्पाद में डाला जा सकता है और इस पर पैसा कमाया जा सकता है।

    आधुनिक भाषा विज्ञान के प्रमुख कार्यों में से एक अर्थ वेब है, जब खोज केवल शब्दों के संयोग से नहीं, बल्कि अर्थ से की जाती है, और सभी साइटों को किसी भी तरह शब्दार्थ द्वारा चिह्नित किया जाता है। यह उपयोगी हो सकता है, उदाहरण के लिए, पुलिस या चिकित्सा रिपोर्टों के लिए जो हर दिन लिखी जाती हैं। आंतरिक कनेक्शन का विश्लेषण बहुत सारी आवश्यक जानकारी देता है, और इसे मैन्युअल रूप से पढ़ना और गिनना अविश्वसनीय रूप से लंबा है।

    संक्षेप में, हमारे पास एक हजार ग्रंथ हैं, हमें उन्हें ढेर में व्यवस्थित करने की आवश्यकता है, प्रत्येक पाठ को एक संरचना के रूप में प्रस्तुत करें और एक तालिका प्राप्त करें जिसके साथ आप पहले से ही काम कर सकते हैं। इसे प्रसंस्करण असंरचित जानकारी कहा जाता है। दूसरी ओर, कम्प्यूटेशनल भाषाविज्ञान उदाहरण के लिए, कृत्रिम ग्रंथों के निर्माण से संबंधित है। एक कंपनी है जो विषयों पर ग्रंथों को उत्पन्न करने के लिए एक तंत्र के साथ आई है जो एक व्यक्ति के बारे में लिखने से ऊब गया है: अचल संपत्ति की कीमतों में बदलाव, मौसम का पूर्वानुमान, फुटबॉल मैचों पर रिपोर्ट। किसी व्यक्ति के लिए इन ग्रंथों को ऑर्डर करना बहुत अधिक महंगा है, इसके अलावा, ऐसे विषयों पर कंप्यूटर ग्रंथ सुसंगत मानव भाषा में लिखे गए हैं।

    Yandex सक्रिय रूप से रूस में असंरचित जानकारी के लिए खोज के क्षेत्र में विकास में लगी हुई है, कास्परस्की लैब उन शोध समूहों को काम पर रख रही है जो मशीन लर्निंग का अध्ययन करते हैं। क्या बाजार में कोई व्यक्ति कम्प्यूटेशनल भाषा विज्ञान के क्षेत्र में कुछ नया करने की कोशिश कर रहा है?

    ** कम्प्यूटेशनल भाषाविज्ञान पर पुस्तकें: **

    डैनियल जुराफस्की, भाषण और भाषा प्रसंस्करण

    क्रिस्टोफर मैनिंग, प्रभाकर राघवन, हेनरिक श्ट्ज़े, "इंट्रोडक्शन टू इंफॉर्मेशन रिट्रीवल"

    याकोव टेस्टीलेट्स, "जनरल सिंटैक्स का परिचय"

    अधिकांश भाषाई विकास बड़ी कंपनियों की संपत्ति हैं, लगभग कुछ भी सार्वजनिक डोमेन में नहीं पाया जा सकता है। यह उद्योग के विकास में बाधा डालता है, हमारे पास एक मुक्त भाषाई बाजार, पैक किए गए समाधान नहीं हैं।

    इसके अलावा, पूर्ण सूचना संसाधनों की कमी है। रूसी भाषा के नेशनल कॉर्पस के रूप में ऐसी परियोजना है। यह दुनिया में सबसे अच्छे राष्ट्रीय कोर में से एक है, जो तेजी से विकसित हो रहा है और वैज्ञानिक और व्यावहारिक अनुसंधान के लिए अविश्वसनीय अवसर प्रदान करता है। यह अंतर जीव विज्ञान में भी उतना ही है जितना कि डीएनए अनुसंधान के पहले और बाद में।

    लेकिन कई संसाधन रूसी में मौजूद नहीं हैं। इसलिए, इस तरह के एक अद्भुत अंग्रेजी-भाषा संसाधन फ्रैमनेट के लिए कोई एनालॉग नहीं है - यह ऐसा वैचारिक नेटवर्क है जहां किसी विशेष शब्द के अन्य शब्दों के साथ सभी संभावित कनेक्शन औपचारिक रूप से प्रस्तुत किए जाते हैं। उदाहरण के लिए, शब्द "फ्लाई" है - जो उड़ सकता है, जहां, इस शब्द का उपयोग किस पूर्वसर्ग के साथ किया जाता है, यह किन शब्दों के साथ संयुक्त है, और इसी तरह। यह संसाधन भाषा को वास्तविक जीवन से जोड़ने में मदद करता है, अर्थात यह पता लगाने के लिए कि एक विशिष्ट शब्द आकृति विज्ञान और वाक्यविन्यास के स्तर पर कैसे व्यवहार करता है। यह बहुत उपयोगी है।

    Avicomp वर्तमान में संबंधित लेख खोजने के लिए एक प्लगइन विकसित कर रहा है। यही है, यदि आप किसी लेख में रुचि रखते हैं, तो आप जल्दी से साजिश के इतिहास को देख सकते हैं: जब विषय उत्पन्न हुआ, तो क्या लिखा गया था और जब इस समस्या में रुचि का चरम था। उदाहरण के लिए, इस प्लगइन का उपयोग करना, यह संभव होगा, सीरिया में घटनाओं पर एक लेख से शुरू होकर, बहुत जल्दी से यह देखने के लिए कि पिछले एक साल में वहां कैसे विकास हुआ है।

    मास्टर प्रोग्राम में सीखने की प्रक्रिया कैसे संरचित होगी?

    एचएसई में शिक्षा अलग-अलग मॉड्यूल में आयोजित की जाती है, जैसे कि पश्चिमी विश्वविद्यालयों में। छात्रों को छोटी टीमों, मिनी-स्टार्टअप में विभाजित किया जाएगा - अर्थात, अंत में, हमें कई तैयार परियोजनाएं प्राप्त करनी चाहिए। हम वास्तविक उत्पाद प्राप्त करना चाहते हैं जिसे हम बाद में लोगों के लिए खोलेंगे और उन्हें सार्वजनिक डोमेन में छोड़ देंगे।

    छात्रों की परियोजनाओं के प्रत्यक्ष प्रबंधकों के अलावा, हम उन्हें अपने संभावित नियोक्ताओं में से एक - "यैंडेक्स" से क्यूरेटर ढूंढना चाहते हैं, उदाहरण के लिए, जो इस खेल को भी खेलेंगे और छात्रों को कुछ सलाह देंगे।

    मुझे उम्मीद है कि विभिन्न क्षेत्रों के लोग मास्टर के कार्यक्रम में आएंगे: प्रोग्रामर, भाषाविद, समाजशास्त्री, बाजार। हमारे पास भाषा विज्ञान, गणित और प्रोग्रामिंग में कई अनुकूलन पाठ्यक्रम होंगे। फिर हमारे पास भाषा विज्ञान में दो गंभीर पाठ्यक्रम होंगे, और वे सबसे प्रासंगिक भाषाई सिद्धांतों से जुड़े होंगे, हम चाहते हैं कि हमारे स्नातक आधुनिक भाषाई लेखों को पढ़ने और समझने में सक्षम हों। गणित के साथ भी ऐसा ही है। हमारे पास "कम्प्यूटेशनल भाषाविज्ञान की गणितीय नींव" नामक एक कोर्स होगा, जो गणित के उन वर्गों को रेखांकित करेगा जिन पर आधुनिक कम्प्यूटेशनल भाषा विज्ञान आधारित है।

    एक मास्टर कार्यक्रम में दाखिला लेने के लिए, आपको भाषा में एक प्रवेश परीक्षा और एक पोर्टफोलियो प्रतियोगिता पास करने की आवश्यकता होती है।

    मुख्य पाठ्यक्रमों के अलावा, वैकल्पिक विषय रेखाएं होंगी। हमने कई चक्रों की योजना बनाई है - उनमें से दो विशिष्ट विषयों के गहन अध्ययन पर केंद्रित हैं, जिनमें शामिल हैं, उदाहरण के लिए, मशीन अनुवाद और कॉर्पस भाषाविज्ञान, और, इसके विपरीत , एक संबंधित क्षेत्रों से संबंधित है: जैसे कि, सोशल मीडिया, मशीन लर्निंग या डिजिटल मानविकी - एक कोर्स जो हमें आशा है कि अंग्रेजी में वितरित किया जाएगा।

    लेख की सामग्री

    कम्प्यूटर भाषा विज्ञान,अनुप्रयुक्त भाषाविज्ञान में दिशा, कंप्यूटर उपकरणों के उपयोग पर ध्यान केंद्रित - कार्यक्रम, डेटा को व्यवस्थित और संसाधित करने के लिए कंप्यूटर प्रौद्योगिकियां - कुछ शर्तों, स्थितियों, समस्या क्षेत्रों आदि में भाषा के कामकाज के मॉडलिंग के लिए, साथ ही साथ आवेदन के पूरे दायरे। भाषाविज्ञान और संबंधित विषयों में कंप्यूटर भाषा के मॉडल वास्तव में, यह केवल बाद के मामले में है कि हम कड़े अर्थों में लागू भाषाविज्ञान के बारे में बात कर रहे हैं, क्योंकि भाषा के कंप्यूटर मॉडलिंग को भाषा विज्ञान की समस्याओं को सुलझाने के लिए कंप्यूटर विज्ञान और प्रोग्रामिंग सिद्धांत के अनुप्रयोग के क्षेत्र के रूप में भी माना जा सकता है। । व्यवहार में, हालांकि, भाषा विज्ञान में कंप्यूटर के उपयोग से संबंधित लगभग सभी चीजें कम्प्यूटेशनल भाषा विज्ञान के रूप में संदर्भित की जाती हैं।

    कम्प्यूटेशनल भाषाविज्ञान ने 1960 के दशक में एक विशेष वैज्ञानिक दिशा के रूप में आकार लिया। रूसी शब्द "कम्प्यूटेशनल भाषाविज्ञान" अंग्रेजी कम्प्यूटेशनल भाषा विज्ञान का एक लक्षण है। चूंकि रूसी में विशेषण कम्प्यूटेशनल को "कम्प्यूटेशनल" के रूप में भी अनुवाद किया जा सकता है, इसलिए "कम्प्यूटेशनल भाषा विज्ञान" शब्द का साहित्य में भी सामना किया गया है, लेकिन घरेलू विज्ञान में यह "मात्रात्मक भाषा विज्ञान" की अवधारणा के निकट एक संकीर्ण अर्थ प्राप्त करता है। इस क्षेत्र में प्रकाशनों का प्रवाह बहुत बड़ा है। विषयगत संग्रहों के अलावा, "कम्प्यूटेशनल भाषाविज्ञान" पत्रिका संयुक्त राज्य अमेरिका में त्रैमासिक आधार पर प्रकाशित होती है। कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन द्वारा एक बड़ा संगठनात्मक और वैज्ञानिक कार्य किया जाता है, जिसमें क्षेत्रीय संरचनाएं (विशेष रूप से, यूरोपीय संगठन) हैं। कम्प्यूटेशनल भाषा विज्ञान पर अंतर्राष्ट्रीय सम्मेलन - हर दो साल में रंगाई आयोजित की जाती है। प्रासंगिक मुद्दों को आमतौर पर कृत्रिम बुद्धि पर विभिन्न सम्मेलनों में भी व्यापक रूप से प्रस्तुत किया जाता है।

    कम्प्यूटेशनल भाषाविज्ञान टूलकिट।

    एक विशेष रूप से लागू अनुशासन के रूप में कम्प्यूटेशनल भाषाविज्ञान मुख्य रूप से अपने साधन से प्रतिष्ठित है, अर्थात। भाषा डेटा को संसाधित करने के लिए कंप्यूटर उपकरणों के उपयोग पर। चूंकि कंप्यूटर प्रोग्राम जो किसी भाषा के कामकाज के कुछ पहलुओं का अनुकरण करते हैं, वे विभिन्न प्रकार के प्रोग्रामिंग टूल का उपयोग कर सकते हैं, ऐसा लगता है कि कम्प्यूटेशनल भाषाविज्ञान के सामान्य वैचारिक तंत्र के बारे में बात करने की कोई आवश्यकता नहीं है। हालाँकि, यह नहीं है। कंप्यूटर मॉडलिंग के सामान्य सिद्धांत हैं, जो किसी भी कंप्यूटर मॉडल में किसी भी तरह लागू होते हैं। वे ज्ञान के सिद्धांत पर आधारित हैं, जो मूल रूप से कृत्रिम बुद्धि के क्षेत्र में विकसित हुआ था, और बाद में संज्ञानात्मक विज्ञान की शाखाओं में से एक बन गया। कम्प्यूटेशनल भाषा विज्ञान में सबसे महत्वपूर्ण वैचारिक श्रेणियां ज्ञान की ऐसी संरचनाएं हैं जैसे "फ्रेम" (वैचारिक, या, जैसा कि वे कहते हैं, एक टाइप किए गए विषयगत एकीकृत स्थिति के बारे में ज्ञान के घोषणात्मक प्रतिनिधित्व के लिए वैचारिक संरचनाएं), "परिदृश्य" (के लिए वैचारिक संरचनाएं) एक रूढ़िवादी स्थिति या रूढ़िबद्ध व्यवहार के बारे में ज्ञान का प्रक्रियात्मक प्रतिनिधित्व), "योजना" (ज्ञान संरचनाएं जो एक निश्चित लक्ष्य की उपलब्धि के लिए संभावित कार्यों के बारे में विचारों को ठीक करती हैं)। फ्रेम श्रेणी से निकटता "दृश्य" की अवधारणा है। दृश्य श्रेणी का उपयोग मुख्य रूप से कम्प्यूटेशनल भाषाविज्ञान पर साहित्य में स्थितियों की घोषणात्मक प्रस्तुति के लिए वैचारिक संरचना के पदनाम के रूप में किया जाता है और उनके भागों को एक भाषण अधिनियम में वास्तविक रूप दिया जाता है और भाषाई साधनों (lexemes, वाक्य रचना, व्याकरणिक श्रेणियां, आदि) द्वारा हाइलाइट किया जाता है। ।

    एक निश्चित तरीके से आयोजित ज्ञान संरचनाओं का एक समूह, संज्ञानात्मक प्रणाली और उसके कंप्यूटर मॉडल का "दुनिया का मॉडल" बनाता है। कृत्रिम बुद्धिमत्ता प्रणालियों में, दुनिया का मॉडल एक विशेष ब्लॉक बनाता है, जो चुने हुए आर्किटेक्चर के आधार पर, दुनिया के बारे में सामान्य ज्ञान शामिल कर सकता है (सरल प्रस्तावों के रूप में जैसे "सर्दियों में ठंडा" या उत्पादन के रूप में। नियम "अगर बाहर बारिश हो रही है, तो आपको रेनकोट पहनना होगा या छाता लेना होगा"), कुछ विशिष्ट तथ्य ("दुनिया की सबसे ऊंची चोटी - एवरेस्ट"), साथ ही मूल्यों और उनके पदानुक्रम, कभी-कभी एक विशेष "एक्सियोलॉजिकल ब्लॉक" में अलग हो गया।

    कम्प्यूटेशनल भाषाविज्ञान के टूलकिट की अवधारणाओं के अधिकांश तत्व होमोसेक्सुअल हैं: वे एक साथ मानव संज्ञानात्मक प्रणाली के कुछ वास्तविक संस्थाओं और उनके सैद्धांतिक विवरण और मॉडलिंग में उपयोग की जाने वाली इन संस्थाओं का प्रतिनिधित्व करने के तरीकों को नामित करते हैं। दूसरे शब्दों में, कम्प्यूटेशनल भाषा विज्ञान के वैचारिक उपकरण के तत्वों में ऑन्कोलॉजिकल और इंस्ट्रूमेंटल पहलू हैं। उदाहरण के लिए, ऑन्कोलॉजिकल पहलू में, घोषणात्मक और प्रक्रियात्मक ज्ञान का पृथक्करण विभिन्न प्रकार के ज्ञान से मेल खाता है जो किसी व्यक्ति के पास है - WHAT का तथाकथित ज्ञान (घोषित; ऐसा उदाहरण के लिए, एक NN के डाक पते का ज्ञान है; ), एक तरफ, और एचओडब्ल्यू का ज्ञान (प्रक्रियात्मक; इस तरह है, उदाहरण के लिए, ज्ञान जो आपको इस एनएन के अपार्टमेंट को खोजने की अनुमति देता है, यहां तक \u200b\u200bकि इसके औपचारिक पते को जाने बिना भी) - दूसरे पर। वाद्य पहलू में, ज्ञान को एक विवरण (विवरण) के एक सेट में, एक डेटा सेट में, एक तरफ और एक एल्गोरिथ्म में, एक निर्देश है कि एक कंप्यूटर या एक संज्ञानात्मक प्रणाली के कुछ अन्य मॉडल पर सन्निहित किया जा सकता है, पर अन्य।

    कम्प्यूटेशनल भाषा विज्ञान की दिशाएं।

    सीएल का क्षेत्र बहुत विविध है और इसमें संचार के कंप्यूटर मॉडलिंग, एक भूखंड की संरचना का मॉडलिंग, पाठ प्रस्तुति, मशीन अनुवाद, कंप्यूटर लेक्सोग्राफी की हाइपरटेक्स्ट प्रौद्योगिकियों के क्षेत्र शामिल हैं। एक संकीर्ण अर्थ में, सीएल मुद्दे अक्सर कुछ हद तक दुर्भाग्यपूर्ण नाम "प्राकृतिक भाषा प्रसंस्करण" (अंग्रेजी शब्द प्राकृतिक भाषा प्रसंस्करण का अनुवाद) के साथ एक अंतःविषय लागू दिशा से जुड़े होते हैं। यह 1960 के दशक के अंत में उभरा और वैज्ञानिक और तकनीकी अनुशासन "कृत्रिम बुद्धिमत्ता" के ढांचे के भीतर विकसित हुआ। अपने आंतरिक रूप में, प्राकृतिक भाषा प्रसंस्करण उन सभी क्षेत्रों को समाहित करता है जिनमें कंप्यूटर का उपयोग भाषा डेटा को संसाधित करने के लिए किया जाता है। इस बीच, इस शब्द की एक संकीर्ण समझ व्यवहार में उलझ गई है - विधियों, प्रौद्योगिकियों और विशिष्ट प्रणालियों का विकास जो एक व्यक्ति या कंप्यूटर के बीच प्राकृतिक या सीमित प्राकृतिक भाषा में संचार सुनिश्चित करता है।

    1970 के दशक में "प्राकृतिक भाषा प्रसंस्करण" की दिशा में तेजी से विकास हुआ, जो कंप्यूटर के अंतिम उपयोगकर्ताओं की संख्या में अप्रत्याशित वृद्धि के साथ जुड़ा था। चूंकि सभी उपयोगकर्ताओं के लिए भाषा और प्रोग्रामिंग तकनीक सिखाना असंभव है, इसलिए समस्या कंप्यूटर प्रोग्राम के साथ बातचीत के आयोजन की पैदा हुई। इस संचार समस्या का समाधान दो मुख्य रास्तों के साथ हुआ। पहले मामले में, अंतिम उपयोगकर्ता के लिए प्रोग्रामिंग भाषाओं और ऑपरेटिंग सिस्टम को अनुकूलित करने का प्रयास किया गया था। नतीजतन, विजुअल बेसिक जैसी उच्च-स्तरीय भाषाएं दिखाई दीं, साथ ही साथ मनुष्यों से परिचित रूपकों के वैचारिक अंतरिक्ष में निर्मित सुविधाजनक ऑपरेटिंग सिस्टम - WRITING DESK, LIBRARY। दूसरा तरीका उन प्रणालियों का विकास है जो कंप्यूटर के साथ एक विशिष्ट समस्या क्षेत्र में प्राकृतिक भाषा में या इसके कुछ सीमित संस्करण में कंप्यूटर के साथ बातचीत करने की अनुमति देगा।

    प्राकृतिक भाषा प्रसंस्करण प्रणालियों की वास्तुकला में आम तौर पर उपयोगकर्ता के भाषण संदेश का विश्लेषण करने के लिए एक इकाई, एक संदेश की व्याख्या करने के लिए एक इकाई, प्रतिक्रिया की भावना पैदा करने के लिए एक इकाई और एक बयान की सतह संरचना का संश्लेषण करने के लिए एक इकाई शामिल है। प्रणाली का एक विशेष हिस्सा संवाद घटक है, जिसमें एक संवाद के संचालन की रणनीतियां, इन रणनीतियों को लागू करने की शर्तें, संभव संचार विफलताओं को दूर करने के तरीके (संचार प्रक्रिया में विफलताएं) शामिल हैं।

    प्राकृतिक भाषा प्रसंस्करण के लिए कंप्यूटर सिस्टम, प्रश्न-उत्तर प्रणाली, समस्याओं को सुलझाने के लिए संवाद प्रणाली और सुसंगत ग्रंथों के प्रसंस्करण के लिए सिस्टम आमतौर पर प्रतिष्ठित होते हैं। प्रारंभ में, सूचना-पुनर्प्राप्ति प्रणाली में जानकारी खोजते समय कोडिंग अनुरोधों की खराब गुणवत्ता की प्रतिक्रिया के रूप में प्रश्न-उत्तर प्रणालियां विकसित की जाने लगीं। चूंकि इस तरह के सिस्टम का समस्या क्षेत्र बहुत सीमित था, इसने कुछ हद तक एक औपचारिक भाषा में एक प्रतिनिधित्व में प्रश्नों का अनुवाद करने और एक प्राकृतिक भाषा में बयानों में एक औपचारिक प्रतिनिधित्व को बदलने के लिए व्युत्क्रम प्रक्रिया को सरल बनाया। घरेलू विकास के बीच, इस प्रकार के कार्यक्रमों में POET प्रणाली शामिल है, जो ई.वी. पोपोव के नेतृत्व में शोधकर्ताओं की एक टीम द्वारा बनाई गई है। सिस्टम रूसी में अनुरोधों को संसाधित करता है (कुछ प्रतिबंधों के साथ) और प्रतिक्रिया को संश्लेषित करता है। कार्यक्रम का ब्लॉक आरेख विश्लेषण के सभी चरणों (रूपात्मक, वाक्यात्मक और अर्थ) और संश्लेषण के संगत चरणों के पारित होने को मानता है।

    पिछले प्रकार की प्रणालियों के विपरीत संवाद समस्या निवारण प्रणाली, संचार में एक सक्रिय भूमिका निभाती है, क्योंकि उनका कार्य उस ज्ञान के आधार पर एक समस्या का समाधान प्राप्त करना है जो इसमें प्रस्तुत किया गया है और जो जानकारी उपयोगकर्ता से प्राप्त की जा सकती है। प्रणाली में ज्ञान संरचनाएं होती हैं जो किसी दिए गए समस्या क्षेत्र में समस्याओं को हल करने के लिए कार्यों के विशिष्ट अनुक्रमों को रिकॉर्ड करती हैं, साथ ही आवश्यक संसाधनों के बारे में जानकारी भी देती हैं। जब उपयोगकर्ता कोई प्रश्न पूछता है या कोई विशिष्ट कार्य करता है, तो संबंधित स्क्रिप्ट सक्रिय हो जाती है। यदि स्क्रिप्ट के कुछ घटक गायब हैं या कुछ संसाधन गायब हैं, तो सिस्टम संचार शुरू करता है। यह है, उदाहरण के लिए, SNUKA प्रणाली, जो सैन्य अभियानों की योजना बनाने की समस्याओं को हल करती है, काम करती है।

    जुड़े ग्रंथों के प्रसंस्करण के लिए सिस्टम संरचना में काफी विविध हैं। उनकी सामान्य विशेषता ज्ञान प्रतिनिधित्व प्रौद्योगिकियों का व्यापक उपयोग है। इस तरह की प्रणालियों के कार्य पाठ को समझना और उसकी सामग्री के बारे में सवालों के जवाब देना है। समझ को एक सार्वभौमिक श्रेणी के रूप में नहीं देखा जाता है, बल्कि एक पाठ से जानकारी निकालने की एक प्रक्रिया के रूप में, एक विशिष्ट संप्रेषणीय मंशा द्वारा निर्धारित किया जाता है। दूसरे शब्दों में, पाठ केवल उस सेटिंग के साथ "पढ़ा" जाता है जिसे संभावित उपयोगकर्ता इसके बारे में जानना चाहता है। इस प्रकार, जुड़े हुए ग्रंथों को संसाधित करने की प्रणालियाँ किसी भी तरह से सार्वभौमिक नहीं हैं, बल्कि समस्या-उन्मुख हैं। चर्चा के तहत प्रकार की प्रणालियों के विशिष्ट उदाहरण हैं, शोधकर्ता और टेलर सिस्टम, जो एक एकल सॉफ्टवेयर पैकेज बनाते हैं जो उपयोगकर्ता को जटिल भौतिक वस्तुओं का वर्णन करने वाले पेटेंट के सार से जानकारी प्राप्त करने की अनुमति देता है।

    कम्प्यूटेशनल भाषा विज्ञान का सबसे महत्वपूर्ण क्षेत्र सूचना पुनर्प्राप्ति प्रणाली (आईएसएस) का विकास है। उत्तरार्द्ध 1950 के अंत में उभरा - 1960 के दशक की शुरुआत में वैज्ञानिक और तकनीकी जानकारी की मात्रा में तेज वृद्धि की प्रतिक्रिया के रूप में। संग्रहीत और संसाधित जानकारी के प्रकार के साथ-साथ खोज की सुविधाओं द्वारा, आईआरएस को दो बड़े समूहों में विभाजित किया जाता है - दस्तावेजी और तथ्यात्मक। वृत्तचित्र ISS दस्तावेजों या उनके विवरण (सार, ग्रंथ सूची कार्ड, आदि) के ग्रंथों को संग्रहीत करता है। फैक्टोग्राफिक आईआरएस विशिष्ट तथ्यों के विवरण के साथ सौदा करते हैं, और जरूरी नहीं कि पाठ रूप में। ये टेबल, सूत्र और अन्य प्रकार की डेटा प्रस्तुति हो सकती हैं। मिश्रित आईआरएस भी हैं, जिसमें दस्तावेज़ और तथ्यात्मक जानकारी दोनों शामिल हैं। वर्तमान में, तथ्यात्मक आईआरएस डेटाबेस प्रौद्योगिकियों (डीबी) के आधार पर बनाया गया है। ISS में सूचना पुनर्प्राप्ति प्रदान करने के लिए, विशेष सूचना पुनर्प्राप्ति भाषाएँ बनाई जाती हैं, जो सूचना पुनर्प्राप्ति thesauri पर आधारित होती हैं। एक सूचना पुनर्प्राप्ति भाषा एक औपचारिक भाषा है जिसे आईएसएस में संग्रहीत दस्तावेजों की सामग्री योजना और क्वेरी में व्यक्तिगत पहलुओं का वर्णन करने के लिए डिज़ाइन किया गया है। किसी सूचना पुनर्प्राप्ति भाषा में एक दस्तावेज़ का वर्णन करने की प्रक्रिया को अनुक्रमण कहा जाता है। अनुक्रमण के परिणामस्वरूप, प्रत्येक दस्तावेज़ को सूचना पुनर्प्राप्ति भाषा - दस्तावेज़ की पुनर्प्राप्ति छवि - में इसका औपचारिक विवरण सौंपा जाता है। क्वेरी को उसी तरह अनुक्रमित किया जाता है, जिससे क्वेरी की खोज छवि और खोज नुस्खे को असाइन किया जाता है। सूचना पुनर्प्राप्ति एल्गोरिदम क्वेरी की खोज छवि के साथ खोज नुस्खे की तुलना करने पर आधारित है। किसी अनुरोध को दस्तावेज़ जारी करने की कसौटी दस्तावेज़ की खोज छवि और खोज पर्चे के पूर्ण या आंशिक संयोग में शामिल हो सकती है। कुछ मामलों में, उपयोगकर्ता के पास स्वयं जारी करने के मानदंड तैयार करने का अवसर होता है। यह उसकी सूचनात्मक आवश्यकताओं द्वारा निर्धारित किया जाता है। वर्णनात्मक सूचना पुनर्प्राप्ति भाषाएँ अधिक बार स्वचालित सूचना पुनर्प्राप्ति प्रणालियों में उपयोग की जाती हैं। दस्तावेज़ का विषय वर्णनकर्ताओं के एक सेट द्वारा वर्णित किया गया है। विवरणकर्ता शब्द हैं, समस्या क्षेत्र के सरल, बल्कि प्राथमिक श्रेणियों और अवधारणाओं को दर्शाते हुए शब्द हैं। दस्तावेज़ की खोज छवि में कई विवरणकर्ता दर्ज किए गए हैं क्योंकि दस्तावेज़ में विभिन्न विषय शामिल हैं। वर्णनकर्ताओं की संख्या सीमित नहीं है, जो आपको दस्तावेज़ को सुविधाओं के बहुआयामी मैट्रिक्स में वर्णन करने की अनुमति देता है। अक्सर एक डिस्क्रिप्टर सूचना पुनर्प्राप्ति भाषा में, डिस्क्रिप्टर की संगतता पर प्रतिबंध लगाए जाते हैं। इस मामले में, हम कह सकते हैं कि सूचना पुनर्प्राप्ति भाषा में एक वाक्यविन्यास है।

    एक वर्णनात्मक भाषा के साथ काम करने वाली पहली प्रणालियों में से एक अमेरिकी UNITERM प्रणाली थी, जिसे एम। ताबे द्वारा बनाया गया था। जैसा कि इस प्रणाली में वर्णनकर्ताओं ने दस्तावेज़ के प्रमुख शब्दों को काम किया - अनिथर्म। इस आईएसएस की ख़ासियत इस तथ्य में निहित है कि शुरू में सूचना भाषा का शब्दकोश निर्दिष्ट नहीं था, लेकिन दस्तावेज़ और क्वेरी को अनुक्रमित करने की प्रक्रिया में उत्पन्न हुआ। आधुनिक सूचना पुनर्प्राप्ति प्रणाली का विकास एक सार्स-मुक्त आईएसएस के विकास के साथ जुड़ा हुआ है। इस तरह के आईआरएस एक सीमित प्राकृतिक भाषा में उपयोगकर्ता के साथ काम करते हैं, और खोज दस्तावेजों के सार के ग्रंथों में, उनके ग्रंथ सूची विवरणों में और अक्सर दस्तावेजों में स्वयं किया जाता है। Saurus-free प्रकार के ISS में अनुक्रमण के लिए, एक प्राकृतिक भाषा के शब्दों और वाक्यांशों का उपयोग किया जाता है।

    कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र में, एक निश्चित सीमा तक, हाइपरटेक्स्ट सिस्टम बनाने के क्षेत्र में काम करने के लिए जिम्मेदार ठहराया जा सकता है, जिसे पाठ के आयोजन का एक विशेष तरीका माना जाता है और यहां तक \u200b\u200bकि मूल रूप से नए प्रकार के पाठ के रूप में, इसके कई गुणों में विरोध किया जाता है। टाइपोग्राफी की गुटेनबर्ग परंपरा में एक साधारण पाठ का गठन। हाइपरटेक्स्ट का विचार विज्ञान पर राष्ट्रपति रूजवेल्ट के सलाहकार वननेवर बुश के नाम से जुड़ा है। वी। बुश ने सैद्धांतिक रूप से तकनीकी प्रणाली "मेमेक्स" की परियोजना की पुष्टि की, जिसने उपयोगकर्ता को ग्रंथों और उनके टुकड़ों को विभिन्न प्रकार के लिंक, मुख्य रूप से साहचर्य संबंधों द्वारा लिंक करने की अनुमति दी। कंप्यूटर प्रौद्योगिकी की कमी ने परियोजना को लागू करना मुश्किल बना दिया, क्योंकि यांत्रिक प्रणाली व्यावहारिक कार्यान्वयन के लिए बहुत जटिल हो गई।

    1960 के दशक में बुश के विचार को टी। नेल्सन द्वारा Xanadu प्रणाली में पुनर्जन्म प्राप्त हुआ, जिसने पहले ही कंप्यूटर प्रौद्योगिकी का उपयोग मान लिया था। "Xanadu" ने उपयोगकर्ता को विभिन्न तरीकों से सिस्टम में दर्ज किए गए ग्रंथों के सेट को पढ़ने की अनुमति दी, अलग-अलग अनुक्रमों में, सॉफ्टवेयर ने देखे गए ग्रंथों के अनुक्रम को याद रखना और लगभग किसी भी समय उनका चयन करना संभव बना दिया। टी। नेल्सन द्वारा उन्हें (संक्रमण प्रणाली) जोड़ने वाले ग्रंथों के एक सेट को हाइपरटेक्स्ट कहा जाता था। कई शोधकर्ता टाइपोग्राफी के युग के विपरीत, एक नई सूचना युग की शुरुआत के रूप में हाइपरटेक्स्ट के निर्माण को देखते हैं। लेखन की रैखिकता, जो बाह्य रूप से भाषण की रैखिकता को दर्शाती है, एक मौलिक श्रेणी बन जाती है जो पाठ की मानवीय सोच और समझ को सीमित करती है। अर्थ की दुनिया nonlinear है, इसलिए, एक रैखिक भाषण खंड में सिमेंटिक जानकारी के संपीड़न के लिए विशेष "संचार पैकेजिंग" के उपयोग की आवश्यकता है - विषय और टक्कर में विभाजन, विवरण की सामग्री योजना को स्पष्ट (कथन, प्रस्ताव, फोकस में विभाजित करना) ) और निहित (पूर्व निर्धारित, परिणाम, प्रवचन का निहितार्थ) परतें ... पाठक को अपनी प्रस्तुति की प्रक्रिया में पाठ की रैखिकता की अस्वीकृति (अर्थात, पढ़ने और समझने के दौरान) और संश्लेषण की प्रक्रिया में, सिद्धांतकारों के अनुसार, सोच की "मुक्ति" और यहां तक \u200b\u200bकि उद्भव में योगदान देगा। इसके नए रूप।

    एक कंप्यूटर प्रणाली में, हाइपरटेक्स्ट को एक ग्राफ के रूप में दर्शाया जाता है, जिसके नोड्स में पारंपरिक ग्रंथ या उनके टुकड़े, चित्र, टेबल, वीडियो आदि होते हैं। नोड्स विभिन्न प्रकार के संबंधों से जुड़े होते हैं, जिनमें से प्रकार हाइपरटेक्स्ट सॉफ़्टवेयर डेवलपर्स या पाठक द्वारा स्वयं परिभाषित किए जाते हैं। रिश्ते आंदोलन, या हाइपरटेक्स्ट नेविगेशन की क्षमता को परिभाषित करते हैं। संबंध अप्रत्यक्ष या द्विदिश हो सकते हैं। तदनुसार, द्विदिश तीर एक दिशा में उपयोगकर्ता और दोनों दिशाओं में केवल एक दिशा में स्थानांतरित करने की अनुमति देते हैं। नोड्स की श्रृंखला जिसके माध्यम से पाठक गुजरता है जब पाठ के घटकों को देखते हुए एक मार्ग, या मार्ग बनता है।

    हाइपरटेक्स्ट के कंप्यूटर कार्यान्वयन पदानुक्रमित या नेटवर्क हैं। पदानुक्रमित - वृक्ष की तरह - हाइपरटेक्स्ट की संरचना इसके घटकों के बीच संक्रमण की संभावनाओं को काफी सीमित करती है। ऐसे हाइपरटेक्स्ट में, घटकों के बीच संबंध सामान्य संबंधों पर आधारित थिसॉरस की संरचना से मिलते जुलते हैं। नेटवर्क हाइपरटेक्स्ट आपको घटकों के बीच विभिन्न प्रकार के संबंधों का उपयोग करने की अनुमति देता है, न कि जीनस-प्रजाति संबंधों तक सीमित। हाइपरटेक्स्ट के अस्तित्व के तरीके के अनुसार, स्थिर और गतिशील हाइपरटेक्स्ट प्रतिष्ठित हैं। ऑपरेशन के दौरान स्थैतिक हाइपरटेक्स्ट नहीं बदलता है; इसमें उपयोगकर्ता अपनी टिप्पणी दर्ज कर सकता है, लेकिन वे मामले का सार नहीं बदलते हैं। गतिशील हाइपरटेक्स्ट के लिए, परिवर्तन अस्तित्व का एक सामान्य रूप है। आमतौर पर, गतिशील हाइपरटेक्स्ट फ़ंक्शन जहां सूचना के प्रवाह का लगातार विश्लेषण करना आवश्यक है, अर्थात। विभिन्न प्रकार की सूचना सेवाओं में। उदाहरण के लिए, हाइपरटेक्स्ट, एरिज़ोना सूचना प्रणाली (AAIS) है, जिसे प्रति माह 300-500 सार द्वारा मासिक रूप से अपडेट किया जाता है।

    हाइपरटेक्स्ट के तत्वों के बीच संबंध शुरू में रचनाकारों द्वारा तय किए जा सकते हैं, या जब भी उपयोगकर्ता हाइपरटेक्स्ट में बदल जाता है, तो उन्हें उत्पन्न किया जा सकता है। पहले मामले में, हम एक कठोर संरचना के हाइपरटेक्ट्स के बारे में बात कर रहे हैं, और दूसरे में, एक नरम संरचना के हाइपरटेक्ट्स के बारे में। कठोर संरचना तकनीकी रूप से काफी समझने योग्य है। एक नरम संरचना के आयोजन की तकनीक दस्तावेजों की निकटता (या सूचना के अन्य स्रोतों) के एक अर्थ विश्लेषण पर आधारित होनी चाहिए। यह कम्प्यूटेशनल भाषा विज्ञान में एक गैर-तुच्छ कार्य है। आजकल, खोजशब्दों पर नरम संरचना प्रौद्योगिकियों का उपयोग व्यापक है। हाइपरटेक्स्ट नेटवर्क में एक नोड से दूसरे नोड में संक्रमण कीवर्ड की खोज के परिणामस्वरूप किया जाता है। चूंकि हर बार कीवर्ड का सेट अलग हो सकता है, इसलिए हर बार हाइपरटेक्स्ट की संरचना भी बदलती है।

    हाइपरटेक्स्ट सिस्टम के निर्माण की तकनीक पाठ और गैर-पाठ जानकारी के बीच अंतर नहीं करती है। इस बीच, दृश्य और ऑडियो जानकारी (वीडियो, पेंटिंग, फोटोग्राफ, साउंड रिकॉर्डिंग, आदि) को शामिल करने के लिए उपयोगकर्ता इंटरफ़ेस और अधिक शक्तिशाली सॉफ़्टवेयर और कंप्यूटर समर्थन में महत्वपूर्ण बदलाव की आवश्यकता होती है। ऐसी प्रणालियों को हाइपरमीडिया, या मल्टीमीडिया कहा जाता है। मल्टीमीडिया सिस्टम की दृश्यता ने विश्वकोश के कंप्यूटर संस्करणों के निर्माण में, शिक्षण में उनके व्यापक उपयोग को पूर्व निर्धारित किया। उदाहरण के लिए, डोरलिन किंडरस पब्लिशिंग हाउस के बच्चों के विश्वकोश के आधार पर मल्टीमीडिया सिस्टम के साथ पूरी तरह से निष्पादित सीडी-रोम हैं।

    कंप्यूटर लेक्सोग्राफी के ढांचे के भीतर, शब्दकोशों के संकलन और संचालन के लिए कंप्यूटर तकनीक विकसित की जा रही है। विशेष कार्यक्रम - डेटाबेस, कंप्यूटर फाइलिंग कैबिनेट, वर्ड प्रोसेसिंग प्रोग्राम - आपको शब्दकोश प्रविष्टियों को स्वचालित रूप से बनाने, शब्दकोश की जानकारी संग्रहीत करने और इसे संसाधित करने की अनुमति देते हैं। कई अलग-अलग कंप्यूटर लेक्सोग्राफ़िक प्रोग्राम को दो बड़े समूहों में विभाजित किया गया है: लेक्सिकोग्राफ़िक कार्यों का समर्थन करने के लिए प्रोग्राम और लेक्सिकोग्राफ़िक डेटाबेस सहित विभिन्न प्रकार के स्वचालित शब्दकोश। एक स्वचालित शब्दकोश एक विशेष मशीन प्रारूप में एक शब्दकोश है जिसका उपयोग उपयोगकर्ता या कंप्यूटर शब्द संसाधन प्रोग्राम द्वारा कंप्यूटर पर उपयोग करने के लिए किया जाता है। दूसरे शब्दों में, शब्द प्रसंस्करण कार्यक्रमों के लिए स्वचालित मानव अंत-उपयोगकर्ता शब्दकोशों और स्वचालित शब्दकोशों के बीच एक अंतर किया जाता है। अंत उपयोगकर्ता के लिए इच्छित स्वचालित शब्दकोश मशीन अनुवाद सिस्टम, स्वचालित सारांश प्रणाली, सूचना पुनर्प्राप्ति, आदि में शामिल स्वचालित शब्दकोशों से शब्दकोश प्रविष्टि के इंटरफ़ेस और संरचना के संदर्भ में काफी भिन्न होते हैं। अक्सर वे प्रसिद्ध पारंपरिक शब्दकोशों के कंप्यूटर संस्करण होते हैं। सॉफ्टवेयर मार्केट में अंग्रेजी व्याख्यात्मक शब्दकोशों (कंप्यूटर वेबस्टर, स्वचालित रूप से अंग्रेजी व्याख्यात्मक शब्दकोश, कोलिन्स पब्लिशिंग हाउस द्वारा ऑटोमैटिक इंग्लिश डिस्क्लेमर डिक्शनरी, यू डी। एस्प्रेसन और ईएम मेडनिकोवा द्वारा संपादित न्यू लार्ज इंग्लिश-रूसी डिक्शनरी का स्वचालित संस्करण) हैं। Ozhegov के शब्दकोश का एक कंप्यूटर संस्करण। शब्द प्रसंस्करण कार्यक्रमों के लिए स्वचालित शब्दकोशों को सटीक अर्थों में स्वचालित शब्दकोश कहा जा सकता है। वे आमतौर पर औसत उपयोगकर्ता के लिए नहीं होते हैं। उनकी संरचना की ख़ासियत, शब्दावली सामग्री का दायरा उन कार्यक्रमों से निर्धारित होता है जो उनके साथ बातचीत करते हैं।

    प्लॉट संरचना का कंप्यूटर मॉडलिंग कम्प्यूटेशनल भाषा विज्ञान में एक और आशाजनक दिशा है। कथानक की संरचना का अध्ययन संरचनात्मक साहित्यिक आलोचना (व्यापक अर्थों में), कॉमोटिक्स और सांस्कृतिक अध्ययन की समस्याओं को संदर्भित करता है। प्लॉट मॉडलिंग के लिए उपलब्ध कंप्यूटर प्रोग्राम प्लॉट प्रस्तुति के तीन मूल औपचारिकताओं पर आधारित होते हैं - प्लॉट प्रस्तुति के रूपात्मक और वाक्य निर्देश, साथ ही संज्ञानात्मक दृष्टिकोण। प्लॉट संरचना की रूपात्मक संरचना के बारे में विचार वी। प्रॉप के प्रसिद्ध कार्यों पर वापस जाते हैं। सेमी।) एक रूसी परी कथा के बारे में। प्रॉप ने देखा कि एक परी कथा में पात्रों और घटनाओं की प्रचुरता के साथ, पात्रों के कार्यों की संख्या सीमित है, और उन्होंने इन कार्यों का वर्णन करने के लिए एक उपकरण का प्रस्ताव रखा। प्रॉप के विचारों ने टेल कंप्यूटर प्रोग्राम के आधार का गठन किया, जो एक परी कथा के निर्माण का अनुकरण करता है। टेल कार्यक्रम एल्गोरिथ्म परियों की कहानी पात्रों के कार्यों के अनुक्रम पर आधारित है। वास्तव में, प्रॉप के कार्यों ने अनुभवजन्य सामग्री के विश्लेषण के आधार पर, कई टाइप की हुई स्थितियों को निर्धारित किया। पीढ़ी के नियमों में विभिन्न स्थितियों के संघनन की संभावनाएं कार्यों के एक विशिष्ट अनुक्रम द्वारा निर्धारित की गईं - जिस रूप में इसे परियों की कहानियों के ग्रंथों से स्थापित किया जा सकता है। कार्यक्रम में, कार्यों के विशिष्ट दृश्यों को चरित्र मुठभेड़ों के विशिष्ट परिदृश्यों के रूप में वर्णित किया गया था।

    पाठ के कथानक के लिए वाक्यात्मक दृष्टिकोण का सैद्धांतिक आधार "कथानक व्याकरण", या "कहानी व्याकरण" द्वारा बनाया गया था। वे 1970 के दशक के मध्य में टेक्स्ट के मैक्रोस्ट्रक्चर के विवरण में एन। चॉम्स्की के जेनेरिक व्याकरण के विचारों के हस्तांतरण के परिणामस्वरूप दिखाई दिए। यदि जननिक व्याकरण में वाक्य रचना का सबसे महत्वपूर्ण घटक क्रिया और संज्ञा वाक्यांश थे, तो अधिकांश कथानक में व्याकरण, सेटिंग, ईवेंट और एपिसोड को मूल के रूप में गाया जाता था। प्लॉट व्याकरण के सिद्धांत में, न्यूनतमता की शर्तें, अर्थात, प्रतिबंधों ने सामान्य प्लॉट के रूप में प्लॉट तत्वों के अनुक्रम की स्थिति निर्धारित की, व्यापक रूप से चर्चा की गई। हालांकि, यह पता चला है कि विशुद्ध रूप से भाषाई तरीकों का उपयोग करके ऐसा करना असंभव था। कई प्रतिबंध प्रकृति में sociocultural हैं। प्लॉट व्याकरण, पीढ़ी के पेड़ में श्रेणियों के सेट में काफी भिन्नता, कथा (कथा) संरचना को संशोधित करने के लिए नियमों के बहुत सीमित सेट की अनुमति देता है।

    1980 के दशक के प्रारंभ में, आर। शेंक के छात्रों में से एक, डब्ल्यू लेहर्ट, एक कंप्यूटर प्लॉट जनरेटर के निर्माण के काम के हिस्से के रूप में, भावनात्मक कथानक इकाइयों (एफ़ेक्टिव प्लॉट यूनिट्स) की मूल औपचारिकता का प्रस्ताव रखा, जो निकला। प्लॉट संरचना का प्रतिनिधित्व करने के शक्तिशाली साधन। यद्यपि यह मूल रूप से एक कृत्रिम बुद्धि प्रणाली के लिए विकसित किया गया था, इस औपचारिकता का उपयोग विशुद्ध रूप से सैद्धांतिक अध्ययनों में किया गया है। लेहर्ट के दृष्टिकोण का सार यह था कि कथानक को पात्रों के संज्ञानात्मक-भावनात्मक अवस्थाओं में क्रमिक परिवर्तन के रूप में वर्णित किया गया था। इस प्रकार, लेहेंर्ट की औपचारिकता का ध्यान प्लॉट के बाहरी घटक नहीं हैं - प्रदर्शनी, घटना, प्रकरण, नैतिकता - लेकिन इसकी सामग्री विशेषताओं। इस संबंध में, लेहर्ट की औपचारिकता आंशिक रूप से प्रॉप के विचारों की वापसी है।

    कम्प्यूटेशनल भाषा विज्ञान की क्षमता में मशीन अनुवाद भी शामिल है, जो वर्तमान में पुनर्जन्म का अनुभव कर रहा है।

    साहित्य:

    पोपोव ई.वी. प्राकृतिक भाषा में कंप्यूटर के साथ संचार... एम।, 1982
    सदुर वी.जी. इलेक्ट्रॉनिक कंप्यूटर और उनके विकास की समस्याओं के साथ भाषण संचार... - पुस्तक में: भाषण संचार: समस्याएं और संभावनाएं। एम।, 1983
    बारानोव ए.एन. भाषाई शब्दार्थ में कृत्रिम बुद्धिमत्ता की श्रेणियाँ। फ्रेम्स और स्क्रिप्ट... एम।, 1987
    कोबेज़ेवा I.M., लॉफ़र N.I., सबुरवा I.G. मानव-मशीन प्रणालियों में मॉडलिंग संचार... - सूचना प्रणाली का भाषाई समर्थन। एम।, 1987
    ओल्कर एच.आर. परियों की कहानियां, त्रासदियों और विश्व इतिहास को प्रस्तुत करने के तरीके... - पुस्तक में: सामाजिक संपर्क की भाषा और मॉडलिंग। एम।, 1987
    गोरोडेत्स्की बी.यू. कम्प्यूटेशनल भाषाविज्ञान: मॉडलिंग भाषा संचार
    मैकक्वीन के। प्राकृतिक भाषा पाठ संश्लेषण के लिए विवेकपूर्ण रणनीतियाँ... - विदेशी भाषाविज्ञान में नया। समस्या XXIV, कम्प्यूटेशनल भाषाविज्ञान। एम।, 1989
    पोपोव ई.वी., प्रोब्राझेंस्की ए.बी. . एनएल-सिस्टम के कार्यान्वयन की विशेषताएं
    प्रोब्राझेंस्की ए.बी. आधुनिक एनएल-सिस्टम के विकास की स्थिति... - कृत्रिम होशियारी। पुस्तक। 1, संचार प्रणाली और विशेषज्ञ प्रणाली। एम।, 1990
    एम। एम। सुब्बोटिन हाइपरटेक्स्ट। लिखित संचार का एक नया रूप... - विनीत, सेर। सूचना विज्ञान, 1994, खंड 18
    बारानोव ए.एन. अनुप्रयुक्त भाषाविज्ञान का परिचय... एम।, 2000

    

    कंप्यूटर भाषाविज्ञान (अंग्रेजी कम्प्यूटेशनल भाषा विज्ञान से ट्रेसिंग पेपर), अनुप्रयुक्त भाषाविज्ञान के क्षेत्रों में से एक है, जिसमें भाषा के अध्ययन और कुछ स्थितियों, स्थितियों और समस्या क्षेत्रों में भाषा के कामकाज को मॉडलिंग करने के लिए, कंप्यूटर प्रोग्राम विकसित और उपयोग किए जाते हैं, डेटा को व्यवस्थित और संसाधित करने के लिए कंप्यूटर प्रौद्योगिकियाँ। दूसरी ओर, यह भाषा विज्ञान और संबंधित विषयों में कंप्यूटर भाषा के मॉडल के आवेदन का क्षेत्र है। 1960 के दशक में यूरोपीय अध्ययन में एक विशेष वैज्ञानिक दिशा के रूप में कम्प्यूटेशनल भाषा विज्ञान ने आकार लिया। चूंकि अंग्रेजी विशेषण कम्प्यूटेशनल का अनुवाद "कम्प्यूटेशनल" के रूप में भी किया जा सकता है, इसलिए "कम्प्यूटेशनल भाषा विज्ञान" शब्द को साहित्य में भी पाया जाता है, लेकिन घरेलू विज्ञान में यह "मात्रात्मक भाषाविज्ञान" की अवधारणा के निकट एक संकीर्ण अर्थ प्राप्त करता है।

    अक्सर "मात्रात्मक भाषाविज्ञान" शब्द को कम्प्यूटेशनल भाषा विज्ञान के रूप में संदर्भित किया जाता है, जो कि अनुप्रयुक्त अनुसंधान में एक अंतःविषय दिशा की विशेषता है, जहां भाषा और भाषण सीखने के लिए विश्लेषण के मात्रात्मक या सांख्यिकीय तरीकों को मुख्य उपकरण के रूप में उपयोग किया जाता है। कभी-कभी मात्रात्मक (या मात्रात्मक) भाषाविज्ञान को कॉम्बिनेटरियल भाषाविज्ञान के साथ विपरीत होता है। उत्तरार्द्ध में, प्रमुख भूमिका "गैर-मात्रात्मक" गणितीय उपकरण द्वारा निभाई जाती है - सेट सिद्धांत, गणितीय तर्क, एल्गोरिदम का सिद्धांत आदि। सैद्धांतिक दृष्टिकोण से, भाषा विज्ञान में सांख्यिकीय विधियों का उपयोग हमें पूरक करने की अनुमति देता है। एक संभाव्य घटक के साथ एक भाषा का संरचनात्मक मॉडल, अर्थात्, एक सैद्धांतिक संरचनात्मक-संभाव्य महत्वपूर्ण व्याख्यात्मक क्षमता वाला मॉडल बनाते हैं। लागू क्षेत्र में, मात्रात्मक भाषाविज्ञान का प्रतिनिधित्व किया जाता है, सबसे पहले, भाषा के कामकाज की भाषाई निगरानी के लिए उपयोग किए जाने वाले इस मॉडल के टुकड़ों का उपयोग, एन्कोडेड पाठ का डिक्रिप्शन, प्राधिकरण / पाठ का अटेंशन, आदि।

    शब्द "कम्प्यूटेशनल भाषाविज्ञान" और इस दिशा की समस्याएं अक्सर संचार के मॉडलिंग से जुड़ी होती हैं, और सबसे पहले, प्राकृतिक या सीमित प्राकृतिक भाषा में मानव-कंप्यूटर संपर्क के प्रावधान के साथ (इस उद्देश्य के लिए, विशेष प्राकृतिक भाषा) प्रोसेसिंग सिस्टम बनाए जाते हैं), साथ ही सूचना प्रौद्योगिकी के सिद्धांत और अभ्यास के साथ। सर्च इंजन (आईएसएस)। एक व्यक्ति और एक कंप्यूटर के बीच एक प्राकृतिक भाषा में संचार का प्रावधान कभी-कभी "प्राकृतिक भाषा प्रसंस्करण" (प्राकृतिक भाषा प्रसंस्करण के अंग्रेजी से अनुवाद) शब्द से दर्शाया जाता है। कम्प्यूटेशनल भाषा विज्ञान की यह दिशा 1960 के दशक के उत्तरार्ध में विदेशों में उभरी और वैज्ञानिक और तकनीकी अनुशासन के ढांचे के भीतर विकसित हुई जिसे कृत्रिम बुद्धिमत्ता (आर। शेंक, एम। लेबोइट्ज़, टी। विनोग्राद, आदि द्वारा काम किया जाता है) कहा जाता है। इसके अर्थ में, "प्राकृतिक भाषा प्रसंस्करण" वाक्यांश को उन सभी क्षेत्रों को कवर करना चाहिए जिसमें कंप्यूटर का उपयोग भाषा डेटा को संसाधित करने के लिए किया जाता है। व्यवहार में, हालाँकि, इस शब्द की एक संकीर्ण समझ और भी उलझ गई है - विधियों, प्रौद्योगिकियों और विशिष्ट प्रणालियों का विकास जो एक व्यक्ति या कंप्यूटर के बीच प्राकृतिक या सीमित प्राकृतिक भाषा में संचार सुनिश्चित करते हैं।

    एक निश्चित सीमा तक, कम्प्यूटेशनल भाषाविज्ञान में हाइपरटेक्स्ट सिस्टम बनाने के क्षेत्र में काम शामिल हो सकता है, जिसे पाठ के आयोजन का एक विशेष तरीका माना जाता है और यहां तक \u200b\u200bकि मूल रूप से नए प्रकार के पाठ के रूप में, गुटेनबर्ग में गठित एक साधारण पाठ में इसके कई गुणों का विरोध किया जाता है। टाइपोग्राफी की परंपरा (गुटेनबर्ग देखें)।

    स्वचालित अनुवाद भी कम्प्यूटेशनल भाषा विज्ञान की क्षमता के भीतर आता है।

    कम्प्यूटेशनल भाषाविज्ञान के ढांचे के भीतर, एक अपेक्षाकृत नई दिशा, जो कि 1980 और 90 के दशक से सक्रिय रूप से विकसित हो रही है, भी उभरी है - कॉर्पस भाषाविज्ञान, जहां भाषाई डेटा कॉर्पस (विशेष रूप से, टेक्स्ट कॉर्पस) के निर्माण के लिए सामान्य सिद्धांत आधुनिक कंप्यूटर का उपयोग करके विकसित किए गए हैं प्रौद्योगिकियों। टेक्स्ट कॉर्पोरा पुस्तकों, पत्रिकाओं, समाचार पत्रों आदि से विशेष रूप से चयनित ग्रंथों का संग्रह है, जो मशीन मीडिया में स्थानांतरित किया जाता है और स्वचालित प्रसंस्करण के लिए अभिप्रेत है। ग्रंथों के पहले कॉर्पस में से एक को डब्ल्यू। फ्रांसिस के निर्देशन में 1962-63 में ब्राउन यूनिवर्सिटी (तथाकथित ब्राउन कॉर्पस) में अमेरिकी अंग्रेजी के लिए बनाया गया था। रूस में, 2000 के दशक की शुरुआत से, रूसी एकेडमी ऑफ साइंसेस के रूसी भाषा का विनोग्रादोव संस्थान रूसी भाषा के राष्ट्रीय कॉर्पस को विकसित कर रहा है, जिसमें लगभग 100 मिलियन टोकन की मात्रा के साथ रूसी भाषा के ग्रंथों के प्रतिनिधि नमूने शामिल हैं। । डेटा कॉर्पस के वास्तविक डिज़ाइन के अलावा, कॉर्पस भाषाविज्ञान कंप्यूटर उपकरण (कंप्यूटर प्रोग्राम) के निर्माण में लगा हुआ है, जिसे टेक्स्ट कॉर्पोरा से कई तरह की जानकारी निकालने के लिए डिज़ाइन किया गया है। उपयोगकर्ता के दृष्टिकोण से, पाठ कॉर्पोरेट पर अभ्यावेदन (प्रतिनिधित्व), पूर्णता और अर्थव्यवस्था की आवश्यकताओं को लगाया जाता है।

    कम्प्यूटेशनल भाषा विज्ञान रूस और विदेश दोनों में सक्रिय रूप से विकसित हो रहा है। इस क्षेत्र में प्रकाशनों का प्रवाह बहुत बड़ा है। विषयगत संग्रहों के अलावा, 1984 के बाद से संयुक्त राज्य अमेरिका में "कम्प्यूटेशनल भाषाविज्ञान" पत्रिका त्रैमासिक आधार पर प्रकाशित हुई है। एसोसिएशन फॉर कम्प्यूटेशनल भाषाविज्ञान द्वारा एक बड़ा संगठनात्मक और वैज्ञानिक कार्य किया जाता है, जिसमें दुनिया भर में क्षेत्रीय संरचनाएं (विशेष रूप से, यूरोपीय शाखा) हैं। हर दो साल में अंतर्राष्ट्रीय सम्मेलन COLINT आयोजित होते हैं (2008 में सम्मेलन मैनचेस्टर में आयोजित किया गया था)। कम्प्यूटेशनल भाषा विज्ञान की मुख्य दिशाओं पर भी चर्चा की जाती है वार्षिक अंतर्राष्ट्रीय सम्मेलन "संवाद", रूसी रिसर्च इंस्टीट्यूट ऑफ आर्टिफिशियल इंटेलिजेंस, मॉस्को स्टेट यूनिवर्सिटी के दर्शनशास्त्र के संकाय, यांडेक्स और कई अन्य संगठनों द्वारा आयोजित किया जाता है। प्रासंगिक मुद्दों को विभिन्न स्तरों पर कृत्रिम बुद्धिमत्ता पर अंतर्राष्ट्रीय सम्मेलनों में भी व्यापक रूप से दर्शाया जाता है।

    लिट ।: Zvegintsev वी.ए. सैद्धांतिक और अनुप्रयुक्त भाषाविज्ञान। एम।, 1968; पिओत्रोव्स्की आर.जी., बेकटायेव केबी, पिओत्रोव्स्काया ए.ए. गणितीय भाषाविज्ञान। एम।, 1977; गोरोडेत्स्की बी यू। लागू भाषा विज्ञान की वास्तविक समस्याएं // विदेशी भाषाविज्ञान में नया। एम।, 1983. मुद्दा। 12; Kibrik A.E. एप्लाइड भाषाविज्ञान एम।, 1992; कैनेडी जी। कॉर्पस भाषाविज्ञान का परिचय। एल।, 1998; Bolshakov I.A., गेल्बुख ए। कम्प्यूटेशनल भाषाविज्ञान: मॉडल, संसाधन, अनुप्रयोग। फर।, 2004; रूसी भाषा का राष्ट्रीय कोष: 2003-2005। एम।, 2005; बरानोव ए.एन. परिचय अनुप्रयुक्त भाषाविज्ञान के लिए। तीसरा संस्करण। एम।, 2007; कम्प्यूटेशनल भाषा विज्ञान और बुद्धिमान प्रौद्योगिकियों। एम।, 2008. मुद्दा। ।।