एचएसई में कम्प्यूटेशनल भाषाविज्ञान: नए मास्टर कार्यक्रम पर अनास्तासिया बोंच-ओस्मोलोव्स्काया। इलेक्ट्रॉनिक रूप में पाठ्य सूचना की मात्रा में तेजी से वृद्धि। भाषण का विश्लेषण और संश्लेषण

21.09.2019

भाषाविज्ञान सांख्यिकीय भाषाविज्ञान प्रोग्रामेटिक

कम्प्यूटेशनल भाषाविज्ञान के विकास का इतिहास

प्राकृतिक भाषा के विज्ञान के रूप में आधुनिक भाषाविज्ञान के गठन और गठन की प्रक्रिया भाषाई ज्ञान का एक लंबा ऐतिहासिक विकास है। भाषाई ज्ञान उन तत्वों पर आधारित है, जिनका गठन गतिविधि की प्रक्रिया में हुआ, मौखिक भाषण की संरचना के विकास, उद्भव, आगे के विकास और लेखन के सुधार, शिक्षण लेखन, साथ ही व्याख्या के साथ जुड़ा हुआ है। और ग्रंथों का डिकोडिंग।

भाषाविज्ञान की वस्तु के रूप में प्राकृतिक भाषा इस विज्ञान के केंद्र में है। भाषा के विकास की प्रक्रिया में, इसके बारे में विचार भी बदल गए। यदि पहले भाषा के आंतरिक संगठन को कोई विशेष महत्व नहीं दिया जाता था, और यह माना जाता था, सबसे पहले, बाहरी दुनिया के साथ अंतर्संबंध के संदर्भ में, तो, 19 वीं सदी के अंत से - 20 वीं शताब्दी की शुरुआत में, एक विशेष भूमिका थी भाषा की आंतरिक औपचारिक संरचना को सौंपा। इस अवधि के दौरान प्रसिद्ध स्विस भाषाविद् फर्डिनेंड डी सौसुरे ने अर्धविज्ञान और संरचनात्मक भाषाविज्ञान जैसे विज्ञानों की नींव विकसित की, और उनकी पुस्तक "कोर्स इन जनरल लिंग्विस्टिक्स" (1 9 16) में विस्तृत हैं।

वैज्ञानिक भाषा को एक एकल तंत्र, संकेतों की एक अभिन्न प्रणाली के रूप में मानने के विचार के साथ आए, जो बदले में गणितीय रूप से भाषा का वर्णन करना संभव बनाता है। भाषा के लिए एक संरचनात्मक दृष्टिकोण का प्रस्ताव करने वाले पहले सॉसर थे, अर्थात्: किसी भाषा का वर्णन उसकी इकाइयों के बीच संबंधों का अध्ययन करके। इकाइयों, या "संकेतों" से, उन्होंने एक ऐसे शब्द को समझा जो अर्थ और ध्वनि दोनों को जोड़ता है। स्विस वैज्ञानिक द्वारा प्रस्तावित अवधारणा संकेतों की एक प्रणाली के रूप में भाषा के सिद्धांत पर आधारित है, जिसमें तीन भाग होते हैं: भाषा (फ्रेंच भाषा से), भाषण (फ्रेंच पैरोल से) और भाषण गतिविधि (फ्रेंच लैंगेज से)।

वैज्ञानिक ने स्वयं अपने द्वारा बनाए गए अर्ध-विज्ञान के विज्ञान को "वह विज्ञान जो समाज के जीवन के ढांचे के भीतर संकेतों के जीवन का अध्ययन करता है" के रूप में परिभाषित किया। चूंकि भाषा एक संकेत प्रणाली है, इस सवाल के जवाब की तलाश में कि अन्य विज्ञानों के बीच भाषाविज्ञान किस स्थान पर है, सॉसर ने तर्क दिया कि भाषाविज्ञान अर्धविज्ञान का एक हिस्सा है। यह आम तौर पर स्वीकार किया जाता है कि यह स्विस भाषाविद् थे जिन्होंने भाषाविज्ञान में एक नई दिशा के लिए सैद्धांतिक नींव रखी, जो आधुनिक भाषाविज्ञान के "पिता" के संस्थापक बन गए।

एफ। डी सौसुरे द्वारा सामने रखी गई अवधारणा को कई प्रमुख वैज्ञानिकों के कार्यों में आगे विकसित किया गया था: डेनमार्क में - एल। एल्म्सलेव, चेक गणराज्य में - एन। ट्रुबेट्सकोय, यूएसए में - एल। ब्लूमफील्ड, 3. हैरिस, एन। चोम्स्की। जहां तक ​​हमारे देश का संबंध है, यहां संरचनात्मक भाषाविज्ञान ने अपना विकास लगभग उसी समयावधि में शुरू किया था जैसा कि पश्चिम में, 19वीं और 20वीं शताब्दी के मोड़ पर हुआ था। - एफ। फोर्टुनाटोव और आई। बॉडॉइन डी कर्टेने के कार्यों में। यह ध्यान दिया जाना चाहिए कि I. Baudouin de Courtenay ने F. de Saussure के साथ मिलकर काम किया। यदि सौसुरे ने संरचनात्मक भाषाविज्ञान की सैद्धांतिक नींव रखी, तो बॉडॉइन डी कर्टेने को वह व्यक्ति माना जा सकता है जिसने स्विस वैज्ञानिक द्वारा प्रस्तावित विधियों के व्यावहारिक अनुप्रयोग की नींव रखी। यह वह था जिसने भाषाविज्ञान को एक विज्ञान के रूप में परिभाषित किया जो सांख्यिकीय विधियों और कार्यात्मक निर्भरता का उपयोग करता है, और इसे भाषाविज्ञान से अलग करता है। भाषाविज्ञान में गणितीय विधियों के अनुप्रयोग में पहला अनुभव ध्वनिविज्ञान था - एक भाषा की ध्वनियों की संरचना का विज्ञान।

यह ध्यान दिया जाना चाहिए कि एफ। डी सौसुरे द्वारा सामने रखी गई अवधारणाएं भाषाविज्ञान की समस्याओं में परिलक्षित होती थीं जो 20 वीं शताब्दी के मध्य में प्रासंगिक थीं। यह इस अवधि के दौरान था कि भाषा विज्ञान के गणितीयकरण की ओर एक स्पष्ट प्रवृत्ति को रेखांकित किया गया था। लगभग सभी बड़े देशों में, विज्ञान और कंप्यूटिंग प्रौद्योगिकी का तेजी से विकास शुरू होता है, जिसके लिए अधिक से अधिक नई भाषाई नींव की आवश्यकता होती है। इस सब का परिणाम सटीक और मानवीय विज्ञान का तेजी से अभिसरण था, साथ ही साथ गणित और भाषा विज्ञान की सक्रिय बातचीत, जिसने तत्काल वैज्ञानिक समस्याओं को हल करने में व्यावहारिक अनुप्रयोग पाया है।

XX सदी के 50 के दशक में, गणित, भाषा विज्ञान, कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता जैसे विज्ञानों के जंक्शन पर, विज्ञान की एक नई दिशा उभरी - कम्प्यूटेशनल भाषाविज्ञान (जिसे मशीन भाषाविज्ञान या प्राकृतिक भाषा में ग्रंथों के स्वचालित प्रसंस्करण के रूप में भी जाना जाता है)। इस दिशा के विकास में मुख्य चरण कृत्रिम बुद्धिमत्ता विधियों के विकास की पृष्ठभूमि के खिलाफ हुए। पहले कंप्यूटरों के निर्माण ने कम्प्यूटेशनल भाषाविज्ञान के विकास के लिए एक शक्तिशाली प्रोत्साहन के रूप में कार्य किया। हालाँकि, 60 के दशक में कंप्यूटर और प्रोग्रामिंग भाषाओं की एक नई पीढ़ी के आगमन के साथ, इस विज्ञान के विकास में एक मौलिक रूप से नया चरण शुरू होता है। यह भी ध्यान दिया जाना चाहिए कि कम्प्यूटेशनल भाषाविज्ञान की उत्पत्ति भाषा की संरचना को औपचारिक बनाने के क्षेत्र में प्रसिद्ध अमेरिकी भाषाविद् एन। चॉम्स्की के कार्यों पर वापस जाती है। भाषा विज्ञान और गणित के चौराहे पर प्राप्त उनके शोध के परिणामों ने औपचारिक भाषाओं और व्याकरण (जनरेटिव, या जनरेटिव, व्याकरण) के सिद्धांत के विकास का आधार बनाया, जिसका व्यापक रूप से प्राकृतिक और कृत्रिम दोनों का वर्णन करने के लिए उपयोग किया जाता है। भाषाओं, विशेष रूप से प्रोग्रामिंग भाषाओं में। अधिक सटीक रूप से, यह सिद्धांत पूरी तरह से गणितीय अनुशासन है। इसे गणितीय भाषाविज्ञान के रूप में अनुप्रयुक्त भाषाविज्ञान की ऐसी दिशा में पहला माना जा सकता है।

कम्प्यूटेशनल भाषाविज्ञान में पहला प्रयोग और पहला विकास मशीनी अनुवाद प्रणालियों के निर्माण से संबंधित है, साथ ही सिस्टम जो मानव भाषाई क्षमताओं का अनुकरण करते हैं। 1980 के दशक के उत्तरार्ध में, इंटरनेट के आगमन और सक्रिय विकास के साथ, इलेक्ट्रॉनिक रूप में उपलब्ध पाठ्य सूचनाओं की मात्रा में तेजी से वृद्धि हुई। इससे यह तथ्य सामने आया कि सूचना पुनर्प्राप्ति प्रौद्योगिकियां अपने विकास में गुणात्मक रूप से नए चरण में चली गई हैं। प्राकृतिक भाषा में ग्रंथों के स्वचालित प्रसंस्करण की आवश्यकता उत्पन्न हुई, पूरी तरह से नए कार्य और प्रौद्योगिकियां दिखाई दीं। वैज्ञानिकों को इस तरह की समस्या का सामना करना पड़ रहा है जैसे कि असंरचित डेटा की एक विशाल धारा का तेजी से प्रसंस्करण। इस समस्या का समाधान खोजने के लिए, स्वचालित वर्ड प्रोसेसिंग के क्षेत्र में सांख्यिकीय विधियों के विकास और अनुप्रयोग को बहुत महत्व दिया गया है। उनकी मदद से ऐसी समस्याओं को हल करना संभव हो गया जैसे कि ग्रंथों को एक सामान्य विषय से एकजुट समूहों में विभाजित करना, पाठ में कुछ अंशों को उजागर करना आदि। इसके अलावा, गणितीय आँकड़ों और मशीन सीखने के तरीकों के उपयोग ने भाषण मान्यता और खोज इंजन के निर्माण की समस्याओं को हल करना संभव बना दिया।

वैज्ञानिक प्राप्त परिणामों पर नहीं रुके: वे अपने लिए नए लक्ष्य और उद्देश्य निर्धारित करते रहे, नई तकनीकों और अनुसंधान विधियों को विकसित करते रहे। यह सब इस तथ्य को जन्म देता है कि भाषाविज्ञान ने कई अन्य विज्ञानों को मिलाकर एक व्यावहारिक विज्ञान के रूप में कार्य करना शुरू कर दिया, जिनमें से प्रमुख भूमिका गणित से संबंधित थी, इसकी मात्रात्मक विधियों की विविधता और अध्ययन की गहरी समझ के लिए उन्हें लागू करने की क्षमता। घटना इस तरह गणितीय भाषाविज्ञान ने अपना गठन और विकास शुरू किया। फिलहाल, यह एक काफी "युवा" विज्ञान है (यह लगभग पचास वर्षों से अस्तित्व में है), हालांकि, इसकी "छोटी उम्र" के बावजूद, यह कई सफल उपलब्धियों के साथ वैज्ञानिक ज्ञान का पहले से ही स्थापित क्षेत्र है।

भाषाई सूचना विज्ञान सूचना सेवाओं के सिद्धांत का हिस्सा है। सूचना सेवाओं का सिद्धांत भाषण के कम्प्यूटरीकरण के संबंध में उत्पन्न हुआ, अर्थात, भाषा की जानकारी को रिकॉर्ड करने, लेखांकन और भंडारण के साधन के रूप में कंप्यूटर के उपयोग के संबंध में। प्रौद्योगिकी के लिए धन्यवाद, पुस्तकालय, संग्रह और कार्यालय के कार्यों को जोड़ना संभव था।

ग्रंथों के बड़े वर्गों को स्वचालित संक्षेपण द्वारा संसाधित किया जाता है। वैज्ञानिक और तकनीकी जानकारी की लगातार बढ़ती मात्रा, जिसकी खोज अधिक श्रमसाध्य होती जा रही है, ने तथाकथित माध्यमिक ग्रंथों में खोज करने के विचार को जन्म दिया है, जो प्राथमिक दस्तावेज़ की संक्षिप्त जानकारी हैं: ग्रंथ सूची विवरण, सार, सार, वैज्ञानिक अनुवाद।

प्राथमिक पाठ को संकुचित करके, संकुचित करके किया जाता है। प्राथमिक पाठ को संक्षिप्त करने के विशेष तरीके विकसित किए गए हैं:

ए) सांख्यिकीय और वितरण विधियों में यह तथ्य शामिल है कि सबसे अधिक जानकारीपूर्ण वाक्य आवंटित किए जाते हैं, जिसमें किसी दिए गए पाठ के लिए सबसे महत्वपूर्ण भाषाई संकेत केंद्रित होते हैं;

बी) अर्थ संकेतकों का उपयोग करने के तरीके, जब पाठ के सबसे सार्थक "अंक" चिह्नित होते हैं - अनुसंधान, उद्देश्य, विधियों, प्रासंगिकता, दायरे, निष्कर्ष, परिणाम का विषय); ग) टेक्स्ट लिंक की विधि, जिसमें यह तथ्य शामिल है कि इंटरफ्रासल लिंक को ध्यान में रखते हुए सार को पूर्ण बनाता है।

3. व्यावहारिक शब्दावली।
व्यावहारिक शब्दावली में अनुभाग शामिल हैं:

क) शब्दावली शब्दावली, जो विशेष शब्दकोश बनाने, शब्दावली प्रणालियों को एकीकृत करने, शब्दों का अनुवाद करने, शब्दावली डेटा बैंक बनाने, उनके भंडारण और प्रसंस्करण को स्वचालित करने के सिद्धांत और व्यवहार से संबंधित है।

बी) शब्दावली स्वयं व्यावहारिक भाषाविज्ञान के सबसे श्रमसाध्य प्रकारों में से एक के रूप में व्यावहारिक भाषाविज्ञान का विषय बन गया है। शब्दकोश दशकों से आसपास हैं। इसलिए, लेक्सिकोग्राफिक गतिविधि को स्वचालित करने के लिए वैज्ञानिकों की इच्छा समझ में आती है। स्वचालित शब्दकोश प्रकट हुए हैं। उनका उद्देश्य भाषा की विभिन्न इकाइयों के ग्रंथों, संग्रह, भंडारण और प्रसंस्करण के साथ काम करते समय श्रम उत्पादकता में वृद्धि करना है। इस प्रकार के डिक्शनरी का उपयोग स्वचालित टेक्स्ट प्रोसेसिंग सिस्टम में किया जाता है।

स्वचालित अनुवाद।

स्वचालित, या मशीन, अनुवाद इस धारणा पर आधारित है कि टाइपोलॉजिकल रूप से विभिन्न भाषाई संरचनाओं (शब्दावली, शब्द क्रम, विभक्ति, वाक्य-विन्यास संरचनाओं) से मेल खाना संभव है। अनुवाद के भाषाई सिद्धांत में दो या दो से अधिक भाषाओं की भाषाई इकाइयों की तुलना करना शामिल है जो अर्थ में समकक्ष हैं।

स्वचालित अनुवाद प्रणाली के विकास में दो चरण होते हैं।पहले चरण में, मशीनी अनुवाद की ऐसी मूलभूत समस्याओं को स्वचालित शब्दकोशों के निर्माण, एक मध्यस्थ भाषा के विकास, व्याकरण की औपचारिकता, समरूपता पर काबू पाने और मुहावरेदार संरचनाओं के प्रसंस्करण के रूप में हल किया गया था। दूसरे चरण में, व्याकरण के सेट-सैद्धांतिक मॉडल, निर्भरता व्याकरण के मॉडल, सीधे जनरेटिव व्याकरण के मॉडल बनाने वाले, काफी फलदायी रूप से विकसित होते रहते हैं और व्यवहार में शामिल होते हैं। इस अवधि के दौरान, "अर्थ - पाठ" मॉडल के अनुसार लागू भाषाविज्ञान शब्दार्थ में अधिक से अधिक सक्रिय रूप से शामिल हुए। घरेलू और विदेशी विश्वविद्यालयों में उभरे व्यावहारिक भाषाविज्ञान के केंद्र मशीनी अनुवाद के लिए रणनीति विकसित कर रहे हैं। इनमें रूसी विज्ञान अकादमी के अनुप्रयुक्त गणित संस्थान में सेंट पीटर्सबर्ग विश्वविद्यालय में गणितीय भाषाविज्ञान की प्रयोगशाला शामिल है; अखिल संघ अनुवाद केंद्र; रेमंड जेनरिकोविच पिओत्रोव्स्की के नेतृत्व में लेनिनग्राद शैक्षणिक संस्थान में समूह "भाषण सांख्यिकी"; इगोर अलेक्जेंड्रोविच मेलचुक के नेतृत्व में वाक्यात्मक मॉडलिंग "अर्थ - पाठ" के अध्ययन के लिए एक समूह।

मशीनी अनुवाद के सुधार में एक नया चरण एक मध्यस्थ भाषा के उपयोग से जुड़ा है - ज्ञान प्रतिनिधित्व की भाषा। यह वाक्य के अर्थ के विश्लेषण पर आधारित है, इनपुट वाक्य को समझकर प्राप्त किया गया है, ज्ञान आधार से और इसकी शर्तों में जानकारी की सहायता से पूरक और चिह्नित किया गया है। अनुवाद प्रक्रिया X भाषा के इनपुट वाक्य का Y भाषा की आउटपुट संरचना में परिवर्तन है। दूसरे शब्दों में, मशीनी अनुवाद का परिणाम अनुवाद ही नहीं है, बल्कि मूल पाठ (X) की रीटेलिंग है। अनुवाद की गुणवत्ता ज्ञान प्रतिनिधित्व की भाषा की प्रभावशीलता पर निर्भर करती है। उच्च गुणवत्ता वाला मशीनी अनुवाद केवल विश्वसनीय भाषाई नींव और स्वचालित शब्दकोष पर आधारित शक्तिशाली सिमेंटिक नेटवर्क के निर्माण के लिए सॉफ्टवेयर बनाकर सुनिश्चित किया जा सकता है।

चतुर्थ। नृवंशविज्ञान।

नृवंशविज्ञान (नृवंशविज्ञान, मानवभाषाविज्ञान) भाषाविज्ञान का एक क्षेत्र है जो एक विशेष जातीय समूह की संस्कृति के साथ अपने संबंधों में भाषा का अध्ययन करता है। 20 वीं शताब्दी की पहली तिमाही में फ्रांज बोस और एडवर्ड सपिर के कार्यों में नृवंशविज्ञान की नींव रखी गई थी। 20 वीं शताब्दी के उत्तरार्ध में। नृवंशविज्ञान ने भाषाविज्ञान की एक स्वतंत्र शाखा के रूप में आकार लिया। 20वीं सदी के उत्तरार्ध में नृवंशविज्ञान संबंधी शोध। इस तरह की विशेषताओं की विशेषता है: प्रयोगात्मक मनोविज्ञान के तरीकों का आकर्षण; विभिन्न भाषाओं के सिमेंटिक मॉडल की तुलना; लोक वर्गीकरण की समस्याओं का अध्ययन; पैरालिंग्विस्टिक रिसर्च; भाषा डेटा के आधार पर आध्यात्मिक जातीय संस्कृति का पुनर्निर्माण; लोककथाओं पर ध्यान का पुनरोद्धार।

केंद्रीय से नृवंशविज्ञान दो निकट से संबंधित मुद्दे हैं जिन्हें "संज्ञानात्मक" और "संचारी" कहा जा सकता है:

1. कैसे, किस माध्यम से और किस रूप में भाषा इस भाषा को बोलने वाले लोगों के अपने आसपास की दुनिया और इस दुनिया में किसी व्यक्ति के स्थान के बारे में सांस्कृतिक (दैनिक, धार्मिक, सामाजिक, आदि) विचारों को दर्शाती है?

2. संचार के कौन से रूप और साधन - सबसे पहले, भाषाई संचार - किसी दिए गए जातीय या सामाजिक समूह के लिए विशिष्ट हैं?

इन समस्याओं के अनुसार, नृवंशविज्ञान में दो दिशाएँ उभरी हैं: संज्ञानात्मक रूप से उन्मुख नृवंशविज्ञान और संचार-उन्मुख भाषाविज्ञान।

ए) संज्ञानात्मक रूप से उन्मुख नृवंशविज्ञान।

संज्ञानात्मक रूप से उन्मुख नृवंशविज्ञान अमेरिकी भाषाविज्ञान की विशेषता है। इसे मानवशास्त्रीय भाषाविज्ञान कहते हैं। प्रारंभ में, मानवशास्त्रीय भाषाविज्ञान उन लोगों की संस्कृति के अध्ययन पर केंद्रित था जो यूरोपीय लोगों से काफी भिन्न थे, सबसे पहले, अमेरिकी भारतीय। इन भाषाओं के बीच पारिवारिक संबंध स्थापित करना और उनकी वर्तमान स्थिति का वर्णन करना इन लोगों की संस्कृति का व्यापक रूप से वर्णन करने और प्रवास मार्गों सहित उनके इतिहास के पुनर्निर्माण के कार्य के अधीन था। रोजमर्रा और लोककथाओं के ग्रंथों की रिकॉर्डिंग और व्याख्या मानवशास्त्रीय विवरण का एक अभिन्न अंग था।

मानवशास्त्रीय भाषाविज्ञान में फ्रांज बोस के बाद, यह माना जाता है कि किसी भाषा में वास्तविकता के वर्गीकरण के अधिक भिन्नात्मक अंश इस संस्कृति के अधिक महत्वपूर्ण पहलुओं के अनुरूप हैं। जैसा कि अमेरिकी भाषाविद् और मानवविज्ञानी हैरी होयर ने नोट किया है, "शिकार और इकट्ठा करके रहने वाले लोग, जैसे कि अमेरिकी दक्षिण-पश्चिम में अपाचे जनजाति, के पास जानवरों और पौधों के नामों के साथ-साथ उनके आसपास की दुनिया की घटनाओं की एक व्यापक शब्दावली है। . लोग, जिनके अस्तित्व का मुख्य स्रोत मछली पकड़ना है (विशेष रूप से, प्रशांत महासागर के उत्तरी तट के भारतीय), उनकी शब्दावली में मछली के नामों का एक विस्तृत सेट है, साथ ही मछली पकड़ने के लिए उपकरण और तकनीक भी है।

नृवंशविज्ञानियों का सबसे बड़ा ध्यान शरीर के अंगों के पदनाम, रिश्तेदारी की शर्तें, तथाकथित जातीय-जैविक वर्गीकरण, यानी पौधों और जानवरों के नाम (अंग्रेजी वैज्ञानिक बी। बर्लिन, अन्ना वेज़बिट्स्काया) के रूप में इस तरह के टैक्सोनोमिक सिस्टम द्वारा आकर्षित किया गया था। और विशेष रूप से रंग पदनाम (बी। बर्लिन और पी। के, ए। वेज़बिट्स्काया)।

आधुनिक मानवशास्त्रीय नृवंशविज्ञान में, कोई सशर्त रूप से "सापेक्ष" और "सार्वभौमिक" दिशाओं के बीच अंतर कर सकता है: पहली के लिए, दुनिया के वक्ता की तस्वीर में सांस्कृतिक और भाषाई बारीकियों का अध्ययन करना प्राथमिकता है, दूसरे के लिए - सार्वभौमिक गुणों की खोज प्राकृतिक भाषाओं की शब्दावली और व्याकरण।

यूरी डेरेनिकोविच अप्रेसियन, नीना डेविडोवना अरुतुनोवा, अन्ना वेज़बिट्स्काया, तातियाना व्याचेस्लावोवना बुलीगिना, एलेक्सी दिमित्रिच श्मेलेव, वाईएस याकोवलेवा की कृतियाँ, जो दुनिया की रूसी भाषा की तस्वीर की ख़ासियत को समर्पित हैं, सापेक्षतावादी दिशा में अनुसंधान के एक उदाहरण के रूप में काम कर सकती हैं। नृवंशविज्ञान। ये लेखक उन शब्दों के अर्थ और उपयोग का विश्लेषण करते हैं जो या तो अनूठी अवधारणाओं को निरूपित करते हैं जो अन्य भाषाओं में दुनिया की अवधारणा की विशेषता नहीं हैं (उदासीनता और साहस, शायद और मुझे लगता है), या अन्य संस्कृतियों में मौजूद अवधारणाओं के अनुरूप हैं, लेकिन रूसी संस्कृति के लिए विशेष रूप से महत्वपूर्ण हैं, या एक विशेष व्याख्या (सच्चाई और सच्चाई, स्वतंत्रता और इच्छा, भाग्य और बहुत कुछ) प्राप्त कर रहे हैं। उदाहरण के लिए, हम टीवी बुलीगिना और एडी शमेलेव की पुस्तक "दुनिया की भाषाई अवधारणा" से "शायद" शब्द के विवरण का एक अंश देते हैं:

«<...>हो सकता है कि इसका मतलब बिल्कुल "संभव" या "हो सकता है" जैसा न हो।<...>सबसे अधिक बार, शायद इसका उपयोग लापरवाही के बहाने के रूप में किया जाता है, जब यह उम्मीद करने की बात आती है कि कुछ अनुकूल घटना नहीं होगी, लेकिन यह कि कुछ बेहद अवांछनीय परिणाम से बचना संभव होगा। लॉटरी टिकट खरीदने वाले व्यक्ति को यादृच्छिक रूप से कार्य करने वाला नहीं कहा जाएगा। तो, बल्कि, आप उस व्यक्ति के बारे में कह सकते हैं जो<...>स्वास्थ्य बीमा न खरीदकर पैसे बचाता है और आशा करता है कि कुछ भी बुरा न हो<...>इसलिए, भाग्य की आशा करना केवल सौभाग्य की आशा करना नहीं है। यदि भाग्य का प्रतीक रूले है, तो अवसर की आशा को "रूसी रूले" द्वारा दर्शाया जा सकता है।

नृवंशविज्ञान में सार्वभौमिकतावादी दिशा में अनुसंधान का एक उदाहरण पोलिश वैज्ञानिक अन्ना विर्जबिका का काम है, जो भाषाई अर्थों का वर्णन करने के सिद्धांतों के लिए समर्पित है। ए। वेज़बिट्स्काया और उनके अनुयायियों द्वारा कई वर्षों के शोध का लक्ष्य तथाकथित "अर्थपूर्ण आदिम", सार्वभौमिक प्राथमिक अवधारणाओं का एक सेट स्थापित करना है, जिसके संयोजन से प्रत्येक भाषा किसी दिए गए भाषा और संस्कृति के लिए विशिष्ट कॉन्फ़िगरेशन की एक अनंत संख्या बना सकती है। . शब्दार्थ आदिम शाब्दिक सार्वभौमिक हैं, दूसरे शब्दों में, ये ऐसी प्राथमिक अवधारणाएँ हैं जिनके लिए किसी भी भाषा में एक शब्द है जो उन्हें दर्शाता है। ये अवधारणाएं किसी भी भाषा के वक्ता के लिए सहज रूप से स्पष्ट हैं, और उनके आधार पर कोई भी मनमाने ढंग से जटिल भाषाई इकाइयों की व्याख्या का निर्माण कर सकता है। पापुआ न्यू गिनी, ऑस्ट्रोनेशियन भाषाओं, अफ्रीका की भाषाओं और ऑस्ट्रेलिया के आदिवासियों सहित दुनिया की आनुवंशिक और सांस्कृतिक रूप से विभिन्न भाषाओं की सामग्री का अध्ययन करते हुए, ए। वेज़बिट्स्काया लगातार शब्दार्थ आदिम की सूची को परिष्कृत करता है। उनका काम, भावनात्मक अवधारणाओं की व्याख्या करना, निम्नलिखित सूचीबद्ध करता है:

"मूल" - मैं, आप, कोई, कुछ, लोग;
"निर्धारक और परिमाणक" - यह, वही, वही, दूसरा, एक, दो, कई, सभी / सभी;
"मानसिक भविष्यवाणी" - सोचो (के बारे में), बोलो, जानो, महसूस करो, चाहो;
"क्रियाएँ और घटनाएँ" - करना, घटित होना / होना;
"ग्रेड" - अच्छा, बुरा;
"विवरणकर्ता" - बड़ा, छोटा;
"समय और स्थान" - कब, कहाँ, बाद में / पहले, नीचे / ऊपर;
"मेटाप्रेडिकेट्स" - नहीं / नहीं / निषेध, क्योंकि / की वजह से, अगर, सक्षम होने के लिए;
"तीव्रता" - बहुत;
"वर्गीकरण और पक्षपात" - प्रजाति / विविधता, भाग;
"लचीलापन / प्रोटोटाइप" - समान / पसंद।

शब्दार्थ आदिम से, "ईंटों" से, ए। वेज़बिट्स्काया भावनाओं के रूप में ऐसी सूक्ष्म अवधारणाओं की व्याख्या भी जोड़ता है। उदाहरण के लिए, वह अमेरिकी संस्कृति की अवधारणा के बीच सूक्ष्म अंतर को प्रदर्शित करने का प्रबंधन करती है, जिसे "खुश" शब्द द्वारा दर्शाया गया है, और रूसी शब्द "खुश" (और संबंधित पोलिश, फ्रेंच और जर्मन विशेषण) द्वारा निरूपित अवधारणा। शब्द "खुश", जैसा कि ए। वेज़बिट्स्काया लिखते हैं, हालाँकि इसे आमतौर पर अंग्रेजी शब्द "हैप्पी" के समकक्ष माना जाता है, रूसी संस्कृति में इसका एक संकीर्ण अर्थ है, "यह आमतौर पर पूर्ण आनंद या परिपूर्ण के दुर्लभ राज्यों को दर्शाने के लिए उपयोग किया जाता है। प्यार, परिवार, जीवन के अर्थ, आदि जैसी गंभीर चीजों से प्राप्त संतुष्टि। ” इस प्रकार यह अंतर शब्दार्थ आदिम की भाषा में तैयार किया गया है (व्याख्या बी के घटक, जो ए की व्याख्या में अनुपस्थित हैं, बड़े अक्षरों में हाइलाइट किए गए हैं)।

व्याख्या ए: एक्स खुश महसूस करता है
X कुछ महसूस करता है
मेरे साथ कुछ अच्छा हुआ
मुझे यह चाहिए
मुझे और कुछ नहीं चाहिए
X कुछ ऐसा ही महसूस करता है

व्याख्या बी: एक्स खुश है
X कुछ महसूस करता है
कभी-कभी एक व्यक्ति कुछ ऐसा सोचता है:
मेरे साथ कुछ बहुत अच्छा हुआ
मुझे यह चाहिए
बिलकुल बिलकुल
मुझे और कुछ नहीं चाहिए
तो इस व्यक्ति को कुछ अच्छा लगता है
X कुछ ऐसा ही महसूस करता है

ए। वेज़बिट्स्काया के शोध कार्यक्रम के लिए, यह मौलिक है कि सार्वभौमिक शब्दार्थ आदिम की खोज अनुभवजन्य रूप से की जाती है, क्षेत्र भाषाविज्ञान के तरीकों का उपयोग करते हुए - एक मुखबिर के साथ काम करना: सबसे पहले, प्रत्येक व्यक्तिगत भाषा में, इस अवधारणा में भूमिका निभाने वाली भूमिका अन्य अवधारणाओं की व्याख्या को स्पष्ट किया जाता है, और, -दूसरा, प्रत्येक अवधारणा के लिए, भाषाओं का एक सेट पाया जाता है जिसमें यह अवधारणा शब्दावली होती है, यानी एक विशेष शब्द होता है जो इस अवधारणा को व्यक्त करता है।

बी) संचारी रूप से उन्मुख नृवंशविज्ञान।

संचारी रूप से उन्मुख नृवंशविज्ञान में सबसे महत्वपूर्ण परिणाम "भाषण नृवंशविज्ञान" या "संचार नृवंशविज्ञान" नामक दिशा से जुड़े हैं। एक समाजशास्त्रीय संदर्भ में भाषाई उपयोग के विश्लेषण के लिए एक सिद्धांत और विधि के रूप में भाषण की नृवंशविज्ञान 60 के दशक की शुरुआत में प्रस्तावित किया गया था। डी। हिम्स और जॉन जे। गैम्पर्ट्ज़ के कार्यों में और अमेरिकी वैज्ञानिक एरोन सिकुरल, जे। बाउमन, ए.यू. के कार्यों में विकसित हुए। कोर्सारो। बयान की जांच केवल किसी भी भाषण या संचार घटना के संबंध में की जाती है जिसके भीतर यह उत्पन्न होता है। किसी भी भाषण कार्यक्रम (उपदेश, अदालत सत्र, टेलीफोन पर बातचीत, आदि) की सांस्कृतिक कंडीशनिंग पर जोर दिया जाता है। भाषाई उपयोग के नियम वर्तमान अवलोकन (एक भाषण कार्यक्रम में भागीदारी), सहज डेटा के विश्लेषण, किसी दिए गए भाषा के मूल वक्ताओं के साक्षात्कार के माध्यम से स्थापित किए जाते हैं।

इस दिशा के ढांचे के भीतर, भाषण व्यवहार के मॉडल का अध्ययन किया जाता है, एक विशेष संस्कृति में, एक विशेष जातीय या सामाजिक समूह में अपनाया जाता है। इसलिए, उदाहरण के लिए, "मध्य यूरोपीय मानक" की संस्कृति में, कई लोगों के बीच एक अनौपचारिक बातचीत इस समुदाय में स्वीकार किए गए अच्छे शिष्टाचार के नियमों के अनुसार मानती है कि प्रतिभागी एक-दूसरे को बाधित नहीं करेंगे, सभी को अवसर दिया जाता है खुद को बदले में व्यक्त करते हैं, जो बोलना चाहता है वह आमतौर पर "मुझे नोटिस करने दो" शब्दों के साथ संकेत देता है। , "मुझे पूछने दो," आदि। कोई भी व्यक्ति जो बातचीत में भाग लेने वालों की संख्या से बाहर होना चाहता है, अपने इरादे की घोषणा "दुर्भाग्य से, मुझे जाना है," "मुझे थोड़ी देर के लिए जाना चाहिए," और इसी तरह के शब्दों के साथ करता है। सार्वजनिक भाषण व्यवहार के काफी भिन्न मानदंड स्वीकार किए जाते हैं, उदाहरण के लिए, ऑस्ट्रेलियाई आदिवासियों की कई संस्कृतियों में। इन समुदायों में बातचीत में एक व्यक्तिगत प्रतिभागी के व्यक्तिगत अधिकारों का सम्मान एक अनिवार्य नियम नहीं है: कई वार्ताकार एक ही समय में बोल सकते हैं, दूसरे के बयान पर प्रतिक्रिया करना आवश्यक नहीं है, स्पीकर किसी को विशेष रूप से संबोधित किए बिना बोलता है , वार्ताकार एक दूसरे को नहीं देख सकते हैं, आदि। भाषण व्यवहार का ऐसा मॉडल प्रारंभिक आधार पर आधारित है कि सभी उच्चारण किसी न किसी तरह आसपास की दुनिया में जमा हो जाते हैं, और इसलिए संदेश के "रिसेप्शन" को सीधे इसके "ट्रांसमिशन" का पालन नहीं करना पड़ता है।

संचार की नृवंशविज्ञान का वास्तविक विषय वार्ताकारों की सापेक्ष सामाजिक स्थिति की भाषाई अभिव्यक्ति का अध्ययन भी है: वार्ताकार को संबोधित करने के नियम, शीर्षक के उपयोग सहित, पहले नाम से अपील, उपनाम, पहला नाम और संरक्षक, पेशेवर अपील (उदाहरण के लिए, "डॉक्टर", "कॉमरेड मेजर", "प्रोफेसर"), अपील की उपयुक्तता "आप" और "आप के लिए", आदि। विशेष रूप से बारीकी से शोध की जाने वाली भाषाएं हैं जिनमें वक्ता और श्रोता की सामाजिक स्थिति का अनुपात न केवल शब्दावली में, बल्कि व्याकरण में भी तय होता है। एक उदाहरण जापानी भाषा है, जहां क्रिया के व्याकरणिक रूप का चुनाव इस बात पर निर्भर करता है कि श्रोता सामाजिक पदानुक्रम में वक्ता से ऊपर है या नीचे, और यह भी कि क्या वक्ता और श्रोता एक ही सामाजिक इकाई में शामिल हैं या नहीं। इसके अलावा, वक्ता और विचाराधीन व्यक्ति के बीच के संबंध को भी ध्यान में रखा जाता है। इन प्रतिबंधों की जटिल कार्रवाई के परिणामस्वरूप, एक और एक ही व्यक्ति एक अधीनस्थ को संबोधित करते समय और एक मालिक का जिक्र करते समय, एक सहयोगी का जिक्र करते समय और एक अजनबी का जिक्र करते समय, अपनी पत्नी का जिक्र करते समय क्रिया के विभिन्न रूपों का उपयोग करता है। और एक पड़ोसी की पत्नी।

व्याकरण जापानियों के भाषण शिष्टाचार की ऐसी विशेषता को भी दर्शाता है जैसे कि वार्ताकार के विचारों और भावनाओं के क्षेत्र में घुसपैठ से बचने की इच्छा। जापानी में, क्रिया का एक विशेष व्याकरणिक रूप है - तथाकथित "वांछित मनोदशा"। वांछित मूड-ताई के प्रत्यय के साथ, वक्ता मूल क्रिया द्वारा इंगित क्रिया को करने की इच्छा व्यक्त करता है: "पढ़ें" + ताई = "मैं पढ़ना चाहता हूं", "छोड़ो" + ताई = "मैं छोड़ना चाहता हूं" . हालाँकि, वांछित मनोदशा के रूप तभी संभव हैं जब वक्ता अपनी इच्छा का वर्णन करे। वार्ताकार या तीसरे पक्ष की इच्छा एक विशेष निर्माण की मदद से व्यक्त की जाती है, जिसका मोटे तौर पर अर्थ है "बाहरी संकेतों के आधार पर, कोई यह निष्कर्ष निकाल सकता है कि व्यक्ति एक्स एक क्रिया वाई करना चाहता है"। इस प्रकार, व्याकरण की आवश्यकताओं का पालन करके, एक जापानी वक्ता केवल अपने स्वयं के इरादों के बारे में निर्णय कर सकता है। भाषा किसी अन्य व्यक्ति की आंतरिक स्थिति के बारे में सीधे बयान देने की अनुमति नहीं देती है, उदाहरण के लिए, उसकी इच्छाओं के बारे में। आप कह सकते हैं "मैं चाहता हूं ...", लेकिन आप "आप चाहते हैं ..." या "वह चाहता है ..." नहीं कह सकते, लेकिन केवल "यह मुझे लगता है (मुझे लगता है) कि आप चाहते हैं ... "या" मुझे ऐसा लगता है (मुझे आभास है) कि वह चाहता है ... "।

भाषण शिष्टाचार के मानदंडों के अलावा, संचार की नृवंशविज्ञान कुछ संस्कृतियों में अनुष्ठान भाषण स्थितियों का भी अध्ययन करता है, जैसे कि अदालत सत्र, एक शोध प्रबंध की रक्षा, एक व्यापार सौदा, और इसी तरह; अंतरभाषी संचार के लिए भाषा चुनने के नियम; भाषाई परंपराएं और क्लिच यह संकेत देते हैं कि एक पाठ एक निश्चित शैली ("जीता था और था" - परियों की कहानियों में, "सुना और तय किया गया" - बैठक के मिनटों में) से संबंधित है।

समकालीन नृवंशविज्ञान समाजशास्त्र, मनोविज्ञान और लाक्षणिकता से निकटता से संबंधित है। रूसी नृवंशविज्ञान में, नृवंशविज्ञान, लोककथाओं के अध्ययन और तुलनात्मक ऐतिहासिक भाषाविज्ञान के चौराहे पर अनुसंधान द्वारा एक विशेष स्थान पर कब्जा कर लिया गया है। सबसे पहले, यह स्लाव लोगों (निकिता इलिच टॉल्स्टॉय, स्वेतलाना मिखाइलोवना टॉल्स्टया, व्लादिमीर निकोलाइविच टोपोरोव) के जातीय-भाषाई और जातीय-सांस्कृतिक इतिहास को समर्पित एक शोध कार्यक्रम है। इस कार्यक्रम के ढांचे के भीतर, नृवंशविज्ञान संबंधी एटलस संकलित किए जाते हैं, समारोहों, विश्वासों, लोककथाओं का मानचित्रण किया जाता है; तुलनात्मक ऐतिहासिक और पुरातात्विक अनुसंधान के आंकड़ों के संबंध में, कुछ शैलियों के संहिताबद्ध स्लाव ग्रंथों की संरचना का अध्ययन किया जाता है, जिसमें षड्यंत्र ग्रंथ, पहेलियों, दफन और निर्माण अनुष्ठान आदि शामिल हैं।

  • दुनिया के लोगों के भाषाविज्ञान और भाषाई वर्गीकरण में व्यवस्थितकरण
  • भाषाओं और भाषण के रूपों का समाजशास्त्रीय (या कार्यात्मक) वर्गीकरण

  • टिमोफीवा मारिया किरिलोवना
    डॉक्टर ऑफ फिलोलॉजी, गणित संस्थान के तार्किक प्रणालियों की प्रयोगशाला के वरिष्ठ शोधकर्ता। एस.एल. सोबोलेव एसबी आरएएस, एनएसयू के मानवीय संस्थान के मौलिक और अनुप्रयुक्त भाषाविज्ञान विभाग के प्रमुख। गणितीय भाषाविज्ञान विभाग, मानविकी संकाय, नोवोसिबिर्स्क स्टेट यूनिवर्सिटी से स्नातक।
    अनुसंधान के हित: भाषाविज्ञान की दार्शनिक और पद्धतिगत नींव, शब्दार्थ की तार्किक समस्याएं और प्राकृतिक भाषा की व्यावहारिकता, प्राकृतिक भाषा के कार्यात्मक गणितीय मॉडल, प्राकृतिक और औपचारिक भाषाएं।

    स्टुकचेव एलेक्सी इलिच
    भौतिक और गणितीय विज्ञान के उम्मीदवार, एसोसिएट प्रोफेसर, गणित संस्थान में वरिष्ठ शोधकर्ता के नाम पर रखा गया: एस.एल. सोबोलेव एसबी आरएएस, एनएसयू के यांत्रिकी और गणित के संकाय के असतत गणित और सूचना विज्ञान विभाग के एसोसिएट प्रोफेसर, एनएसयू के मानवीय संस्थान के मौलिक और अनुप्रयुक्त भाषाविज्ञान विभाग के एसोसिएट प्रोफेसर
    अनुसंधान रुचियां: गणितीय तर्क, संगणनीयता सिद्धांत (सामान्यीकृत संगणनीयता, स्वीकार्य सेटों में संगणनीयता, एचएफ-कम्प्यूटेबिलिटी), मॉडल सिद्धांत (रचनात्मक मॉडल, सिस्टम का प्रभावी प्रतिनिधित्व, प्रतिनिधित्व की डिग्री), गणना योग्य विश्लेषण। गणितीय भाषाविज्ञान: औपचारिक शब्दार्थ, मोंटेग शब्दार्थ, वितरणात्मक शब्दार्थ।

    बरखनिन व्लादिमीर बोरिसोविच
    रूसी विज्ञान अकादमी के साइबेरियाई शाखा के कम्प्यूटेशनल टेक्नोलॉजीज संस्थान के सूचना संसाधनों की प्रयोगशाला के प्रमुख शोधकर्ता, एनएसयू के यांत्रिकी और गणित संकाय के गणितीय मॉडलिंग विभाग के प्रोफेसर, सूचना प्रणाली विभाग के प्रोफेसर और एनएसयू के सूचना प्रौद्योगिकी संकाय के सामान्य सूचना विज्ञान।
    अनुसंधान के हित: वितरित सूचना प्रणाली के मॉडल का निर्माण, अर्ध-संरचित पाठ दस्तावेजों के प्रसंस्करण के लिए एल्गोरिदम बनाना, काव्य ग्रंथों के जटिल विश्लेषण को स्वचालित करना, सूचना विज्ञान के पद्धति संबंधी मुद्दे।

    ब्रुचेस ऐलेना पावलोवना
    इंस्टिट्यूट ऑफ़ इंफॉर्मेटिक्स सिस्टम के स्नातकोत्तर छात्र के नाम पर रखा गया है एपी एर्शोवा एसबी आरएएस, एनएसयू के मानविकी संस्थान के मौलिक और अनुप्रयुक्त भाषाविज्ञान विभाग के सहायक, कंपनी "ऑनपॉजिटिव" में कंप्यूटर भाषाविद्।
    अनुसंधान के हित: प्राकृतिक भाषा प्रसंस्करण, मशीन सीखने, कृत्रिम बुद्धि।

    पावलोवस्की एवगेनी निकोलाइविच
    भौतिक और गणितीय विज्ञान के उम्मीदवार, एनएसओ सरकार के तहत युवा वैज्ञानिकों और विशेषज्ञों की परिषद के सदस्य, नोवोसिबिर्स्क अकादमीगोरोडोक के टेक्नोपार्क के विशेषज्ञ परिषद के सदस्य, डेटा विज्ञान और इंजीनियरिंग पर साइबेरियाई संगोष्ठी की आयोजन समिति के अध्यक्ष सम्मेलन।
    व्यावसायिक लक्ष्य: बड़े डेटा परियोजनाओं में व्यावसायिक आवश्यकताओं को औपचारिक रूप देने के लिए दृष्टिकोणों का व्यवस्थितकरण।

    दिमित्री पालचुनोव
    गणित संस्थान के प्रमुख शोधकर्ता। एस एल सोबोलेव एसबी आरएएस, सामान्य सूचना विज्ञान विभाग के प्रमुख, एनएसयू, विभाग के प्रमुख "असतत गणित और सूचना विज्ञान संस्थान", यांत्रिकी और गणित के संकाय, एनएसयू।
    अनुसंधान के हित: विशिष्ट आदर्शों (आई-बीजगणित) के साथ बूलियन बीजगणित के अध्ययन पर मौलिक परिणाम प्राप्त हुए।

    दिमित्री स्विरिडेंको
    गणित संस्थान के कर्मचारी एसबी आरएएस और एनएसयू, व्यवसायी, आयोजक और सूचना, संचार और डिजिटल प्रौद्योगिकियों के क्षेत्र में काम करने वाली उच्च तकनीक कंपनियों के सह-मालिक। रूसी विज्ञान फाउंडेशन से अनुदान द्वारा वित्त पोषित सिमेंटिक मॉडलिंग पर शोध में भाग लेता है।
    अनुसंधान के हित: दर्शन, कार्यप्रणाली, अनुप्रयुक्त गणितीय तर्क। सिमेंटिक मॉडलिंग की अवधारणा और गणितीय सिद्धांत के लेखक, पिछली शताब्दी के 80 के दशक में रूसी विज्ञान अकादमी के शिक्षाविदों एस.एस. गोंचारोव और यू.एल. एर्शोव के साथ संयुक्त रूप से सामने आए। वर्तमान में, वह इस अवधारणा की कार्यप्रणाली और गणितीय सिद्धांत को सक्रिय रूप से विकसित करना जारी रखता है, और विभिन्न क्षेत्रों में इस अवधारणा के अनुप्रयोगों में भी लगा हुआ है। एक कार्यप्रणाली, गणितीय सिद्धांत और सिमेंटिक स्मार्ट सौदों और अनुबंधों की भाषा के निर्माण पर काम करता है, TRIZ और अन्य क्षेत्रों के संबंध में सिमेंटिक मॉडलिंग के विचारों का अनुप्रयोग।

    सवोस्त्यानोव अलेक्जेंडर निकोलाइविच
    रिसर्च इंस्टीट्यूट ऑफ फिजियोलॉजी एंड फंडामेंटल मेडिसिन के डिफरेंशियल साइकोफिजियोलॉजी की प्रयोगशाला में अग्रणी शोधकर्ता, रूसी एकेडमी ऑफ साइंसेज की साइबेरियाई शाखा के साइटोलॉजी और जेनेटिक्स संस्थान में मनोवैज्ञानिक आनुवंशिकी की प्रयोगशाला के प्रमुख, सामान्य सूचना विज्ञान विभाग के प्रोफेसर एनएसयू के सूचना प्रौद्योगिकी संकाय के, एनएसयू के मानविकी संस्थान के मौलिक और अनुप्रयुक्त भाषाविज्ञान विभाग के प्रोफेसर।
    अनुसंधान के हित: न्यूरोफिज़ियोलॉजी, साइकोजेनेटिक्स, न्यूरोलिंग्विस्टिक्स, जैविक संकेतों के कंप्यूटर प्रसंस्करण के तरीके। अनुसंधान का उद्देश्य जीवन की सामाजिक और जलवायु परिस्थितियों के आधार पर मनुष्यों में भावात्मक विकृति के उद्भव और विकास के लिए जोखिम कारकों की पहचान करना है। अनुसंधान के हिस्से के रूप में, रूस के विभिन्न क्षेत्रों (नोवोसिबिर्स्क क्षेत्र, टायवा, याकुटिया, अल्ताई गणराज्य) और पड़ोसी देशों (मंगोलिया, चीन) में जैविक सामग्री एकत्र करने और विभिन्न प्रयोगात्मक परिस्थितियों में ईईजी रिकॉर्ड एकत्र करने के लिए अभियान चलाए जाते हैं। अनुसंधान का उद्देश्य नैदानिक ​​​​प्रणालियों का निर्माण करना है जो बढ़े हुए तनावपूर्ण भार की स्थितियों में मानव व्यवहार के भावनात्मक विनियमन के उल्लंघन के जोखिम का आकलन करने की अनुमति देता है।

    हायर स्कूल ऑफ इकोनॉमिक्स के भाषाशास्त्र विभाग में कम्प्यूटेशनल भाषाविज्ञान के लिए समर्पित एक नया मास्टर कार्यक्रम शुरू किया जा रहा है: बुनियादी मानवीय और गणितीय शिक्षा वाले आवेदक और विज्ञान की सबसे आशाजनक शाखाओं में से एक में समस्याओं को हल करने में रुचि रखने वाले सभी लोग यहां इंतजार कर रहे हैं। . इसके प्रमुख अनास्तासिया बोंच-ओस्मोलोव्स्काया ने सिद्धांतों और व्यवहारों को बताया कि कम्प्यूटेशनल भाषाविज्ञान क्या है, रोबोट मनुष्यों की जगह क्यों नहीं लेंगे, और वे कम्प्यूटेशनल भाषाविज्ञान में एचएसई मास्टर कार्यक्रम में क्या पढ़ाएंगे।

    यह कार्यक्रम रूस में अपनी तरह का लगभग एकमात्र कार्यक्रम है। आपने खुद कहां पढ़ाई की?

    मैंने मॉस्को स्टेट यूनिवर्सिटी में दार्शनिक संकाय के सैद्धांतिक और अनुप्रयुक्त भाषाविज्ञान विभाग में अध्ययन किया। मैं तुरंत वहां नहीं पहुंचा, पहले तो मैंने रूसी विभाग में प्रवेश किया, लेकिन फिर मुझे भाषाविज्ञान ने गंभीरता से लिया, और मैं उस माहौल से आकर्षित हुआ जो आज भी विभाग में बना हुआ है। सबसे महत्वपूर्ण बात शिक्षकों और छात्रों के बीच अच्छा संपर्क और उनका पारस्परिक हित है।

    जब मेरे बच्चे पैदा हुए और मुझे जीविकोपार्जन करना था, तो मैं व्यावसायिक भाषाविज्ञान के क्षेत्र में चला गया। 2005 में, यह बहुत स्पष्ट नहीं था कि गतिविधि का यह क्षेत्र ऐसा क्या था। मैंने विभिन्न भाषाई फर्मों में काम किया: मैंने Public.ru वेबसाइट पर एक छोटी फर्म के रूप में शुरुआत की - यह एक ऐसी मीडिया लाइब्रेरी है, जहाँ मैंने भाषाई तकनीकों से निपटना शुरू किया। फिर उसने रोसनोटेक में एक साल तक काम किया, जहां एक विश्लेषणात्मक पोर्टल बनाने का विचार था ताकि उस पर डेटा स्वचालित रूप से संरचित हो जाए। तब मैंने एविकॉम्प में भाषाई विभाग का नेतृत्व किया - यह पहले से ही कम्प्यूटेशनल भाषाविज्ञान और शब्दार्थ प्रौद्योगिकियों के क्षेत्र में एक गंभीर उत्पादन है। समानांतर में, मैंने मॉस्को स्टेट यूनिवर्सिटी में कम्प्यूटेशनल भाषाविज्ञान में एक कोर्स पढ़ाया और इसे और अधिक आधुनिक बनाने की कोशिश की।

    एक भाषाविद् के लिए दो संसाधन: - रूसी भाषा से संबंधित वैज्ञानिक और अनुप्रयुक्त अनुसंधान के लिए भाषाविदों द्वारा बनाई गई साइट। यह रूसी भाषा का एक मॉडल है, जिसे विभिन्न शैलियों और अवधियों के ग्रंथों की एक विशाल सरणी का उपयोग करके प्रस्तुत किया गया है। ग्रंथों को भाषाई मार्कअप प्रदान किया जाता है, जिसकी सहायता से कुछ भाषाई घटनाओं की आवृत्ति के बारे में जानकारी प्राप्त करना संभव है। वोर्डनेट अंग्रेजी भाषा का एक विशाल शाब्दिक आधार है, वोर्डनेट का मुख्य विचार शब्दों से नहीं, बल्कि उनके अर्थों को एक बड़े नेटवर्क से जोड़ना है। वर्डनेट को डाउनलोड किया जा सकता है और आपकी अपनी परियोजनाओं के लिए उपयोग किया जा सकता है।

    कम्प्यूटेशनल भाषाविज्ञान क्या करता है?

    यह सबसे अंतःविषय क्षेत्र है। यहां सबसे महत्वपूर्ण बात यह समझना है कि इलेक्ट्रॉनिक दुनिया में क्या हो रहा है और विशिष्ट चीजों को करने में आपकी मदद कौन करेगा।

    हम बहुत बड़ी मात्रा में डिजिटल सूचनाओं से घिरे हुए हैं, कई व्यावसायिक परियोजनाएँ हैं, जिनकी सफलता सूचना प्रसंस्करण पर निर्भर करती है, ये परियोजनाएँ विपणन, राजनीति, अर्थशास्त्र और जो भी क्षेत्र से संबंधित हो सकती हैं। और इस जानकारी को कुशलता से संभालने में सक्षम होना बहुत महत्वपूर्ण है - मुख्य बात न केवल सूचना प्रसंस्करण की गति है, बल्कि आसानी से आप शोर को फ़िल्टर करके, आपको आवश्यक डेटा प्राप्त कर सकते हैं और एक अभिन्न बना सकते हैं इसकी तस्वीर।

    पहले, कुछ वैश्विक विचार कम्प्यूटेशनल भाषाविज्ञान से जुड़े थे, उदाहरण के लिए: लोगों ने सोचा था कि मशीनी अनुवाद मानव अनुवाद की जगह लेगा, रोबोट लोगों के बजाय काम करेगा। लेकिन अब यह एक स्वप्नलोक की तरह लगता है, और मशीनी अनुवाद का उपयोग खोज इंजन द्वारा किसी अपरिचित भाषा में शीघ्रता से खोज करने के लिए किया जा रहा है। यही है, अब भाषाविज्ञान शायद ही कभी अमूर्त कार्यों से निपटता है - ज्यादातर कुछ छोटी चीजों के साथ जिन्हें एक बड़े उत्पाद में डाला जा सकता है और उस पर पैसा कमा सकते हैं।

    आधुनिक भाषाविज्ञान के बड़े कार्यों में से एक शब्दार्थ वेब है, जब खोज न केवल शब्दों के संयोग से, बल्कि अर्थ से की जाती है, और सभी साइटों को किसी तरह शब्दार्थ द्वारा चिह्नित किया जाता है। यह उपयोगी हो सकता है, उदाहरण के लिए, पुलिस या चिकित्सा रिपोर्ट के लिए जो हर दिन लिखी जाती है। आंतरिक कनेक्शन का विश्लेषण बहुत सारी आवश्यक जानकारी देता है, और इसे मैन्युअल रूप से पढ़ना और गिनना अविश्वसनीय रूप से लंबा है।

    संक्षेप में, हमारे पास एक हजार ग्रंथ हैं, हमें उन्हें ढेर में छांटने की जरूरत है, प्रत्येक पाठ को एक संरचना के रूप में प्रस्तुत करें और एक तालिका प्राप्त करें जिसके साथ आप पहले से ही काम कर सकते हैं। इसे असंरचित सूचना का प्रसंस्करण कहा जाता है। दूसरी ओर, कम्प्यूटेशनल भाषाविज्ञान, उदाहरण के लिए, कृत्रिम ग्रंथों के निर्माण से संबंधित है। एक कंपनी है जो उन विषयों पर पाठ उत्पन्न करने के लिए एक तंत्र के साथ आई है जिसके बारे में लिखने से एक व्यक्ति ऊब गया है: अचल संपत्ति की कीमतों में परिवर्तन, मौसम पूर्वानुमान, फुटबॉल मैचों पर रिपोर्ट। किसी व्यक्ति के लिए इन ग्रंथों को ऑर्डर करना बहुत अधिक महंगा है, इसके अलावा, ऐसे विषयों पर कंप्यूटर पाठ एक सुसंगत मानव भाषा में लिखे गए हैं।

    यांडेक्स रूस में असंरचित सूचना पुनर्प्राप्ति में सक्रिय रूप से शामिल है, जबकि कास्पर्सकी लैब मशीन लर्निंग का अध्ययन करने वाले अनुसंधान समूहों को काम पर रख रहा है। क्या बाजार में कोई कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र में कुछ नया लाने की कोशिश कर रहा है?

    ** कम्प्यूटेशनल भाषाविज्ञान पर पुस्तकें: **

    डैनियल जुराफस्की, भाषण और भाषा प्रसंस्करण

    क्रिस्टोफर मैनिंग, प्रभाकर राघवन, हेनरिक शुट्ज़, "सूचना पुनर्प्राप्ति का एक परिचय"

    याकोव टेस्टलेट्स, "सामान्य सिंटेक्स का परिचय"

    अधिकांश भाषाई विकास बड़ी कंपनियों की संपत्ति हैं, सार्वजनिक डोमेन में लगभग कुछ भी नहीं पाया जा सकता है। यह उद्योग के विकास में बाधा डालता है, हमारे पास एक मुक्त भाषाई बाजार, पैकेज्ड समाधान नहीं है।

    इसके अलावा, पूर्ण सूचना संसाधनों की कमी है। रूसी भाषा के राष्ट्रीय कोष के रूप में ऐसी एक परियोजना है। यह दुनिया के सर्वश्रेष्ठ राष्ट्रीय कोर में से एक है, जो तेजी से विकसित हो रहा है और वैज्ञानिक और अनुप्रयुक्त अनुसंधान के लिए अविश्वसनीय अवसर प्रदान करता है। अंतर जीव विज्ञान के समान ही है - डीएनए अनुसंधान से पहले और बाद में।

    लेकिन रूसी में कई संसाधन मौजूद नहीं हैं। तो, फ्रैमनेट के रूप में इस तरह के एक अद्भुत अंग्रेजी-भाषा संसाधन का कोई एनालॉग नहीं है - यह एक ऐसा वैचारिक नेटवर्क है, जहां किसी विशेष शब्द के अन्य शब्दों के साथ सभी संभावित कनेक्शन औपचारिक रूप से प्रस्तुत किए जाते हैं। उदाहरण के लिए, "मक्खी" शब्द है - कौन उड़ सकता है, कहाँ, किस पूर्वसर्ग के साथ इस शब्द का उपयोग किया जाता है, इसे किन शब्दों के साथ जोड़ा जाता है, और इसी तरह। यह संसाधन भाषा को वास्तविक जीवन से जोड़ने में मदद करता है, अर्थात यह पता लगाने के लिए कि आकृति विज्ञान और वाक्य रचना के स्तर पर एक विशिष्ट शब्द कैसे व्यवहार करता है। यह बहुत उपयोगी है।

    एविकॉम्प वर्तमान में संबंधित लेख खोजने के लिए एक प्लगइन विकसित कर रहा है। यही है, यदि आप किसी लेख में रुचि रखते हैं, तो आप जल्दी से कथानक के इतिहास को देख सकते हैं: जब विषय उत्पन्न हुआ, क्या लिखा गया था और जब इस समस्या में रुचि का चरम था। उदाहरण के लिए, इस प्लग-इन की मदद से, सीरिया में घटनाओं पर एक लेख से शुरू करके, यह बहुत जल्दी देखना संभव होगा कि पिछले एक साल में वहां की घटनाओं का विकास कैसे हुआ है।

    मजिस्ट्रेट में सीखने की प्रक्रिया को कैसे संरचित किया जाएगा?

    एचएसई में शिक्षा अलग मॉड्यूल में आयोजित की जाती है, जैसा कि पश्चिमी विश्वविद्यालयों में होता है। छात्रों को छोटी टीमों, मिनी-स्टार्टअप में विभाजित किया जाएगा - यानी, अंत में, हमें कई तैयार परियोजनाएं प्राप्त करनी चाहिए। हम वास्तविक उत्पाद प्राप्त करना चाहते हैं, जिसे हम तब लोगों के लिए खोलेंगे और उन्हें सार्वजनिक डोमेन में छोड़ देंगे।

    छात्रों की परियोजनाओं के प्रत्यक्ष प्रबंधकों के अलावा, हम उनके संभावित नियोक्ताओं में से उनके लिए क्यूरेटर ढूंढना चाहते हैं - उदाहरण के लिए, उसी "यांडेक्स" से, जो इस गेम को भी खेलेंगे और छात्रों को कुछ सलाह देंगे।

    मुझे आशा है कि विभिन्न क्षेत्रों के लोग मास्टर कार्यक्रम में आएंगे: प्रोग्रामर, भाषाविद, समाजशास्त्री, विपणक। हमारे पास भाषा विज्ञान, गणित और प्रोग्रामिंग में कई अनुकूलन पाठ्यक्रम होंगे। तब हमारे पास भाषा विज्ञान में दो गंभीर पाठ्यक्रम होंगे, और वे सबसे प्रासंगिक भाषाई सिद्धांतों से जुड़े होंगे, हम चाहते हैं कि हमारे स्नातक आधुनिक भाषाई लेखों को पढ़ने और समझने में सक्षम हों। गणित के साथ भी ऐसा ही है। हमारे पास "गणितीय भाषाविज्ञान की गणितीय नींव" नामक एक पाठ्यक्रम होगा, जो गणित के उन वर्गों की रूपरेखा तैयार करेगा जिन पर आधुनिक कम्प्यूटेशनल भाषाविज्ञान आधारित है।

    एक मास्टर कार्यक्रम में नामांकन के लिए, आपको भाषा में एक प्रवेश परीक्षा उत्तीर्ण करने और एक पोर्टफोलियो प्रतियोगिता पास करने की आवश्यकता है।

    मुख्य पाठ्यक्रमों के अलावा, वैकल्पिक विषय पंक्तियाँ होंगी। हमने कई चक्रों की योजना बनाई है - उनमें से दो व्यक्तिगत विषयों के गहन अध्ययन पर केंद्रित हैं, जिनमें शामिल हैं, उदाहरण के लिए, मशीनी अनुवाद और कॉर्पस भाषाविज्ञान, और, इसके विपरीत , एक संबंधित क्षेत्रों से संबंधित है: जैसे , सोशल मीडिया, मशीन लर्निंग या डिजिटल मानविकी - एक ऐसा कोर्स जिसकी हमें उम्मीद है कि अंग्रेजी में दिया जाएगा।

    पाठ्यक्रम कार्य

    अनुशासन में "सूचना विज्ञान"

    विषय पर: "कम्प्यूटेशनल भाषाविज्ञान"


    परिचय

    1. भाषाई अनुसंधान में कम्प्यूटेशनल भाषाविज्ञान का स्थान और भूमिका

    2. कम्प्यूटेशनल भाषाविज्ञान के आधुनिक इंटरफेस

    निष्कर्ष

    साहित्य


    परिचय

    स्वचालित सूचना प्रौद्योगिकियां आधुनिक समाज के जीवन में एक महत्वपूर्ण भूमिका निभाती हैं। समय के साथ इनका महत्व लगातार बढ़ता जा रहा है। लेकिन सूचना प्रौद्योगिकी का विकास बहुत असमान है: यदि कंप्यूटर प्रौद्योगिकी और संचार सुविधाओं का आधुनिक स्तर कल्पना को चकित करता है, तो अर्थ सूचना प्रसंस्करण के क्षेत्र में, सफलताएं बहुत अधिक मामूली हैं। ये सफलताएं, सबसे पहले, मानव सोच की प्रक्रियाओं के अध्ययन में उपलब्धियों पर, लोगों के बीच मौखिक संचार की प्रक्रियाओं और कंप्यूटर पर इन प्रक्रियाओं को अनुकरण करने की क्षमता पर निर्भर करती हैं।

    जब होनहार सूचना प्रौद्योगिकी के निर्माण की बात आती है, तो प्राकृतिक भाषाओं में प्रस्तुत पाठ्य सूचना के स्वत: प्रसंस्करण की समस्याएँ सामने आती हैं। यह इस तथ्य से निर्धारित होता है कि किसी व्यक्ति की सोच उसकी भाषा से निकटता से संबंधित है। इसके अलावा, प्राकृतिक भाषा सोचने का एक उपकरण है। यह लोगों के बीच संचार का एक सार्वभौमिक साधन भी है - सूचना के धारणा, संचय, भंडारण, प्रसंस्करण और प्रसारण का एक साधन। कम्प्यूटेशनल भाषाविज्ञान का विज्ञान स्वचालित सूचना प्रसंस्करण प्रणालियों में प्राकृतिक भाषा के उपयोग की समस्याओं से संबंधित है। यह विज्ञान अपेक्षाकृत हाल ही में उत्पन्न हुआ - पिछली शताब्दी के पचास और साठ के दशक के मोड़ पर। पिछली आधी शताब्दी में, कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र में महत्वपूर्ण वैज्ञानिक और व्यावहारिक परिणाम प्राप्त हुए हैं: एक प्राकृतिक भाषा से दूसरी भाषा में ग्रंथों के मशीनी अनुवाद के लिए सिस्टम, ग्रंथों में स्वचालित सूचना पुनर्प्राप्ति के लिए सिस्टम, स्वचालित विश्लेषण और मौखिक के संश्लेषण के लिए सिस्टम भाषण, और कई अन्य बनाए गए हैं। यह काम भाषाई अनुसंधान करते समय कम्प्यूटेशनल भाषाविज्ञान के माध्यम से एक इष्टतम कंप्यूटर इंटरफ़ेस के निर्माण के लिए समर्पित है।


    आधुनिक दुनिया में, विभिन्न भाषाई अनुसंधानों में कम्प्यूटेशनल भाषाविज्ञान का तेजी से उपयोग किया जा रहा है।

    कम्प्यूटेशनल भाषाविज्ञान ज्ञान का एक क्षेत्र है जो प्राकृतिक भाषा में प्रस्तुत सूचना के स्वत: प्रसंस्करण की समस्याओं को हल करने से जुड़ा है। कम्प्यूटेशनल भाषाविज्ञान की केंद्रीय वैज्ञानिक समस्याएं ग्रंथों के अर्थ को समझने की प्रक्रिया को मॉडलिंग की समस्या है (पाठ से उसके अर्थ के औपचारिक प्रतिनिधित्व के लिए संक्रमण) और भाषण संश्लेषण की समस्या (अर्थ के औपचारिक प्रतिनिधित्व से संक्रमण) प्राकृतिक भाषा में ग्रंथ)। कई लागू समस्याओं को हल करते समय ये समस्याएं उत्पन्न होती हैं और, विशेष रूप से, कंप्यूटर में पाठ दर्ज करते समय त्रुटियों के स्वत: पता लगाने और सुधार की समस्याएं, मौखिक भाषण का स्वचालित विश्लेषण और संश्लेषण, एक भाषा से दूसरी भाषा में ग्रंथों का स्वचालित अनुवाद, संचार के साथ संचार प्राकृतिक भाषा में एक कंप्यूटर, टेक्स्ट दस्तावेज़ों का स्वचालित वर्गीकरण और अनुक्रमण, उनका स्वचालित सारांश, पूर्ण-पाठ डेटाबेस में दस्तावेज़ खोज।

    कम्प्यूटेशनल भाषाविज्ञान में निर्मित और उपयोग किए जाने वाले भाषाई उपकरणों को सशर्त रूप से दो भागों में विभाजित किया जा सकता है: घोषणात्मक और प्रक्रियात्मक। घोषणात्मक भाग में भाषा और भाषण इकाइयों, ग्रंथों और विभिन्न प्रकार की व्याकरणिक तालिकाओं के शब्दकोश, प्रक्रियात्मक भाग - भाषा और भाषण इकाइयों, ग्रंथों और व्याकरणिक तालिकाओं में हेरफेर करने के साधन शामिल हैं। कंप्यूटर इंटरफ़ेस कम्प्यूटेशनल भाषाविज्ञान के प्रक्रियात्मक भाग को संदर्भित करता है।

    कम्प्यूटेशनल भाषाविज्ञान की लागू समस्याओं को हल करने में सफलता, सबसे पहले, कंप्यूटर मेमोरी में घोषणात्मक साधनों के प्रतिनिधित्व की पूर्णता और सटीकता पर और प्रक्रियात्मक साधनों की गुणवत्ता पर निर्भर करती है। आज तक, इन समस्याओं को हल करने का आवश्यक स्तर अभी तक प्राप्त नहीं हुआ है, हालांकि कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र में दुनिया के सभी विकसित देशों (रूस, यूएसए, इंग्लैंड, फ्रांस, जर्मनी, जापान, आदि) में काम किया जा रहा है। )

    फिर भी, कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र में गंभीर वैज्ञानिक और व्यावहारिक उपलब्धियों को नोट किया जा सकता है। इसलिए कई देशों (रूस, अमेरिका, जापान, आदि) में, एक भाषा से दूसरी भाषा में ग्रंथों के मशीनी अनुवाद के लिए प्रयोगात्मक और औद्योगिक प्रणालियों का निर्माण किया गया है, प्राकृतिक भाषा में कंप्यूटर के साथ संचार के लिए कई प्रयोगात्मक प्रणालियों का निर्माण किया गया है। , शब्दावली डेटा बैंक, थिसॉरी, द्विभाषी और बहुभाषी मशीन शब्दकोश (रूस, यूएसए, जर्मनी, फ्रांस, आदि) बनाने के लिए काम चल रहा है, मौखिक भाषण के स्वचालित विश्लेषण और संश्लेषण के लिए सिस्टम बनाया जा रहा है (रूस, यूएसए, जापान, आदि) प्राकृतिक भाषाओं के मॉडल के निर्माण के क्षेत्र में अनुसंधान किया जा रहा है।

    लागू कम्प्यूटेशनल भाषाविज्ञान की एक महत्वपूर्ण पद्धतिगत समस्या पाठ्य सूचना के स्वत: प्रसंस्करण के लिए सिस्टम के घोषणात्मक और प्रक्रियात्मक घटकों के बीच आवश्यक अनुपात का सही मूल्यांकन है। किसे वरीयता देनी है: समृद्ध व्याकरणिक और अर्थ संबंधी जानकारी के साथ अपेक्षाकृत छोटी शब्दावली प्रणालियों पर आधारित शक्तिशाली कम्प्यूटेशनल प्रक्रियाएं, या अपेक्षाकृत सरल कंप्यूटर इंटरफेस के साथ एक शक्तिशाली घोषणात्मक घटक? अधिकांश वैज्ञानिक मानते हैं कि दूसरा तरीका बेहतर है। यह जल्दी से व्यावहारिक लक्ष्यों की प्राप्ति की ओर ले जाएगा, क्योंकि कम मृत अंत और मुश्किल से दूर होने वाली बाधाएं होंगी, और यहां अनुसंधान और विकास को स्वचालित करने के लिए व्यापक पैमाने पर कंप्यूटर का उपयोग करना संभव होगा।

    सबसे पहले, पाठ्य सूचना के स्वत: प्रसंस्करण के लिए सिस्टम के घोषणात्मक घटक के विकास पर प्रयासों को जुटाने की आवश्यकता की पुष्टि कम्प्यूटेशनल भाषाविज्ञान के विकास में आधी सदी के अनुभव से होती है। दरअसल, यहां, इस विज्ञान की निर्विवाद सफलता के बावजूद, एल्गोरिथम प्रक्रियाओं के लिए उत्साह अपेक्षित सफलता नहीं लाया। प्रक्रियात्मक साधनों की संभावनाओं में कुछ निराशा भी थी।

    उपरोक्त के आलोक में, यह कम्प्यूटेशनल भाषाविज्ञान के विकास के इस तरह के एक आशाजनक तरीके से प्रतीत होता है, जब मुख्य प्रयास भाषा और भाषण इकाइयों के शक्तिशाली शब्दकोशों के निर्माण, उनकी अर्थ-वाक्यगत संरचना का अध्ययन और के निर्माण के लिए निर्देशित किया जाएगा। रूपात्मक, शब्दार्थ-वाक्यगत और वैचारिक विश्लेषण और ग्रंथों के संश्लेषण के लिए बुनियादी प्रक्रियाएं। यह भविष्य में लागू समस्याओं की एक विस्तृत श्रृंखला को हल करने की अनुमति देगा।

    कम्प्यूटेशनल भाषाविज्ञान का सामना सबसे पहले, सूचना के संग्रह, संचय, प्रसंस्करण और पुनर्प्राप्ति की प्रक्रियाओं के भाषाई समर्थन के कार्यों से होता है। इनमें से सबसे महत्वपूर्ण हैं:

    1. मशीनी शब्दकोशों के संकलन और भाषाई प्रसंस्करण का स्वचालन;

    2. कंप्यूटर में टेक्स्ट दर्ज करते समय त्रुटियों का पता लगाने और उन्हें ठीक करने की प्रक्रियाओं का स्वचालन;

    3. दस्तावेजों और सूचना अनुरोधों का स्वचालित अनुक्रमण;

    4. दस्तावेजों का स्वत: वर्गीकरण और सारांश;

    5. एकभाषी और बहुभाषी डेटाबेस में सूचना पुनर्प्राप्ति प्रक्रियाओं का भाषाई समर्थन;

    6. एक प्राकृतिक भाषा से दूसरी भाषा में ग्रंथों का मशीनी अनुवाद;

    7. भाषाई संसाधकों का निर्माण जो स्वचालित बुद्धिमान सूचना प्रणाली (विशेष रूप से, विशेषज्ञ प्रणालियों के साथ) के साथ एक प्राकृतिक भाषा में, या प्राकृतिक के करीब की भाषा में उपयोगकर्ताओं के संचार को सुनिश्चित करता है;

    8. अनौपचारिक ग्रंथों से तथ्यात्मक जानकारी निकालना।

    आइए हम शोध विषय से संबंधित सबसे अधिक समस्याओं पर विस्तार से ध्यान दें।

    सूचना केंद्रों की व्यावहारिक गतिविधियों में, कंप्यूटर में प्रवेश करने पर ग्रंथों में त्रुटियों के स्वचालित पता लगाने और सुधार की समस्या को हल करने की आवश्यकता होती है। इस जटिल कार्य को सशर्त रूप से तीन कार्यों में विभाजित किया जा सकता है - ग्रंथों की वर्तनी, वाक्य-विन्यास और शब्दार्थ नियंत्रण के कार्य। उनमें से पहला शब्द तने के एक काफी शक्तिशाली संदर्भ मशीन शब्दकोश का उपयोग करके एक रूपात्मक विश्लेषण प्रक्रिया का उपयोग करके हल किया जा सकता है। वर्तनी नियंत्रण की प्रक्रिया में, पाठ के शब्दों को रूपात्मक विश्लेषण के अधीन किया जाता है, और यदि उनके आधारों को संदर्भ शब्दकोश के आधारों से पहचाना जाता है, तो उन्हें सही माना जाता है; यदि उनकी पहचान नहीं की जाती है, तो वे, सूक्ष्म-संदर्भ के साथ, एक व्यक्ति द्वारा देखने के लिए जारी किए जाते हैं। एक व्यक्ति विकृत शब्दों का पता लगाता है और उन्हें ठीक करता है, और संबंधित सॉफ्टवेयर सिस्टम इन सुधारों को सही पाठ में करता है।

    ग्रंथों में त्रुटियों का पता लगाने के लिए वाक्यात्मक नियंत्रण का कार्य उनके वर्तनी नियंत्रण के कार्य से कहीं अधिक कठिन है। सबसे पहले, क्योंकि इसमें इसकी संरचना और वर्तनी नियंत्रण के कार्य को इसके अनिवार्य घटक के रूप में शामिल किया गया है, और दूसरी बात, क्योंकि गैर-औपचारिक ग्रंथों के वाक्यात्मक विश्लेषण की समस्या अभी तक पूरी तरह से हल नहीं हुई है। फिर भी, ग्रंथों का आंशिक वाक्यात्मक नियंत्रण काफी संभव है। यहां आप दो तरीकों से जा सकते हैं: या तो संदर्भ वाक्यात्मक संरचनाओं के पर्याप्त प्रतिनिधि मशीन शब्दकोशों को संकलित करें और उनके साथ विश्लेषण किए गए पाठ की वाक्य-संबंधी संरचनाओं की तुलना करें; या पाठ तत्वों की व्याकरणिक स्थिरता की जाँच के लिए नियमों की एक जटिल प्रणाली विकसित करना। पहला रास्ता हमें अधिक आशाजनक लगता है, हालाँकि यह निश्चित रूप से दूसरे पथ के तत्वों का उपयोग करने की संभावना को बाहर नहीं करता है। ग्रंथों की वाक्यात्मक संरचना को शब्दों के व्याकरणिक वर्गों के संदर्भ में वर्णित किया जाना चाहिए (अधिक सटीक रूप से, शब्दों के लिए व्याकरण संबंधी जानकारी के सेट के अनुक्रम के रूप में)।

    उनमें अर्थ संबंधी त्रुटियों का पता लगाने के लिए ग्रंथों के शब्दार्थ नियंत्रण के कार्य को कृत्रिम बुद्धिमत्ता कार्यों के वर्ग के लिए जिम्मेदार ठहराया जाना चाहिए। पूर्ण रूप से इसका समाधान मानव चिंतन की प्रक्रियाओं के मॉडलिंग के आधार पर ही किया जा सकता है। इस मामले में, जाहिरा तौर पर, ज्ञान में हेरफेर करने के लिए शक्तिशाली विश्वकोश ज्ञानकोष और सॉफ्टवेयर उपकरण बनाना आवश्यक होगा। फिर भी, सीमित विषय क्षेत्रों के लिए और औपचारिक जानकारी के लिए, यह समस्या काफी हल करने योग्य है। इसे ग्रंथों के अर्थपूर्ण और वाक्य-विन्यास नियंत्रण के कार्य के रूप में प्रस्तुत और हल किया जाना चाहिए।