सूचना
पुनर्प्राप्ति प्रणाली की बुनियादी अवधारणाएँ
और घटक
परिचय
हम उस ज्ञान
प्रणाली की संकल्पना करते
हैं जिसमें एक आईआर प्रणाली
को तीन घटक भागों से मिलकर प्रत्यारोपित
किया जाता है: ए) सूचना-प्रोसेसर
के रूप में उनकी भूमिका में लोग, बी) सूचना के वाहक के
रूप में उनकी भूमिका में दस्तावेज़, और सी) प्रतिनिधित्व
के रूप में विषय। हम इन तीनों
वस्तुओं में से प्रत्येक के
जीवन चक्र और उनके बीच
गतिशील अंतःक्रियाओं से जुड़े हुए
हैं। इस प्रकार सूचना
पुनर्प्राप्ति प्रणाली का उद्देश्य उपयोगकर्ताओं
को दस्तावेजों के एक संगठित
संग्रह से प्रासंगिक जानकारी
खोजने में सक्षम बनाना है। वास्तव में, अधिकांश सूचना पुनर्प्राप्ति प्रणालियाँ, वास्तव में, दस्तावेज़ पुनर्प्राप्ति प्रणालियाँ हैं, क्योंकि वे उपयोगकर्ता क्वेरी
के लिए प्रासंगिक दस्तावेज़ों के अस्तित्व (या
गैर-अस्तित्व) के बारे में
जानकारी प्राप्त करने के लिए डिज़ाइन
की गई हैं। लैंकेस्टर
की टिप्पणी है कि एक
सूचना पुनर्प्राप्ति प्रणाली उपयोगकर्ता को उनकी पूछताछ
के विषय पर सूचित नहीं
करती (ज्ञान में परिवर्तन नहीं करती); यह उन्हें केवल
उनके अनुरोध से संबंधित दस्तावेजों
के अस्तित्व (या गैर-अस्तित्व)
और ठिकाने के बारे में
सूचित करता है। हालाँकि, ग्रंथ सूची डेटाबेस में पूर्ण पाठ दस्तावेजों की उपलब्धता के
बाद से सूचना पुनर्प्राप्ति
की यह धारणा बदल
गई है। आधुनिक सूचना पुनर्प्राप्ति प्रणालियाँ या तो ग्रंथ
सूची आइटम, या सटीक पाठ
पुनर्प्राप्त कर सकती हैं
जो दस्तावेज़ों के पूर्ण पाठ
के संग्रहीत डेटाबेस से उपयोगकर्ता के
खोज मानदंड से मेल खाता
है। हालाँकि सूचना पुनर्प्राप्ति प्रणाली का मूल अर्थ
पाठ पुनर्प्राप्ति प्रणाली था, क्योंकि वे पाठ्य दस्तावेज़ों
से निपट रहे थे, कई आधुनिक सूचना
पुनर्प्राप्ति प्रणालियाँ पाठ, ऑडियो, चित्र और वीडियो वाली
मल्टीमीडिया जानकारी से निपटती हैं।
जबकि पारंपरिक पाठ पुनर्प्राप्ति प्रणालियों की कई विशेषताएं
मल्टीमीडिया सूचना पुनर्प्राप्ति पर समान रूप
से लागू होती हैं, ऑडियो, छवि और वीडियो जानकारी
की विशिष्ट प्रकृति ने सूचना पुनर्प्राप्ति
के लिए कई नए उपकरणों
और तकनीकों के विकास की
मांग की है। आधुनिक
सूचना पुनर्प्राप्ति भंडारण, संगठन और पाठ तक
पहुंच के साथ-साथ
मल्टीमीडिया सूचना संसाधनों से संबंधित है।
हालाँकि
ऐतिहासिक रूप से सूचना पुनर्प्राप्ति
प्रणालियाँ अंतिम उपयोगकर्ताओं को ग्रंथ सूची
और पाठ्य डेटाबेस से प्रासंगिक जानकारी
खोजने में मदद करने के लिए स्थापित
की गई थीं, इस
21वीं सदी में सूचना पुनर्प्राप्ति प्रणाली का उपयोग हमारे
दैनिक जीवन के लगभग हर
पहलू में किया जाता है, उदाहरण के लिए, YouTube पर
एक गीत पुनर्प्राप्त करने के लिए या
किसी विशिष्ट तिथि पर प्राप्त या
भेजा गया ई-मेल; किसी
विशेष व्यक्ति को या उसके
द्वारा भेजे गए एसएमएस ढूंढना;
वेब पर किसी व्यक्ति
की इकाई ढूँढ़ने के लिए; किसी
ऑनलाइन लाइब्रेरी कैटलॉग या डिजिटल लाइब्रेरी
में ई-पुस्तक की
खोज करना; Amazon.com आदि पर खरीद के
लिए उपलब्ध पुस्तक की खोज करना
आईआर
प्रणाली के प्रकार आईआर
ने लिखित पाठ वाले दस्तावेजों को खोजने पर
अधिक ध्यान केंद्रित किया है; अधिकांश आईआर अनुसंधान विशेष रूप से पाठ पुनर्प्राप्ति
पर केंद्रित है - मानव अनुक्रमण के बिना मशीन-पठनीय पाठ की कम्प्यूटरीकृत पुनर्प्राप्ति।
लेकिन यह अन्य दिलचस्प
क्षेत्रों में भी फैल गया
है। जैसे: स्पीच रिट्रीवल: स्पीच मल्टीमीडिया का एक सूचना-समृद्ध तत्व है। अब ऐसी कई
तकनीकें मौजूद हैं जहां भाषण संकेत से कई अलग-अलग तरीकों से जानकारी निकाली
जा सकती है। इस प्रकार कई
सुस्थापित वाक् संकेत विश्लेषण अनुसंधान क्षेत्र हैं। इन क्षेत्रों में
वाक् पहचान, वक्ता पहचान, आवाज पहचान, भावना विश्लेषण और फिंगरप्रिंटिंग शामिल
हैं। इन क्षेत्रों में
विकसित उपकरणों और विधियों से
जो जानकारी निकाली जा सकती है,
वह मल्टीमीडिया सिस्टम को काफी हद
तक बढ़ा सकती है और विभिन्न
पहलुओं में मानव जाति की मदद कर
सकती है। क्रॉस लैंग्वेज सूचना पुनर्प्राप्ति: यह सूचना पुनर्प्राप्ति
का एक अनुप्रयोग क्षेत्र
है, जो उपयोगकर्ता की
क्वेरी की भाषा से
भिन्न किसी विशेष भाषा में लिखी गई जानकारी लाने
से संबंधित है।
. सार-संक्षेप अनुक्रमण से संबंधित है
- दस्तावेज़ की मुख्य सामग्री
देते हुए संपूर्ण दस्तावेज़ का सारांश प्रदान
करने का कार्य या
कभी-कभी इसमें महत्वपूर्ण परिणाम (सूचनात्मक सार, सारांश) भी शामिल हो
सकते हैं। बहुत से शोधकर्ताओं की
रुचि स्वचालित संक्षेपण के निर्माण के
लिए एल्गोरिदम डिजाइन करने में है। स्वचालित अनुक्रमण सुविधा चयन और निष्कर्षण के
साथ शुरू होता है, यह एक पाठ
से सभी शब्दों को निकालने की
मांग करता है, इसके बाद स्टॉप-शब्दों को हटा दिया
जाता है (ऐसे शब्द जो प्राकृतिक भाषा
डेटा (पाठ) के प्रसंस्करण से
पहले या बाद में
फ़िल्टर किए जाते हैं)।
सिस्टम कई प्रासंगिक वस्तुओं
में पाए जाने वाले फीचर्स (असाइन किए गए डिस्क्रिप्टर; टेक्स्ट
शब्द और वाक्यांश, और
इसी तरह) की एक सूची
और अप्रासंगिक वस्तुओं की एक और
सूची प्रदर्शित करके क्वेरी को समृद्ध करने
में उपयोगकर्ताओं को सहायता प्रदान
कर सकता है। कुछ मामलों में सिस्टम उन विशिष्ट विशेषताओं
की पहचान करके स्वचालित रूप से क्वेरी में
सुधार कर सकता है
जो अप्रासंगिक वस्तुओं से प्रासंगिक के
बीच अंतर कर सकते हैं
और इस प्रकार प्रासंगिकता
के अच्छे भविष्यवक्ता हैं।
