दोस्तो क्या आपको पता है Hadoop क्या है तथा Hadoop के फायदे क्या है। आए दिन हम सुनते
है कि एक दिन में इतने videos देखे गए, एक दिन में इतने million email भेजे गए तो आखिर इतने
बड़े डेटा को analyse कैसे किया जाता है।
बड़ी बड़ी कंपनी यह कैसे पता लगाती है कि पूरी दुनिया में किसने क्या देखा तथा कितने मेसेज और
ईमेल भेजे गए, इसके लिए बहुत बड़े और पॉवरफुल tools का उपयोग होता है जिसका नाम है Hadoop। इसमें किसी भी
big डेटा को analyse करने कि ताकत होती है।
👉 बर्ड फ्लू क्या है? बर्ड फ्लू के लक्षण क्या है?
👉 रिफर्बिश्ड फोन क्या होते है? और इन्हे खरीदना चाहिए या नहीं ?
बिग डेटा का मतलब जैसे अभी मैंने आपको बताया कि एक दिन में लोगो ने क्या भेजा और इंटरनेट पर
क्या देखा इसका हिसाब रखना होता है अब दुनिया में 750 करोड़ लोग है और इतना सारा डेटा है
लेकिन इस Hadoop से यह करना थोड़ा आसान कर दिया है।
आगे पोस्ट में हम जानेंगे कि Hadoop के फायदे क्या है और Hadoop की परिभाषा क्या होती
है, लेकिन यह जानने के लिए आपको यह पोस्ट पढ़नी पड़ेगी यह पोस्ट पढ़ने के लिए Hadoop
क्या है यह आपको काफी अच्छे से समझ आ जायेगा।
Hadoop क्या है
Hadoop एक open source software framework हैं जो बहुत huge data स्टोरेज
प्रोवाइड करता है। software framework को आप किसी प्रकार का सॉफ्टवेयर मत समझना वल्कि यह सिर्फ एक फ्रेमवर्क है, जैसे Java एक framework हैं वह किसी भी प्रकार का सॉफ्टवेयर नहीं है उसी तरह Hadoop भी open source software framework हैं।
इसका इस्तेमाल बहुत बड़े डाटा को स्टोर तथा उसको प्रोसेस करने के लिए किया जाता है, इसकी खास बात है कि इसमें डिस्ट्रिब्यूटेड स्टोरेज को इस्तेमाल किया जाता है और distributed processing की जाती है। इसका यह मतलब हुआ कि इतने बड़े डेटा को अगर कोई एक कंप्यूटर प्रोसेस करेगा तो प्रोसेसिंग होने में काफी टाइम लगेगा और कंप्यूटर स्लो हो जाएगा।
👉 पुराना लैपटॉप लेने से पहले यह बातें ध्यान रखे ?
👉 लैपटॉप इतने महंगे क्यों होते है? लैपटॉप महेंगे होने का कारण क्या है ?
इसलिए इसमें प्रोसेसिंग को बहुत सारे अलग अलग कंप्यूटर में बांट दिया जाता है जिससे प्रोसेसिंग
आसान और बहुत कम समय में हो जाती है और इसके जरिए किसी भी बड़े से बड़े डेटा को आंकलन
संभव हो पाता है। यह एक open source framework हैं जो सभी के लिए उपलब्ध है हालांकि इसको Java में लिखा गया है।
इसमें अलग अलग कंप्यूटर के काम करने को नोड्स कहा जाता है, इसे इस प्रकार डिजाइन किया गया है
कि किसी भी फाइल को प्रोसेस कर सके, अब समझते है Hadoop का आर्किटेक्चर क्या है?
Hadoop का आर्किटेक्चर
इसमें हम समझने वाले है कि Hadoop का आर्किटेक्चर कैसा होता है इसका रोल क्या होता है तथा इसमें कौन कौन से कंपोनेंट होते है।
1. Common utilities
Hadoop और इसके कंपोनेंट को सही से चलने के लिए यह Common utilities फाइल बेहद मदद करती है। Common utilities वह स्क्रिप्ट, इंफॉर्मेशन, या फिर मॉड्यूल, फाइल या फिर लाइब्रेरी है जो Hadoop के दूसरे कंपोनेंट को सही से चलाने में मदद करती है।
Common utilities ऐसी इंफॉर्मेशन, स्क्रिप्ट प्रोवाइड करता है जिससे आप Hadoop को कॉर्डिनेट या फिर स्टार्ट कर सकते हो, यह
मॉड्यूल Hadoop के लिए बेहद जरूरी होता है यही से कंट्रोल होता है कि Hadoop किस तरह से काम करेगा।
2. Yarn Framework
Yarn का फुल होता “yet another resource negotiator” होता है यह Hadoop में 2 तरह से काम करता है पहला Js और दूसरा Rm।
Js – इसे job scheduling कहते है। जब भी आपको बहुत बड़ा डेटा प्रॉसेसिंग के लिए दिया जाता है अब आपके पास इतना पॉवरफुल कंप्यूटर तो है नहीं कि अकेला ही प्रोसेस कर लेगा इसलिए उसको छोटे छोटे Jobs (पार्ट्स) में बांट दिया जाता है।
अब इसमें यह देखा जाता है कि कौन सा job ज्यादा जरूरी है किस job को कौन सा टाइप
मिलना चाहिए और कौन सा job कितने तेज़ी से प्रोसेस करेगा यह सारा काम Js मैनेज करता है।
Rm – इसका मतलब “Resource Management” होता है, किसी भी डेटा को स्टोर करने और उसको प्रोसेस करने के किए
resources होना बहुत जरूरी है तो वो जो भी resource होंगे तथा उनको मैनेज करना यह सारा काम Rm करता है।
यह दोनों framework yarn मॉड्यूल में बहुत ज्यादा मदद करते है।
3. HDFS
इसका फुल फॉर्म “Hadoop Distributed file system” होता है जैसा की इसके नाम से ही समझ सा रहा है यह एक डिस्ट्रिब्यूटेड स्टोरेज होती है जिसका फायदे यह होता है processing पॉवर बढ़ जाती है और इसका बैकअप बनाने में आसानी होती है।
अगर आपका कोई एक नोड्स डाउन हो गया तो दूसरे नोड्स से सारा डेटा लेकर फिर से काम किया
जा सकता है तथा इसके साथ यह आपके डेटा के ऐक्सेस को काफी बढ़ा देता है इसलिए Hadoop
में यह बेहद जरूरी होता है।
4. Map reduce
Basically यह map reduce yarn framework पर बेस्ड है और इसको डिस्ट्रिब्यूटेड Processing भी कहा जाता है। जब आपको बिग डेटा दिया गया है तो सीरियल processing से काम नहीं चलता उसके लिए सबसे बेस्ट और कारगर तरीका है डिस्ट्रिब्यूटेड Processing।
यह किसी भी डेटा को parallel प्रोसेस करता है जिससे टाइम बचता है तथा प्रोसेसिंग एक्यूरेट होती
है। इसमें भी 2 फेज होते है पहले में मैप होगा और दूसरे मे रिड्यूस होकर आउटपुट जाएगा।
Hadoop के फायदे
देखिए किसी भी टेक्नोलॉजी या किसी भी चीज के दो पहलू होते है उसके फायदे और नुकसान तो चलिए अब जानते है कि Hadoop के फायदे क्या है?
1. इसकी कम्प्यूटिंग पॉवर बहुत अच्छी है यह इसलिए क्यूंकि इसका नेचर डिस्ट्रिब्यूटेड है।
2. इसकी स्टोरेज भी बहुत मैक्सिमम होती है।
3. यह fault tolerance होता है मतलब कि अगर एक नोड्स डाउन भी हो जाती है तो उस
नोड्स का काम दूसरे नोड्स में बांट दिया जाता है जिससे प्रोसेसिंग रुकती नहीं है।
4. किसी भी देता को प्रोसेस करने में flexible होता है, मतलब कोई भी डेटा जैसे ऑडियो,
वीडियो या किसी भी प्रकार कि फाइल को adapt करके उसको flexibility से प्रोसेस करता है।
5. इसकी कॉस्ट बहुत कम है क्यूंकि यह एक ओपन framework है जो सभी के लिए उपलब्ध है
इसलिए इसकी कॉस्ट बेहद कम है।
Hadoop के नुकसान
1. इसका सबसे बड़ा नुकसान यह है कि इसमें स्मॉल डेटा प्रोसेस नहीं होता, अब क्यूंकि इसे बहुत विशाल डेटा को एक्सक्यूट करने के लिए बनाया गया है इसलिए छोटे डेटा को यह फिट नहीं बैठता।
2. अगर आप Hadoop में एक दम नए हो तो आपको सिक्योरटी issue आ सकते है क्यूंकि इसमें सिक्योरिटी को एनाबल करना होता है।
3. इसकी प्रोग्रामिंग language में इतना ज्यादा flexibility नहीं होती है।
निष्कर्ष
दोस्तों इस पोस्ट के माध्यम से मैंने आपको बताया कि Hadoop क्या है और Hadoop के फायदे क्या है? यह टॉपिक इतना आसान नहीं है लेकिन मैंने अपनी तरफ से पूरी कोशिश कि है की आपको सरल तरीके से समझा सकूं।
अगर आपको इस पोस्ट से कुछ सीखने को मिला तो हमसे कॉमेंट बॉक्स में जरूर शेयर कीजिए, तथा आपको और कौन से विषय पर आर्टिकल चाहिए आप हमे यह भी बता सकते हो, बाकी अंत तक पोस्ट पढ़ने के लिए शुक्रिया।
1 thought on “Hadoop क्या है ? Hadoop के फायदे क्या है?”
Comments are closed.