भारतीय भाषाओं के लिए एक नया भाषा मॉडल सर्वम-1 तैयार किया गया

भारत के जनरेटिव एआई सेक्टर में उभरती हुई कंपनी सर्वम एआई ने सर्वम-1 नाम से एक नया भाषा मॉडल पेश किया है। यह मॉडल खास तौर पर भारतीय भाषाओं के लिए बनाया गया है और ओपन-सोर्स है। यह बंगाली, हिंदी और तमिल के साथ-साथ अंग्रेजी सहित दस भारतीय भाषाओं को सपोर्ट करता है। अक्टूबर 2024 में लॉन्च किया जाने वाला सर्वम-1 कंपनी के पहले के मॉडल सर्वम 2बी का अनुसरण करता है, जिसे अगस्त 2024 में लॉन्च किया गया था।

सर्वम-1 का अवलोकन

सर्वम-1 को 2 बिलियन मापदंडों के साथ विकसित किया गया है। मापदंड एक AI मॉडल की जटिलता और क्षमता को दर्शाते हैं। तुलना के लिए, Microsoft के Phi-3 मिनी में 3.8 बिलियन पैरामीटर हैं। सर्वम-1 को एक छोटे भाषा मॉडल (SLM) के रूप में वर्गीकृत किया गया है क्योंकि इसमें दस बिलियन से कम पैरामीटर हैं। यह ओपनएआई के GPT-4 जैसे बड़े भाषा मॉडल (LLM) के विपरीत है, जिसमें एक ट्रिलियन से अधिक पैरामीटर हैं।

तकनीकी निर्देश

सर्वम-1 को योट्टा के 1,024 ग्राफिक्स प्रोसेसिंग यूनिट (GPU) द्वारा संचालित किया गया है और NVIDIA के NeMo फ्रेमवर्क का उपयोग करके प्रशिक्षित किया गया है। यह मॉडल एक बड़ी चुनौती को संबोधित करता है: भारतीय भाषाओं के लिए उच्च गुणवत्ता वाले प्रशिक्षण डेटा की कमी। मौजूदा डेटासेट में अक्सर आवश्यक गहराई और विविधता का अभाव होता है। इसे दूर करने के लिए, सर्वम एआई ने अपना प्रशिक्षण कोष, सर्वम-2T बनाया।

प्रशिक्षण डेटा

सर्वम-2T में अनुमानित 2 ट्रिलियन टोकन शामिल हैं। डेटासेट सभी दस समर्थित भाषाओं में समान रूप से वितरित किया गया है। इसमें प्रशिक्षण डेटा की गुणवत्ता बढ़ाने के लिए सिंथेटिक डेटा जनरेशन तकनीकें शामिल हैं। डेटासेट का लगभग 20% हिस्सा हिंदी में है, जबकि काफी हिस्सा अंग्रेजी और प्रोग्रामिंग भाषाओं में है। यह विविधता मॉडल को एकभाषी और बहुभाषी दोनों तरह के कार्य करने में सहायता करती है।

प्रदर्शन मेट्रिक्स

सर्वम-1 को पिछले एलएलएम की तुलना में इंडिक भाषा लिपियों को संभालने में अधिक कुशल बताया गया है। यह प्रति शब्द कम टोकन का उपयोग करता है, जो इसकी दक्षता में योगदान देता है। मॉडल ने MMLU और ARC-चैलेंज सहित कई बेंचमार्क पर मेटा के लामा-3 और गूगल के गेम्मा-2 जैसे बड़े AI मॉडल को पीछे छोड़ दिया है।

बेंचमार्क उपलब्धियां

ट्रिवियाक्यूए बेंचमार्क पर, सर्वम-1 ने इंडिक भाषाओं के लिए 86.11 की सटीकता हासिल की। ​​यह स्कोर मेटा के लामा-3.1 8बी से अधिक है, जिसने 61.47 स्कोर किया। सर्वम-1 में कम्प्यूटेशनल दक्षता भी है, जिसमें अनुमान लगाने की गति गेम्मा-2-9बी और लामा-3.1-8बी जैसे बड़े मॉडलों की तुलना में 4-6 गुना अधिक है।

व्यावहारिक अनुप्रयोगों

मजबूत प्रदर्शन और उच्च अनुमान दक्षता का संयोजन सर्वम-1 को व्यावहारिक अनुप्रयोगों के लिए उपयुक्त बनाता है, जिसमें एज डिवाइस पर तैनाती भी शामिल है। यह वास्तविक दुनिया के उपयोग के मामलों के लिए विशेष रूप से महत्वपूर्ण है जहां कम्प्यूटेशनल संसाधन सीमित हो सकते हैं।

सर्वम-1 हगिंग फेस पर डाउनलोड के लिए उपलब्ध है, जो ओपन-सोर्स एआई मॉडल के लिए एक ऑनलाइन प्लेटफ़ॉर्म है। यह सुलभता डेवलपर्स और शोधकर्ताओं को भारतीय भाषाओं से जुड़े विभिन्न अनुप्रयोगों के लिए मॉडल का उपयोग करने की अनुमति देती है।

 
Spread the love

Leave a Comment