मंगलवार को हगिंग फेस, एक ओपन सोर्स विजन लैंग्वेज एक्शन (VLA) आर्टिफिशियल इंटेलिजेंस (AI) मॉडल, Smolvla ने जारी किया। बड़े भाषा मॉडल का उद्देश्य रोबोटिक्स वर्कफ़्लोज़ और प्रशिक्षण-संबंधी कार्यों के लिए है। कंपनी का दावा है कि एआई मॉडल एक एकल उपभोक्ता जीपीयू, या मैकबुक के साथ कंप्यूटर पर स्थानीय रूप से चलाने के लिए पर्याप्त छोटा और कुशल है। न्यूयॉर्क, यूएस-आधारित एआई मॉडल रिपॉजिटरी ने यह भी दावा किया कि स्मोल्वला उन मॉडल को बेहतर बना सकता है जो इससे बहुत बड़े हैं। AI मॉडल वर्तमान में डाउनलोड करने के लिए उपलब्ध है।

हगिंग फेस के स्मोल्वला एआई मॉडल स्थानीय रूप से मैकबुक पर चल सकते हैं

हगिंग फेस के अनुसार, एआई अंतरिक्ष में वृद्धि के बावजूद, रोबोटिक्स में प्रगति धीमी रही है। कंपनी का कहना है कि यह एक के कारण है उच्च गुणवत्ता और विविध डेटा की कमीऔर बड़े भाषा मॉडल (LLM) जो रोबोटिक्स वर्कफ़्लोज़ के लिए डिज़ाइन किए गए हैं।

VLAs समस्याओं में से एक के समाधान के रूप में उभरा है, लेकिन Google और NVIDIA जैसी कंपनियों के अधिकांश अग्रणी मॉडल मालिकाना हैं और निजी Datets पर प्रशिक्षित हैं। नतीजतन, बड़ा रोबोटिक्स अनुसंधान समुदाय, जो ओपन-सोर्स डेटा पर निर्भर करता है, इन एआई मॉडल पर प्रजनन या निर्माण में प्रमुख अड़चन का सामना करता है, पोस्ट पर प्रकाश डाला गया।

ये वीएलए मॉडल छवियों, वीडियो या प्रत्यक्ष कैमरा फ़ीड को कैप्चर कर सकते हैं, वास्तविक दुनिया की स्थिति को समझ सकते हैं और फिर रोबोटिक्स हार्डवेयर का उपयोग करके एक त्वरित कार्य को अंजाम दे सकते हैं।

गले का चेहरा Smolvla वर्तमान में रोबोटिक्स रिसर्च कम्युनिटी द्वारा सामना किए गए दोनों दर्द बिंदुओं को संबोधित करता है-यह एक ओपन-सोर्स रोबोटिक्स-केंद्रित मॉडल है जिसे Lerobot समुदाय से एक खुले डेटासेट पर प्रशिक्षित किया जाता है। Smolvla एक 450 मिलियन पैरामीटर AI मॉडल है जो एक एकल संगत GPU के साथ डेस्कटॉप कंप्यूटर पर चला सकता है, या यहां तक ​​कि नए मैकबुक डिवाइसों में से एक भी।

आर्किटेक्चर में आकर, यह कंपनी के वीएलएम मॉडल पर बनाया गया है। इसमें एक सिग्लिप विज़न एनकोडर और एक भाषा डिकोडर (SMOLLM2) शामिल हैं। दृश्य जानकारी को विज़न एनकोडर के माध्यम से कैप्चर और निकाला जाता है, जबकि प्राकृतिक भाषा संकेतों को टोकन और डिकोडर में खिलाया जाता है।

आंदोलनों या भौतिक कार्रवाई (एक रोबोट हार्डवेयर के माध्यम से कार्य को निष्पादित करना) के साथ काम करते समय, सेंसरिमोटर सिग्नल को एक ही टोकन में जोड़ा जाता है। डिकोडर तब इस सभी जानकारी को एक ही स्ट्रीम में जोड़ता है और इसे एक साथ संसाधित करता है। यह मॉडल को वास्तविक दुनिया के डेटा और कार्य को प्रासंगिक रूप से समझने में सक्षम बनाता है, न कि अलग-अलग संस्थाओं के रूप में।

Smolvla ने एक्शन एक्सपर्ट नामक एक अन्य घटक को जो कुछ भी सीखा है, वह सब कुछ भेजता है, जो यह पता लगाता है कि क्या कार्रवाई करनी है। एक्शन विशेषज्ञ 100 मिलियन मापदंडों के साथ एक ट्रांसफार्मर-आधारित वास्तुकला है। यह रोबोट (वॉकिंग स्टेप्स, आर्म मूवमेंट्स, आदि) के लिए भविष्य की चालों की एक श्रृंखला की भविष्यवाणी करता है, जिसे एक्शन चंक्स के रूप में भी जाना जाता है।

जबकि यह एक आला जनसांख्यिकीय पर लागू होता है, रोबोटिक्स के साथ काम करने वाले लोग कर सकते हैं डाउनलोड करना खुले वजन, डेटासेट और प्रशिक्षण व्यंजनों को या तो पुन: पेश करने या Smolvla मॉडल पर निर्माण करने के लिए। इसके अतिरिक्त, रोबोटिक्स उत्साही जिनके पास एक रोबोटिक आर्म या इसी तरह के हार्डवेयर तक पहुंच है, वे भी मॉडल को चलाने और वास्तविक समय के रोबोटिक्स वर्कफ़्लो को आज़माने के लिए इन्हें डाउनलोड कर सकते हैं।



स्रोत लिंक