लगभग दो दशकों तक एंटरप्राइज लीडर्स द्वारा विश्वसनीय घटना में शामिल हों। वीबी ट्रांसफॉर्म एक साथ वास्तविक उद्यम एआई रणनीति बनाने वाले लोगों को एक साथ लाता है। और अधिक जानें
कंप्यूटर विजन प्रोजेक्ट्स शायद ही कभी योजनाबद्ध होते हैं, और यह कोई अपवाद नहीं था। यह विचार सरल था: बिल्ड और मॉडल जो एक लैपटॉप की एक तस्वीर को देख सकता है और किसी भी शारीरिक क्षति की पहचान कर सकता है – क्रैकेड स्क्रीन, लापता चाबियाँ या टूटी टिका जैसी चीजें। यह छवि मॉडल के लिए और straighforward उपयोग केस की तरह है और बड़ी भाषा मॉडलS (LLMS), लेकिन इसने जल्दी से कुछ और जटिल में टूर किया।
जिस तरह से, हम मतिभ्रम, अविश्वसनीय आउटपुट और छवियों के साथ मुद्दों में भाग गए थे जो लैपटॉप भी नहीं थे। इन्हें हल करने के लिए, हमने एंटीपिकल तरीके से एक एजेंट फ्रेमवर्क को लागू करना समाप्त कर दिया – टास्क ऑटोमेशन के लिए नहीं, बल्कि मॉडल के प्रदर्शन में सुधार करने के लिए।
इस पोस्ट में, हम जो हमने आजमाए थे, उसके माध्यम से चलेंगे, क्या काम नहीं किया और कैसे और दृष्टिकोणों के संयोजन ने हमें कुछ विश्वसनीय बनाने में मदद की।
जहां हमने शुरुआत की: मोनोलिथिक प्रॉम्प्टिंग
हमारा प्रारंभिक दृष्टिकोण एक मल्टीमॉडल मॉडल के लिए काफी मानक था। हम सेट और सिंगल, बड़े प्रॉम्प्ट को एक छवि को पास करने के लिए एक में छवि-सक्षम एलएलएम और इसे दृश्य क्षति की पहचान करने के लिए कहा। यह अखंड शीघ्र रणनीति स्वच्छ, अच्छी तरह से परिभाषित कार्यों के लिए शालीनता से लागू करने और काम करने के लिए सरल है। लेकिन वास्तविक दुनिया के डेटा शायद ही कभी साथ खेलते हैं।
हम तीन प्रमुख मुद्दों पर जल्दी भाग गए:
- दु: स्वप्न: मॉडल कभी -कभी क्षति का आविष्कार करता है जो अस्तित्व में नहीं था या यह देख रहा था कि वह क्या देख रहा था।
- कबाड़ छवि का पता लगाना: इसमें उन छापों को झंडा देने का कोई विश्वसनीय तरीका नहीं था जो कभी भी लैपटॉप नहीं थे, जैसे डेस्क, दीवारों या लोगों की तस्वीरें कभी -कभी फिसल जाती थीं और निरर्थक क्षति रिपोर्ट प्राप्त होती थीं।
- असंगत सटीकता: इन समस्याओं के संयोजन ने परिचालन उपयोग के लिए मॉडल को बहुत अविश्वसनीय बना दिया।
यह वह बिंदु था जब यह स्पष्ट है कि हमें धन की आवश्यकता है।
पहला फिक्स: मिक्सिंग इमेज रिज़ॉल्यूशन
एक बात जो हमने देखी कि छवि गुणवत्ता ने मॉडल आउटपुट को कितना प्रभावित किया। उपयोगकर्ताओं ने तेज और उच्च-रिज़ॉल्यूशन से लेकर धुंधली तक सभी प्रकार की छवियों को अपलोड किया। इसने हमें संदर्भ के लिए प्रेरित किया अनुसंधान इमेज रिज़ॉल्यूशन पर प्रकाश डाला गया कि कैसे लर्निंग लर्निंग मॉडल को प्रभावित करता है।
हमने उच्च और निम्न-रिज़ॉल्यूशन छवियों का उपयोग और मिश्रण का उपयोग और परीक्षण किया। विचार यह था कि मॉडल को छवि गुणों की विस्तृत श्रृंखला के लिए अधिक लचीला बनाया जाए, जो व्यवहार में सामना करेगा। यह मदद की स्थिरता है, लेकिन मतिभ्रम और कबाड़ छवि से निपटने के कोर ises बने रहे।
मल्टीमॉडल डेटॉर: टेक्स्ट-ओनली एलएलएम मल्टीमॉडल जाता है
पाठ-केवल एलएलएमएस के साथ छवि कैप्शनिंग के संयोजन में हाल के प्रयोगों द्वारा प्रोत्साहित किया गया। बैचजहां कैप्शन छवियों से उत्पन्न होते हैं और फिर एक भाषा मॉडल द्वारा व्याख्या की जाती है, हमने इसे देने और प्रयास करने का फैसला किया।
यह ऐसे काम करता है:
- एलएलएम एक छवि के लिए कई संभावित कैप्शन उत्पन्न करके शुरू होता है।
- एक अन्य मॉडल, जिसे कहा जाता है और मल्टीमॉडल एम्बेडिंग मॉडल, जांचता है कि प्रत्येक कैपेशन छवि को कितनी अच्छी तरह से फिट करता है। इस मामले में, हमने छवि और पाठ के बीच समानता हासिल करने के लिए सिग्लिप को सेट किया।
- सिस्टम इन स्कोर के आधार पर शीर्ष कुछ कैप्शन रखता है।
- एलएलएम नए लिखने के लिए उन शीर्ष कैप्शन का उपयोग करता है, जो छवि के अभिनय रूप से दिखाने के करीब पहुंचने की कोशिश करता है।
- यह इस प्रक्रिया को तब तक दोहराता है जब तक कि कैप्शन में सुधार बंद नहीं होता है, या यह हिट और सेट सीमा है।
सिद्धांत रूप में चतुर रहते हुए, इस दृष्टिकोण ने OOUR उपयोग के मामले के लिए नई समस्याओं को पेश किया:
- लगातार मतिभ्रम: कैप्शन में कभी -कभी काल्पनिक क्षति शामिल थी, जिसे एलएलएम ने तब आत्मविश्वास से बताया।
- अधूरा कवरेज: यहां तक कि कई कैप्शन के साथ, कुछ मुद्दों को पूरी तरह से याद किया गया था।
- जटिलता में वृद्धि, थोड़ा लाभ: जोड़े गए चरणों ने पिछले सेटअप को मज़बूती से बेहतर बनाने के बिना सिस्टम को अधिक जटिल बना दिया।
यह एक आंतक प्रयोग था, लेकिन अल्टिमेटेला नहीं और समाधान।
और फ्रेमवर्क एजेंटों का एक रचनात्मक उपयोग
यह मोड़ था। जबकि एजेंट फ्रेमवर्क का उपयोग आमतौर पर ऑर्केस्ट्रेटिंग टास्क फ्लो के लिए किया जाता है (थिंक एजेंटों को समन्वयित कैलेंडर आमंत्रित या ग्राहक सेवा क्रियाएं), हमने सोचा कि क्या छवि व्याख्या कार्य को तोड़कर छोटा है, विशेष एजेंट मदद कर सकते हैं।
हमने इस तरह से एक एजेंट फ्रेमवर्क का निर्माण किया:
- वाद्यवृंदकार: इसने छवि की जाँच की और पहचाना कि कौन से लैपटप घटक दिखाई दे रहे थे (स्क्रीन, कीबोर्ड, चेसिस, पोर्ट)।
- घटक एजेंट: समर्पित एजेंटों ने प्रत्येक घटक को विशिष्ट क्षति प्रकारों के लिए प्रेरित किया; उदाहरण के लिए, एक फटा स्क्रीन के लिए, एक और लापता कुंजियों के लिए।
- कबाड़ का पता लगाने वाला एजेंट: एक अलग एजेंट ने हरी झड़ी दी कि क्या छवि घटना और लैपटॉप थी जो पहले स्थान पर थी।
इस मॉड्यूलर, टास्क-चालित दृष्टिकोण ने बहुत अधिक सटीक और स्पष्ट परिणाम उत्पन्न किए। मतिभ्रम नाटकीय रूप से गिरा, जंक छवियों को मज़बूती से ध्वजांकित किया गया था और प्रत्येक एजेंट का कार्य सरल था और गुणवत्ता को अच्छी तरह से नियंत्रित करने के लिए पर्याप्त केंद्रित था।
ब्लाइंड स्पॉट: एक एजेंट दृष्टिकोण का व्यापार बंद
यह जितना प्रभावी था, यह सही नहीं था। दो मुख्य सीमाएं दिखाई गईं:
- विलंबता में वृद्धि हुई: कई अनुक्रमिक एजेंटों को चलाना कुल समय में जोड़ा गया।
- कवरेज अंतराल: Agans केवल उन मुद्दों का पता लगा सकते हैं जिन्हें वे स्पष्ट रूप से देखने के लिए प्रोग्राम किए गए थे। यदि किसी छवि ने कुछ अप्रत्याशित दिखाया कि किसी भी एजेंट को पहचानने का काम सौंपा गया था, तो यह किसी का ध्यान नहीं जाएगा।
हमें कवरेज के साथ सटीकता को संतुलित करने की आवश्यकता है।
हाइब्रिड समाधान: एजेंट और अखंड दृष्टिकोण का संयोजन
अंतराल को पाटने के लिए, हमने बनाया और हाइब्रिड सिस्टम:
- रूपरेखा एजेंट पहले भाग गया, ज्ञात क्षति प्रकारों और कबाड़ छवियों का सटीक पता लगाना। हमने लेटमेंट में सुधार करने के लिए सबसे आवश्यक लोगों तक एजेंटों की संख्या को सीमित कर दिया है।
- फिर, और अखंड छवि एलएलएम प्रॉम्प्ट Asything के लिए छवि को स्कैन किया गया है और एजेंटों के साथ चूक गए हैं।
- अंत में, हम मॉडल को ठीक-ठीक कर दिया उच्च-प्राथमिकता वाले उपयोग के मामलों के लिए छवियों का उपयोग और क्यूरेट सेट, जैसे कि अक्सर क्षति परिदृश्यों की रिपोर्ट की जाती है, ताकि अधिकता और विश्वसनीयता में सुधार किया जा सके।
इस संयोजन ने हमें एजेंटों के सेटअप की सटीकता और स्पष्टता दी, मोनोलिथिक प्रॉम्प्टिंग के व्यापक कोवेज और टारगेट फाइन-ट्यूनिंग के आत्मविश्वास को बढ़ावा दिया।
हमने क्या सीखा
जब तक हम इस परियोजना को लपेटते हैं, तब तक कुछ चीजें स्पष्ट हो गईं:
- एजेंट फ्रेमवर्क अधिक बहुमुखी हैं क्योंकि वे क्रेडिट प्राप्त करते हैं: जबकि वे आमतौर पर वर्कफ़्लो प्रबंधन से जुड़े होते हैं, हमने पाया कि वे एक संरचित, मॉड्यूलर तरीके से लागू होने पर मॉडल प्रदर्शन को सार्थक रूप से बढ़ावा दे सकते हैं।
- अलग -अलग दृष्टिकोणों को सम्मिलित करना सिर्फ एक पर भरोसा करता है: एलएलएम के व्यापक कोवेज के साथ सटीक, एजेंट-आधारित पहचान का संयोजन, प्लस और बिट ऑफ फाइन-ट्यूनिंग जहां यह अपना है।
- दृश्य मॉडल मतिभ्रम के लिए रिले हैं: यहां तक कि अधिक उन्नत सेटअप भी निष्कर्ष पर कूद सकते हैं या उन चीजों को देख सकते हैं जो वहां नहीं हैं। यह उन मिस को चेक में रखने के लिए सिस्टम डिज़ाइन करता है।
- छवि गुणवत्ता विविधता बनाती है और अंतर: दोनों स्पष्ट, उच्च-रिज़ॉल्यूशन छवियों और रोजमर्रा के दोनों के साथ प्रशिक्षण और परीक्षण, कम गुणवत्ता वाले लोगों ने अप्रत्याशित, वास्तविक दुनिया की तस्वीरों के साथ सामना करने पर लचीला रहने में मदद की।
- आपको जंक छवियों को पकड़ने की जरूरत है: कबाड़ या अविश्वसनीय चित्रों के लिए एक समर्पित चेक हमारे द्वारा किए गए सबसे सरल परिवर्तनों में से एक था, और इसका समग्र प्रणाली विश्वसनीयता पर एक बाहरी प्रभाव था।
अंतिम विचार
लैपटॉप छवियों में शारीरिक क्षति का पता लगाने के लिए एक एलएलएम प्रॉम्प्ट का उपयोग करते हुए और सरल विचार के रूप में क्या शुरू हुआ, जल्दी से अप्रत्याशित, वास्तविक-सोने की समस्याओं से निपटने के लिए विभिन्न एआई तकनीकों के संयोजन में बहुत गहरे प्रयोग में और बहुत गहरे प्रयोग किए गए। जिस तरह से, हमने महसूस किया कि कुछ सबसे उपयोगी उपकरण इस प्रकार के काम के लिए डिज़ाइन किए गए मूल नहीं थे।
एजेंट फ्रेमवर्क, वर्कफ़्लो यूटिलिटीज के रूप में देखा गया ओफ्थेन, संरचित क्षति का पता लगाने और छवि फ़िल्टरिंग जैसे कार्यों के लिए पुनर्निर्मित होने पर आश्चर्यजनक रूप से प्रभावी प्रदर्शन करता है। रचनात्मकता के साथ, उन्होंने हमें बनाने और प्रणाली बनाने में मदद की, जो न केवल अधिक सटीक था, बल्कि व्यवहार में समझने और प्रबंधित करने में आसान था।
शि तिवारी डेल टेक्नोलॉजीज में एक एआई उत्पाद प्रबंधक है।
वदिरज कुलकर्णी और डेल टेक्नोलॉजीज में डेटा वैज्ञानिक हैं।
स्रोत लिंक
टूर गाइडेंस