यह लेख वेंचरबीट के विशेष मुद्दे का हिस्सा है, “द रियल कॉस्ट ऑफ एआई: प्रदर्शन, दक्षता और आरओआई स्केल पर।” और पढ़ें इस विशेष मुद्दे से।

मॉडल प्रदाता लंबे समय तक संदर्भ खिड़कियों और बढ़ी हुई तर्क कैपबिलियों के साथ तेजी से परिष्कृत बड़े भाषा मॉडल (एलएलएम) को रोल करना जारी रखते हैं।

यह मॉडल को संसाधित करने और “सोचने” की अनुमति देता है, लेकिन यह गणना भी बढ़ाता है: अधिक और मॉडल में ले जाता है और बाहर डालता है, अधिक ऊर्जा यह खर्च करती है और लागत अधिक होती है।

कूप को संकेत देने के साथ जुड़े सभी टिंकरिंग के साथ इसे कूप करें – यह इच्छित परिणाम को प्राप्त करने के लिए कुछ प्रयास कर सकता है, और कभी -कभी हाथ में सवाल की आवश्यकता नहीं होती है और मॉडल जो कर सकता है और पीएचडी – और कम्प्यूट खर्च नियंत्रण से बाहर हो सकता है।

यह प्रॉम्प्ट ऑप्स को जन्म दे रहा है, एक नया अनुशासन में एआई की उम्र

क्रॉफर्ड डेल प्रीट, “प्रॉम्प्ट इंजीनियरिंग लिखने की तरह है, वास्तविक निर्माण, जबकि प्रॉम्प्ट ऑप्स प्रकाशन की तरह है, जहां आप सामग्री विकसित कर रहे हैं,” आईडीसी राष्ट्रपति, वेंचरबीट को बताया। “सामग्री जीवित है, सामग्री बदल रही है, और आप यह सुनिश्चित करना चाहते हैं कि आप समय के साथ इसे परिष्कृत कर रहे हैं।”

गणना के उपयोग और लागत की चुनौती

एलएलएम के संदर्भ में गणना उपयोग और लागत दो “संबंधित लेकिन अलग -अलग अवधारणाएं” हैं, डेविड एमर्सन ने समझाया, लागू वैज्ञानिक वेक्टर संस्थान। आम तौर पर, मूल्य उपयोगकर्ता इनपुट टोकन की संख्या (उपयोगकर्ता के संकेत) और आउटपुट टोकन (मॉडल को क्या बचाता है) की संख्या के आधार पर तराजू का भुगतान करते हैं। हालांकि, वे मेटा-प्रॉम्प्ट, स्टीयरिंग निर्देश या पुनर्प्राप्ति-एनेडेड जेनरेशन (आरएजी) जैसे पीछे-पीछे के कार्यों के लिए नहीं बदले जाते हैं।

जबकि लंबे समय तक संदर्भ मॉडल को एक बार में बहुत अधिक पाठ को संसाधित करने की अनुमति देता है, यह सीधे अधिक फ्लॉप (गणना शक्ति का एक माप) में अनुवाद करता है, उन्होंने समझाया। ट्रांसफार्मर मॉडल के कुछ पहलुओं को भी इनपुट लंबाई के साथ चतुर्भुज रूप से स्केल किया जाता है यदि अच्छी तरह से प्रबंधित नहीं किया जाता है। अनावश्यक रूप से लंबी प्रतिक्रियाएं भी प्रसंस्करण समय को धीमा कर सकती हैं और उपयोगकर्ताओं के उत्तर में पोस्ट-प्रो सम्मान के लिए एल्गोरिदम के निर्माण और बनाए रखने के लिए अतिरिक्त गणना और लागत की आवश्यकता होती है।

आमतौर पर, लंबे संदर्भ वातावरण प्रदाताओं को प्रदाताओं को जानबूझकर करने के लिए प्रोत्साहित करते हैं, जो कि क्रियात्मक प्रतिक्रियाएं देते हैं, इमर्सन ने कहा। उदाहरण के लिए, कई भारी तर्क मॉडल (O3 या O1 Openai सेउदाहरण के लिए) अक्सर भारी कम्प्यूटिंग लागतों को उकसाता है, यहां तक ​​कि सरल quests के लिए लंबी प्रतिक्रियाएं प्रदान करेगा।

यहाँ एक उदाहरण है:

इनपुट: निम्नलिखित गणित की समस्या का उत्तर दें। अगर मेरे पास 2 सेब हैं और मैं 4 और खरीदता हूं 1 खाने के बाद स्टोर करें, मेरे पास कितने सेब हैं?

उत्पादन: अगर मैं 1 खाता हूं, तो मेरे पास केवल 1 बचा है। अगर मैं 4 और खरीदता हूं तो मेरे पास 5 सेब होंगे।

मॉडल ने न केवल अधिक टोकन उत्पन्न किए, क्योंकि इसकी आवश्यकता है, इसने इसके उत्तर को दफन कर दिया। एक इंजीनियर को तब अंतिम उत्तर निकालने के लिए डिजाइन और प्रोग्रामेटिक तरीका हो सकता है या ‘आपका अंतिम उत्तर क्या है?’ यह और भी अधिक एपीआई लागत है।

विकल्प, संकेत को एक तुरंत उत्तर देने के लिए मॉडल का मार्गदर्शन करने के लिए फिर से डिज़ाइन किया जा सकता है। उदाहरण के लिए:

इनपुट: निम्नलिखित गणित की समस्या का उत्तर दें। अगर मेरे पास 2 सेब हैं और मैं थू में 4 और खरीदता हूंईटी 1 खाने के बाद स्टोर करें, मेरे पास कितने सेब हैं? “उत्तर है” के साथ अपनी प्रतिक्रिया शुरू करें …

STEED:

इनपुट: निम्नलिखित गणित की समस्या का उत्तर दें। अगर मेरे पास 2 सेब हैं और मैं 1 खाने के बाद स्टोर पर 4 और खरीदता हूं, तो मेरे पास कितने सेब हैं? बोल्ड टैग में अपने अंतिम उत्तर को लपेटें

इमर्सन ने कहा, “जिस तरह से सवाल पूछा जाता है, वह वांछित उत्तर प्राप्त करने में प्रयास या लागत को कम कर सकता है।” वह यह भी बताते हैं कि कुछ-शॉट प्रॉम्प्टिंग (प्रदान करने और उपयोगकर्ता जो कुछ देख रहे हैं, उसके कुछ उदाहरण) जैसी तकनीकें तेज आउटपुट का उत्पादन करने में मदद कर सकती हैं।

एक खतरा यह नहीं पता है कि कब परिष्कृत तकनीकों का उपयोग करना है चेन-ऑफ-टफ (COT) प्रॉम्प्टिंग (चरणों में उत्तर उत्पन्न करना) या आत्म-पुनरीक्षण, जो सीधे मॉडल को कई टोकन का उत्पादन करने के लिए प्रोत्साहित करता है या प्रतिक्रियाएं उत्पन्न करते समय उत्तरी पुनरावृत्तियों से गुजरता है, इमर्सन ने बताया।

हर क्वेरी को जवाब देने से पहले विश्लेषण करने और फिर से विश्लेषण करने के लिए हर क्वेरी की आवश्यकता नहीं होती है, उन्होंने जोर दिया; जब वे सीधे जवाब देने का निर्देश देते हैं तो वे सही ढंग से जवाब देने में पूरी तरह से सक्षम हो सकते हैं। इसके अतिरिक्त, गलत संकेत एपीआई कॉन्फ़िगरेशन (जैसे कि OpenII O3, जिसके लिए आवश्यक है और उच्च तर्क के प्रयास की आवश्यकता होती है) उच्च लागत को बढ़ाएगा जब और कम-अपपोर्ट, सस्ता अनुरोध पर्याप्त होगा।

“लंबे संदर्भों के साथ, उपयोगकर्ताओं को ‘सब कुछ लेकिन रसोई सिंक’ दृष्टिकोण का उपयोग करने के लिए भी मंद किया जा सकता है, जहां आप जितना संभव हो उतना पाठ को डंप करते हैं और इस उम्मीद में मॉडल के संदर्भ में अधिक से अधिक है कि ऐसा करने से मॉडल प्रदर्शन करने और अधिक सटीक रूप से कार्य करने में मदद मिलेगी,” एमर्सन ने कहा। “जबकि अधिक संदर्भ मॉडल कार्यों को करने में मदद कर सकते हैं, यह हमेशा सबसे अच्छा या सबसे कुशल दृष्टिकोण नहीं है।”

ओपीएस को संकेत देने के लिए विकास

यह कोई बड़ा रहस्य नहीं है कि ए-अनुकूलित बुनियादी ढांचा इन दिनों तक आना मुश्किल हो सकता है; IDC के डेल ने कहा कि उद्यमों को GPU निष्क्रिय समय की मात्रा को कम करने और GPU अनुरोधों के बीच चक्रों को निष्क्रिय करने के लिए अधिक प्रश्नों को भरने में सक्षम होना चाहिए।

“मैं इनमें से बहुत अधिक, बहुत कीमती वस्तुओं को कैसे निचोड़ सकता हूं?” उसने नोट किया। “क्योंकि मुझे अपने सिस्टम का उपयोग करने के लिए मिल गया है, क्योंकि मैं सिर्फ समस्या पर अधिक क्षमता फेंकने के लिए नहीं है।”

प्रॉम्प्ट ऑप्स इस चुनौती को संबोधित करने की दिशा में लंबा और लंबा रास्ता तय कर सकते हैं, क्योंकि यह अल्टीमेटल्स प्रॉम्प्ट के जीवनचक्र का प्रबंधन करता है। जबकि प्रॉम्प्ट इंजीनियरिंग प्रॉम्प्ट की गुणवत्ता के बारे में है, प्रॉम्प्ट ऑप्स वह है जहां आप दोहराते हैं, डेल प्रीट ने समझाया।

“यह अधिक ऑर्केस्ट्रेशन है,” उन्होंने कहा। “मुझे लगता है कि यह प्रश्नों की क्यूरेशन और क्यूरेशन के रूप में है कि आप एआई के साथ कैसे बातचीत करते हैं, यह सुनिश्चित करने के लिए कि आप इसमें से सबसे अधिक प्राप्त कर रहे हैं।”

मॉडल प्रॉम्प्ट ऑप्स को प्रबंधित करने, मापने, मॉनिटर करने और ट्यून करने में मदद करने के लिए प्रेरित कर सकते हैं। “मुझे लगता है कि जब हम अब से तीन या चार साल पीछे देखते हैं, तो यह और पूरे अनुशासन होने जा रहा है। यह और कौशल होगा।”

हालांकि यह अभी भी एक उभरता हुआ क्षेत्र है, शुरुआती प्रदाताओं में क्वेरीपल, शीघ्र, विद्रोह और ट्रूलेन शामिल हैं। जैसा कि शीघ्र ऑप्स विकसित होता है, ये प्लेटफ़ॉर्म उपयोगकर्ताओं को समय के साथ संकेतों को ट्यून करने के लिए अधिक क्षमता देने के लिए वास्तविक समय की प्रतिक्रिया देने, सुधार और वास्तविक समय की प्रतिक्रिया प्रदान करते रहेंगे।

अंतिम रूप से, उन्होंने भविष्यवाणी की, एगेंस अपने दम पर धुन, लिखने और संरचना संकेत देने में सक्षम होंगे। “स्वचालन का स्तर बढ़ेगा, मानव संपर्क का स्तर कम हो जाएगा, आप एजेंटों को उन संकेतों में अधिक स्वायत्त रूप से संचालित करने में सक्षम होंगे जो वे बना रहे हैं।”

आम बातें

जब तक प्रॉम्प्ट ओपीएस पूरी तरह से इम्प्लोल्ड नहीं है, तब तक अल्टीमेट्स कोई सही संकेत नहीं है। इमर्सन के अनुसार, कुछ सबसे बड़ी गलतियाँ जो लोग करते हैं:

  • समस्या को हल करने के बारे में पर्याप्त विशिष्ट नहीं है। इसमें शामिल है कि उपयोगकर्ता कैसे चाहता है कि मॉडल अपना उत्तर प्रदान करे, क्या विचार किया जाना चाहिए, जब उसे फिर से जोड़ना चाहिए, तो ध्यान में रखना और अन्य कारकों में बाधाएं। “कई सेटिंग्स में, मॉडल को उपयोगकर्ताओं की अपेक्षाओं को पूरा करने वाले और प्रतिक्रिया प्रदान करने और प्रतिक्रिया देने के लिए संदर्भ की अच्छी मात्रा की आवश्यकता होती है,” इमर्सन ने कहा।
  • प्रतिक्रिया के दायरे को संकीर्ण करने के लिए तरीकों और एक समस्या को ध्यान में नहीं रखा जा सकता है। क्या उत्तर के भीतर और कुछ सीमा (0 से 100) होनी चाहिए? क्या उत्तर को कुछ खुले-अपंग के बजाय एक बहुविकल्पी समस्या के रूप में वाक्यांश दिया जाना चाहिए? क्या उपयोगकर्ता क्वेरी को प्रासंगिक करने के लिए अच्छे उदाहरण प्रदान कर सकता है? क्या समस्या को अलग और सरल प्रश्नों के लिए चरणों में तोड़ा जा सकता है?
  • संरचना का लाभ नहीं उठा रहा है। LLMs पैटर्न मान्यता में बहुत अच्छे हैं, और कई कोड समझ सकते हैं। बुलेट पॉइंट्स का उपयोग करते समय, आइटम की सूची या बोल्ड संकेतक (****) मानव आंखों के लिए “थोड़ा सा अव्यवस्थित” लग सकते हैं, इमर्सन ने कहा, ये कैल्ट्स एक एलएलएम के लिए फायदेमंद हो सकते हैं। स्ट्रक्चर्ड आउटपुट के लिए पूछ रहा है

इमर्सन ने कहा कि इंजीनियरिंग सर्वोत्तम प्रथाओं के आधार पर, पाइपलाइन को बनाए रखने और उत्पादन में विचार करने के लिए कई अन्य कारक हैं। इनमें शामिल हैं:

  • यह सुनिश्चित करना कि पाइपलाइन का थ्रूपुट सुसंगत है;
  • समय के साथ संकेतों के प्रदर्शन की निगरानी करना (संभावित रूप से खिलाफ और सत्यापन सेट);
  • पाइपलाइन के मुद्दों की पहचान करने के लिए परीक्षण और शुरुआती चेतावनी का पता लगाना।

उपयोगकर्ता शीघ्र प्रक्रिया का समर्थन करने के लिए डिज़ाइन किए गए टूल का लाभ उठा सकते हैं। एक उदाहरण के लिए, ओपन-सोर्स बेईमानी स्वचालित कॉन्फ़िगर कर सकते हैं और डाउनस्ट्रीम कार्यों के लिए संकेतों के आधार पर और कुछ लियड उदाहरणों के लिए संकेत दे सकते हैं। हालांकि यह और काफी परिष्कृत उदाहरण हो सकता है, कई अन्य टफर्स हैं (जिनमें से कुछ चैट, Google और अन्य जैसे उपकरणों में निर्मित) शामिल हैं जो शीघ्र डिजाइन में सहायता कर सकते हैं।

और अल्टिमेटल्स, एमर्सन ने कहा, “मुझे लगता है कि सबसे सरल चीजों में से एक हो सकता है कि प्रभावी प्रॉम्प्टिंग दृष्टिकोण, मॉडल विकास और मॉडल के साथ बातचीत करने और बातचीत करने के लिए नए तरीके पर अप-टू-डेटा रहने की कोशिश करें।”



स्रोत लिंक

टूर गाइडेंस