यह लेख वेंचरबीट के विशेष मुद्दे का हिस्सा है, “द रियल कॉस्ट ऑफ एआई: प्रदर्शन, दक्षता और आरओआई स्केल पर।” और पढ़ें इस विशेष मुद्दे से।
लार्ज लैंग्वेज मॉडल (एलएलएमएस) के एडवेंट ने उद्यमों के लिए यह आसान बना दिया है कि वे जिस प्रकार की परियोजनाओं की कल्पना कर सकते हैं, वह पायलट कार्यक्रमों में आगे बढ़ने और बढ़ने के लिए बढ़ती है।
हालांकि, जैसा कि इन परियोजनाओं ने गति प्राप्त की, उद्यमों ने महसूस किया कि पहले के एलएलएम जो उन्होंने इस्तेमाल किए थे, वे बेवजह थे और, बदतर, खर्च।
छोटे भाषा मॉडल और आसवन दर्ज करें। जैसे मॉडल गूगल‘साथ जेम्मा परिवार, माइक्रोसॉफ्ट‘साथ पीएचआई और मिस्ट्राल‘साथ छोटा 3.1 विशिष्ट कार्यों के लिए काम करने वाले तेज, सटीक मॉडल चुनने के लिए Businestes की अनुमति दी। उद्यम ऑप्ट कर सकते हैं के लिए और छोटे मॉडल विशेष उपयोग के मामलों के लिए, उन्हें अपने एआई अनुप्रयोगों को चलाने की लागत को कम करने और संभावित रूप से प्राप्त करने और निवेश पर बेहतर वापसी करने की अनुमति देता है।
Linkedin प्रतिष्ठित इंजीनियर कार्तिक रामगोपाल ने वेंचरबीट को बताया कि कंपनियां कुछ कारणों से छोटे मॉडल का विकल्प चुनती हैं।
“छोटे मॉडल को कम गणना, मेमोरी और तेजी से अनुमान के समय की आवश्यकता होती है, जो कि सीधे इन्फ्रास्ट्रक्चर ओपीईएक्स (कैपेक्स (कैपिटल एक्सपेंडर्स) में जीपीयू लागत, उपलब्धता और बिजली की आवश्यकताओं को देखते हुए सीधे अनुवाद करता है,” “टास्क-विशिष्ट मॉडल के पास और संकीर्ण गुंजाइश है, जिससे उनके व्यवहार को अधिक संरेखित और जटिल शीघ्र इंजीनियरिंग के बिना समय के साथ बनाए रखा जा सकता है।”
मॉडल डेवलपर्स तदनुसार अपने छोटे मॉडल की कीमत। ओपन की ओ 4-मिनी इनपुट के लिए $ 1.1 प्रति मिलियन टोकन और आउटपुट के लिए $ 4.4/मिलियन टोकन की लागत, इनपुट के लिए $ 10 पर पूर्ण O3 संस्करण और आउटपुट के लिए $ 40 की तुलना में।
उद्यमों में आज छोटे मॉडल, कार्य-विशिष्ट मॉडल और बड़े पूल हैं से चुनने के लिए डिस्टिल्ड मॉडल। इन दिनों, अधिकांश फ्लैगशिप मॉडल ऑफफ़र और आकारों की सीमा। उदाहरण के लिए, से मॉडल का क्लाउड परिवार anthropic शामिल हैं क्लाउड ओपस, लार्ज मॉडल, क्लाउड सॉनेट, ऑल-पर्पस मॉडलऔर क्लाउड हाइकू, सबसे स्मालेस्ट संस्करण। ये मॉडल पोर्टेबल डिवाइस, लैपटॉप या मोबाइल फोन के रूप में सूखे को संचालित करने के लिए कॉम्पैक्ट एनुघ हैं।
बचत प्रश्न
निवेश पर वापसी पर चर्चा करते समय, हालांकि, सवाल हमेशा होता है: आरओआई कैसा दिखता है? क्या यह खर्च की गई लागतों या समय की बचत पर एक वापसी होनी चाहिए, जिसका अर्थ है कि डॉलर ने लाइन को बचाया है? विशेषज्ञों ने कहा कि आरओआई ने कहा कि आरओआई को जज करना मुश्किल हो सकता है क्योंकि कुछ कंपनियों का मानना है कि वे पहले से ही एक कार्य पर बिताए समय में कटौती करके आरओआई तक पहुंच चुके हैं, जबकि अन्य वास्तविक डॉलर सेव की प्रतीक्षा कर रहे हैं या अधिक व्यवसाय में लाया गया है जो एआई इनवेस्टमेंट एक्ट ने काम किया है।
आम तौर पर, उद्यम द्वारा वर्णित के रूप में ROI और सरल सूत्र की गणना करते हैं जानकार मुख्य प्रौद्योगिकीविद् रवि उर्ला में और पोस्ट: ROI = (लाभ-लागत)/लागत। लेकिन एआई कार्यक्रम के साथ, लाभ स्पष्ट नहीं हैं। वह सुझाव देते हैं कि उद्यम उन बीफिट्स की पहचान करते हैं जो वे प्राप्त करने की उम्मीद करते हैं, ऐतिहासिक डेटा के आधार पर इन्हें अनुमान लगाते हैं, एआई की समग्र लागत के बारे में यथार्थवादी हैं, जिसमें हायरिंग, कार्यान्वयन और रखरखाव शामिल है, और समझते हैं कि आपको लंबी दौड़ के लिए इसे करना होगा।
छोटे मॉडल के साथ, विशेषज्ञों का तर्क है कि ये कार्यान्वयन और रखरखाव की लागत को कम करते हैं, खासकर जब आपके उद्यम के लिए अधिक संदर्भ प्रदान करने के लिए ठीक-ट्यूनिंग मॉडल।
अरिजीत सेंगुप्ता, संस्थापक और सीईओ औरने कहा कि लोग मॉडल के संदर्भ में कैसे लाते हैं, उन्हें कितनी लागत बचत मिल सकती है। उन व्यक्तियों के लिए जिन्हें संकेतों के लिए अतिरिक्त संदर्भ की आवश्यकता होती है, लंबे और जटिल निर्देशों के रूप में सूखा, इसके परिणामस्वरूप उच्च टोकन लागत हो सकती है।
उन्होंने कहा, “आपको मॉडल को एक तरह से या दूसरे को संदर्भ देना होगा; कोई मुफ्त दोपहर का भोजन नहीं है। लेकिन बड़े मॉडल के साथ, यह आमतौर पर इसे प्रॉम्प्ट में डालकर किया जाता है।” “मॉडल संदर्भ देने के वैकल्पिक तरीके के रूप में ठीक-ट्यूनिंग और पोस्ट-ट्रेनिंग के बारे में सोचें। मैं प्रशिक्षण के बाद की लागत का $ 100 कर सकता हूं, लेकिन यह खगोलीय नहीं है।”
सेनगुप्ता ने कहा कि thev ने अकेले पोस्ट-बने से लगभग 100x लागत में कमी देखी; उन्होंने इस नंबर को इंगित किया, जिसमें सॉफ्टवेयर ऑपरेटिंग खर्च और मॉडल और वेक्टर डेटाबेस की चल रही लागत शामिल हैं।
“रखरखाव की लागत के थर्म्स में, यदि आप इसे मानव विशेषज्ञों के साथ मैनुअल करते हैं, तो इसे बनाए रखने के लिए खर्च किया जा सकता है क्योंकि छोटे मॉडल को बड़े मॉडलों के तुलनीय परिणामों के लिए प्रशिक्षित होने की आवश्यकता है,” उन्होंने कहा।
प्रयोग आयोजित किया गया दिखाया गया है कि और कार्य-विशिष्ट, ठीक-ठीक ट्यून्ड मॉडल कुछ उपयोग के मामलों के लिए अच्छा प्रदर्शन करता है, जैसे कि एलएलएमएस, यह मामला बनाता है कि बड़े लोगों के बजाय उत्तरी उपयोग-केस-विशिष्ट मॉडल को तैनात करना अधिक लागत-अप-अप है।
कंपनी ने LLAMA-3.3-70B-Instruct के LLAMA-3.3-70B-Instruct की तुलना और एक ही मॉडल के एक छोटे 8B पैरामीटर विकल्प की तुलना की। $ 11.30 के लिए पोस्ट-प्रशिक्षित 70 बी मॉडल, ऑटो मूल्यांकन में 84% सटीक और मैनुअल मूल्यांकन में 92% था। एक बार $ 4.58 की लागत के लिए ठीक-ठीक ट्यून करने के बाद, 8B मॉडल ने मैनुअल मूल्यांकन में 82% सटीकता हासिल की, जो अधिक मामूली, अधिक लक्षित उपयोग के मामलों के लिए बैठने योग्य होगा।
लागत कारक उद्देश्य के लिए फिट हैं
राइट-साइज़िंग मॉडल को प्रदर्शन की कीमत पर नहीं आना है। इन दिनों, संगठन समझते हैं कि मॉडल की पसंद का मतलब केवल GPT-4O या Llama-3.1 के बीच चयन नहीं है; यह पता है कि कुछ उपयोग के मामले, जैसे कि सारांश या कोड जनरेशन, हैं बेहतर और छोटे मॉडल द्वारा सेवा की।
डैनियल होस्के, संपर्क केंद्र एआई उत्पाद प्रदाता के मुख्य प्रौद्योगिकी अधिकारी क्रेस्टाएलएलएमएस के साथ विकास शुरू करना संभावित लागत बचत को बेहतर तरीके से सूचित करता है।
उन्होंने कहा, “आपको यह देखने के लिए सबसे बड़े मॉडल के साथ शुरू करना चाहिए कि क्या आप जो भी कल्पना कर रहे हैं, वह बिल्कुल भी काम करता है, अगर यह सबसे बड़े मॉडल के साथ काम नहीं करता है, तो इसका मतलब यह नहीं है कि यह छोटे मॉडल के साथ होगा,” उन्होंने कहा।
रामगोपाल ने कहा कि लिंक्डइन इसी तरह के पैटर्न का अनुसरण करता है क्योंकि प्रोटोटाइपिंग एकमात्र तरीका है जो ये आईएसई उभरना शुरू कर सकते हैं।
लिंक्डइन के रामगोपाल ने कहा, “एजेंटों के लिए हमारा विशिष्ट दृष्टिकोण पीने के साथ शुरू होता है, जो कि सामान्य उद्देश्य वाले एलएलएमएस के साथ शुरू होता है। “जैसा कि उत्पाद परिपक्व होता है और हम गुणवत्ता, लागत या लेटेंस के आसपास बाधाओं का सामना करते हैं, हम अधिक अनुकूलित समाधानों के लिए संक्रमण करते हैं।”
प्रयोग चरण में, संगठन यह निर्धारित कर सकते हैं कि वे अपने एआई अनुप्रयोगों से सबसे अधिक क्या महत्व देते हैं। यह पता लगाने से डेवलपर्स को बेहतर योजना बनाने में सक्षम बनाता है कि वे क्या बचाना चाहते हैं और मॉडल के आकार का चयन करते हैं जो सबसे अच्छा उद्देश्य और बजट सूट करता है।
विशेषज्ञों ने चेतावनी दी कि जबकि उन मॉडलों के साथ निर्माण करना महत्वपूर्ण है जो वे विकसित कर रहे हैं, उच्च-पैरामीटर एलएलएम के साथ सबसे अच्छा काम करते हैं, हमेशा अधिक उजागर होंगे। बड़े मॉडल को हमेशा महत्वपूर्ण कंप्यूटिंग शक्ति की आवश्यकता होगी।
हालांकि, छोटे और कार्य-विशिष्ट मॉडल का उपयोग भी मुद्दों को बनाते हैं। राहुल पाठक, डेटा के उपाध्यक्ष और एआई जीटीएम पर एडब्ल्यूएसएक ब्लॉग पोस्ट में कहा गया है कि लागत अनुकूलन न केवल कम गणना शक्ति की जरूरतों के साथ उपयोग और मॉडल से आता है, बल्कि मिलान और मॉडल से कार्यों तक। छोटे मॉडल में अधिक जटिल निर्देशों को समझने के लिए पर्याप्त रूप से बड़ी संदर्भ खिड़की नहीं हो सकती है, जिससे मानव कर्मचारियों के लिए कार्यभार बढ़ा और उच्च लागत हो सकती है।
सेंगुप्ता ने यह भी चेतावनी दी कि कुछ डिस्टिल्ड मॉडल भंगुर हो सकते हैं, इसलिए लंबे समय तक उपयोग से बचत नहीं हो सकती है।
लगातार मूल्यांकन करना
मॉडल के आकार के बावजूद, उद्योग के खिलाड़ियों ने किसी भी संभावित मुद्दों या नए उपयोग के मामलों को संबोधित करने के लिए लचीलेपन पर जोर दिया। इसलिए यदि वे समान या बेहतर प्रदर्शन और कम लागत के साथ बड़े मॉडल और छोटे मॉडल के साथ शुरू करते हैं, तो संगठन अपने चुने हुए मॉडल के बारे में कीमती नहीं हो सकते हैं।
टेसा बर्ग, सीटीओ और ब्रांड मार्केटिंग कंपनी में इनोवेशन के प्रमुख मोड ओपीवेंचरबीट को बताया कि संगठनों को यह समझना चाहिए कि अब वे जो भी बनाते हैं, वह हमेशा और बेहतर संस्करण से बेहतर होगा।
“हमने इस मानसिकता के साथ शुरू किया कि हम जो कार्य कर रहे हैं, उसके नीचे की तकनीक, जिन प्रक्रियाओं को हम अधिक प्रभावशाली बना रहे हैं, वे बदलने जा रहे हैं। हम जानते थे कि हम किस मॉडल का उपयोग करते हैं, वह एक मॉडल का सबसे खराब संस्करण होगा। “
बर्ग ने कहा कि छोटे मॉडल ने अपनी कंपनी और उसके ग्राहकों को अवधारणाओं पर शोध करने और विकसित करने में समय को बचाने में मदद की। समय बच गया, उसने कहा, इससे समय के साथ बजट की बचत होती है। उन्होंने कहा कि हल्के वजन वाले मॉडल के लिए उच्च लागत, उच्च-आवृत्ति उपयोग के मामलों को तोड़ने के लिए एक अच्छा विचार है।
सेंगुप्ता ने कहा कि विक्रेताओं को अब मॉडल ऑटोसनो-ट्यूनिंग के बीच स्विच करना आसान हो रहा है, इसलिए अतिरिक्त लागतों को नजर नहीं है।