

आज, जेनेरिक इमेज मॉडल मूल रूप से दो मुख्य श्रेणियों में आते हैं: डिफ्यूजन मॉडल, जैसे कि स्थिर प्रसार, या ऑथरग्रेसिव मॉडल, जैसे कि ओपनईआई के जीपीटी -4 ओ। लेकिन Apple ने सिर्फ दो पेपर जारी किए, जो दिखाते हैं कि कैसे एक तिहाई, भूल गई तकनीक के लिए जगह हो सकती है: प्रवाह को सामान्य करना। और शीर्ष पर ट्रांसफार्मर के डैश के साथ, वे पहले से सोचा से अधिक सक्षम हो सकते हैं।
पहली चीजें पहले: क्या सामान्य प्रवाह कर रहे हैं?
सामान्यीकरण प्रवाह (एनएफएस) हैं और एआई मॉडल के प्रकार हैं जो सीखने के लिए काम करते हैं कि कैसे गणितीय रूपांतरण वास्तविक दुनिया के डेटा (जैसे चित्र) को संरचित शोर के लिए, और फिर नए नमूनों को उत्पन्न करने के लिए रिवर्स प्रक्रिया को रिवर्स करने के लिए।
बड़ा लाभ यह है कि वे प्रत्येक छवि की सटीक संभावना की गणना कर सकते हैं जो वे उत्पन्न करते हैं, और संपत्ति जो प्रसार मॉडल नहीं कर सकते हैं। यह विशेष रूप से उन कार्यों के लिए अपील करता है जहां एक परिणाम की संभावना को समझना वास्तव में मायने रखता है।
लेकिन वहाँ और कारण है कि ज्यादातर लोगों ने लैटर्स के थेम के बारे में ज्यादा नहीं सुना है: शुरुआती प्रवाह-आधारित मॉडल ने उन छवियों का उत्पादन किया जो धुंधली दिखती थीं या डिफ्यूजन और ट्रांसफार्मर-आधारित प्रणालियों द्वारा विस्तार और डिक्सर की कमी होती थी।
अध्ययन #1: टारफ़्लो
कागज़ पर “सामान्यीकरण प्रवाह सक्षम सामान्य मॉडल हैं“, Apple परिचय और नया मॉडल टारफ्लो नामक, ट्रांसफॉर्मर लेखक के लिए छोटा है।
इसके मूल में, टारफ़्लो ट्रांसफार्मर ब्लॉकों के साथ पिछले प्रवाह मॉडल में उपयोग की जाने वाली पुरानी, हैंडक्राफ्ट परतों को बदल देता है। मूल रूप से, यह छवियों को छोटे पैच में विभाजित करता है, और उन्हें ब्लॉक में उत्पन्न करता है, प्रत्येक ब्लॉक के साथ पहले से आने वाले सभी लोगों के आधार पर भविष्यवाणी की गई थी। इसे लेखकग्रेसिव कहा जाता है, जो एक ही अंतर्निहित विधि है जो ओपनआईएआई वर्तमान में छवि पीढ़ी के लिए उपयोग करता है।

महत्वपूर्ण अंतर यह है कि व्हीइल असतत टोकन उत्पन्न करता है, पाठ जैसे प्रतीकों के लंबे अनुक्रमों की तरह छवियों का इलाज करता है, Apple का टारफ़्लो सीधे पिक्सेल मान उत्पन्न करता है, पहले छवि को टोकन किए बिना। यह और छोटा है, लेकिन महत्वपूर्ण अंतर है क्योंकि यह Apple को गुणवत्ता के नुकसान और कठोरता से बचने देता है जो अक्सर टोकन की छवियों को संपीड़ित करने और तय शब्दावली के साथ आते हैं।
फिर भी, सीमाएं थीं, खासकर जब यह बड़े, उच्च-रिज़ॉल्यूशन छवियों तक स्केलिंग करने के लिए आया था। और यहीं से दूसरा अध्ययन आता है।
अध्ययन #2: StarFlow
कागज़ पर “STARFLOW: स्केलिंग अव्यक्त मानकीकरण उच्च-रिज़ॉल्यूशन छवि संश्लेषण के लिए बहता है“, Apple सीधे टारफ़्लो पर बनाता है और प्रमुख उन्नयन के साथ StarFlow (Scalabal ट्रांसफार्मर AuthorGressive Flow) प्रस्तुत करता है।
सबसे बड़ा परिवर्तन: StarFlow अब पिक्सेल स्पेस में सीधे चित्र नहीं बनाता है। INSAT, यह मूल रूप से छवि के संस्करण पर काम करता है और संपीड़ित होता है, और फिर एक डिकोडर को हाथ देता है जो अंतिम चरण में पूर्ण संकल्प के लिए सब कुछ वापस करता है।

एक अव्यक्त स्थान के लिए यह बदलाव का मतलब है कि स्टारफ्लो सीधे लाखों पिक्सेल की भविष्यवाणी नहीं करता है। यह पहले व्यापक छवि संरचना पर ध्यान केंद्रित कर सकता है, डिकोडर को ठीक बनावट विस्तार छोड़ सकता है।
Apple ने यह भी कहा कि कैसे पाठ को संभालता है। बिल्डिंग और अलग टेक्स्ट एनकोडर के इन्सॉड, स्टारफ्लो चरम भाषा मॉडल (लैंके स्मॉल लैंग्वेज मॉडल जेम्मा, जब सिद्धांत रूप में ऑन-डिवाइस चला सकता है) में प्लग कर सकता है, जब उपयोगकर्ता छवि बनाने के लिए मॉडल को संकेत देता है। यह दृश्य विवरण को परिष्कृत करने पर केंद्रित मॉडल की छवि पीढ़ी पक्ष रखता है।
Openi के 4o छवि जनरेटर के साथ Starflow कैसे तुलना करता है
जबकि पुनर्विचार प्रवाह है, Openai भी अपने GPT-4O मॉडल के साथ प्रसार से परे चला गया है। लेकिन उनका दृष्टिकोण मौलिक रूप से अलग है।
GPT-4O छवियों को असतत टोकन के अनुक्रम के रूप में मानता है, बहुत कुछ एक भेजने में शब्दों की तरह। जब आप एक छवि उत्पन्न करने के लिए चैटगिप्ट से पूछते हैं, तो मॉडल एक समय में एक छवि टोकन की भविष्यवाणी करता है, चित्र के टुकड़े को टुकड़े करके बना देता है। यह Openai विशाल लचीलापन देता है: एक ही मॉडल पाठ, चित्र और ऑडियो के भीतर और एकल, एकीकृत टोकन स्ट्रीम उत्पन्न कर सकता है।
TradeOfff? टोकन-बाय-टोकन पीढ़ी धीमी हो सकती है, खासकर बड़े या उच्च-रिज़ॉल्यूशन छवियों के लिए। और यह बेहद कम्प्यूटेशनल रूप से खर्च है। लेकिन चूंकि GPT-4O पूरी तरह से क्लाउड में चलता है, इसलिए Openai लैटेसी या पावर के उपयोग से विवश नहीं है।
संक्षेप में: Apple और Openai दोनों प्रसार से आगे बढ़ रहे हैं, लेकिन जब Openai अपने डेटा केंद्रों के लिए निर्माण कर रहा है, तो Apple स्पष्ट रूप से हमारी जेब के लिए निर्माण कर रहा है।
FTC: हम आय अर्जित ऑटो संबद्ध लिंक का उपयोग करते हैं। समुद्र।