जून में, हमने तीन घटनाओं का अनुभव किया, जिसके परिणामस्वरूप GitHub सेवाओं में प्रदर्शन कम हो गया।

5 जून 17:47 यूटीसी (1 घंटे और 33 मिनट तक)

5 जून, 2025 को, 17:47 UTC और 19:20 UTC के बीच, एक्शन सर्विस को नीचा दिखाया गया, जिससे स्टार्ट देरी और रुक -रुक कर नौकरी की विफलताएं चलीं। इस अवधि के दौरान, 47.2% रन औसतन 14 मिनट की शुरुआत में देरी हुई थी, और 21.0% रन विफल रहे। प्रभाव कार्यों से परे विस्तारित; कोपिलॉट कोडिंग एजेंट सत्रों का 60% रद्द कर दिया गया था, और शाखा-आधारित बिल्ड का उपयोग करने वाले सभी पृष्ठ साइटें तैनात करने में विफल रही (हालांकि सेवा करने वाले पृष्ठ अप्रभावित रहे)। यह मुद्दा आंतरिक कार्यों की सेवाओं के बीच लोड में एक स्पाइक के कारण हुआ था, जो एक गलतफहमी को उजागर करता है, जिससे रन के महत्वपूर्ण मार्ग में अनुरोधों का थ्रॉटलिंग शुरू हो जाता है। हमने थ्रॉटलिंग को रोकने के लिए सेवा कॉन्फ़िगरेशन को सही करके घटना को कम कर दिया है और यह सुनिश्चित करने के लिए हमारी तैनाती प्रक्रिया को अपडेट किया है कि सही कॉन्फ़िगरेशन को आगे बढ़ाया गया है।

12 जून 17:55 UTC (3 घंटे और 12 मिनट तक)

12 जून, 2025 को, 17:55 UTC और 21:07 UTC के बीच, GitHub Copilot सेवा को नीरस मॉडल के लिए नीचा दिखाया गया और अनुभव किया गया और क्लाउड मॉडल के लिए उपलब्धता कम हो गई। उपयोगकर्ताओं ने चैट पूर्णता, धीमी प्रतिक्रिया समय, टाइमआउट और चैट कार्यक्षमता के लिए वीएस कोड, जेटब्रेंस आईडीई और जीथब कोपिलॉट चैट के लिए काफी ऊंचा त्रुटि दरों का अनुभव किया। यह हमारे मॉडल प्रदाताओं में से एक को प्रभावित करने वाले आउटेज के कारण था।

हमने उपयोगकर्ता के प्रभाव को कम करने के लिए प्रभावित प्रदाता समापन बिंदुओं को अस्थायी रूप से अक्षम करके घटना को कम किया।

हम बुनियादी ढांचा प्रदाता आउटेज के लिए अपनी घटना प्रतिक्रिया प्लेबुक को अपडेट करने के लिए काम कर रहे हैं और भविष्य में इस तरह के मुद्दों का पता लगाने और शमन करने के लिए हमारे समय को कम करने के लिए हमारी निगरानी और सतर्क सिस्टम में सुधार करते हैं।

17 जून 19:32 UTC (31 मिनट तक)

17 जून, 2025 को, 19:32 UTC और 20:03 UTC के बीच, नेटवर्क उपकरणों के एक सबसेट के लिए एक आंतरिक रूटिंग पॉलिसी परिनियोजन हमारे डेटासेंटर के भीतर कुछ नेटवर्क पते ब्लॉकों के लिए Reachability मुद्दों का कारण बना। GitHub.com UI के प्रमाणित उपयोगकर्ताओं ने घटना की अवधि के लिए 3-4% त्रुटि दर का अनुभव किया। एपीआई के प्रमाणित कॉलर्स ने 40% त्रुटि दर का अनुभव किया। यूआई और एपीआई के लिए अनियंत्रित अनुरोधों ने लगभग 100% त्रुटि दर का अनुभव किया। कार्रवाई का अनुभव 2.5% रन के औसतन 8 मिनट के लिए देरी से हो रहा है और 3% रन विफल हो रहे हैं। बड़ी फ़ाइल संग्रहण (LFS) अनुरोधों को 1% त्रुटियों का अनुभव किया। 19:54 UTC पर, तैनाती को वापस रोल किया गया था, और प्रभावित प्रणालियों के लिए नेटवर्क की उपलब्धता को बहाल किया गया था। 20:03 UTC पर, हमने पूरी तरह से सामान्य संचालन को बहाल किया। इसी तरह के मुद्दों को रोकने के लिए, हम नीति परिवर्तनों को रूट करने के लिए अपनी सत्यापन प्रक्रिया का विस्तार कर रहे हैं।


कृपया हमारा अनुसरण करें स्थिति पृष्ठ स्थिति परिवर्तन और पोस्ट-दुर्घटना के बाद वास्तविक समय के अपडेट के लिए। हम क्या काम कर रहे हैं, इसके बारे में अधिक जानने के लिए, देखें Github इंजीनियरिंग ब्लॉग

द्वारा लिखित

नताली ग्वेरा

जकब ओलेकी



स्रोत लिंक