Amazon Web Service Bey ne yapıyorsunuz siz?


Malumunuz birkaç gün önce Amazon Web Services (AWS) çökme olayı yaşandı ve Giphy, Medium, Slack, Quora ve diğer birçok büyük site de bu durumdan etkilendi. Ben de vay anam vay neler dönmüş Serhat ya edasıyla araştırmacı gazatacılıgımı gonuşdurdum!

Olayların Tezeklenme Süreci
Amazon açıklamalarına göre bu S3 sunucularından bazıları normalden ağır işliyormuş ve ekip de rutin bakım amacıyla bazı sunucuları offline konuma alarak çözmeyi denemiş. Bununla birlikte yazdığı komut küçük bir grup sunucuyu etkilemesi gerekirken iki tane S3 alt sistemini de etkileyen büyük bir sunucu grubunu offline durumuna geçirmiş. Komutlardaki bir typo hatasından dolayı da bu dandini çökme süreci başlamış. Saatlerce süren bir sıkıntı, olaylar olaylar yani.

Problem niye bu kadar uzun sürdü?
Amazon açıklamalarına göre sebep şuymuş: Sunuculardan bazıları yıllardır yeniden filan başlamadan yardır yardır çalışıyormuş. Servisleri yeniden başlatmak, yürütülen gerekli güvenlik prosedürleri, metaveri bütünlüğü kontrolü filan derken işler biraz uzamış anlayacağınız.

Olay Güncellemeleri
Olay ile ilgili resmi detaylı bilgiye buradan ulaşabilirsiniz. Amazon da zaten sonunda bu olaydan ders aldıklarını ve bu olaydan yola çıkarak geliştirmeler yapacaklarını belirtmişler.

Düşünceler
  • Vay arkadaş at gibi sistemlerde bile bu tarz sıkıntılar yaşanabiliyor.
  • Bu olaya sebep olan bir kişinin yaptığı typo hatasıymış, o kişinin son birkaç gündür yaşadıklarını, ona ne olacağı gibi durumları çok merak ediyorum açıkçası. Ben bile düşünürken fena oldum. (ಠ_ಠ)
Yararlanılan Kaynaklar

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir