Site icon Thumbsup

บทเรียนราคาแพงจากระบบ Cloud ของ Amazon ล่ม!!

จากเหตุการณ์ Cloud computing ของ Amazon ล่มเมื่อวันพุธที่ผ่านมาถือเป็นเรื่องใหญ่ที่น่าตกใจในวงกว้าง เนื่องจากเป็นระบบที่เชื่อกันว่ามีประสิทธิภาพ และหลายบริษัทดังที่ใช้บริการและได้รับผลกระทบมีด้วยกันหลายราย เช่น Foursquare และ Netflix

สำหรับผู้ที่ยังสงสัยว่า ระบบ Cloud คืออะไร มีประโยชน์อะไร ทำไมมันถึงน่าสนใจ … และตอนนี้มีปัญหาอะไรเกิดขึ้น?จะป้องกันเพื่อไม่ให้เหตุการณ์นี้เกิดขึ้นอีกได้อย่างไร?มาดูคำอธิบายเพิ่มเติมกันเลยค่ะ 🙂

ระบบ Cloud หรือ Cloud Computing คือการนำเครื่องคอมพิวเตอร์มาเชื่อมต่อเข้าด้วยกันเพื่อประมวลผล (Processing) เข้าด้วยกัน ซึ่งคอมพิวเตอร์ทั้งหมดไม่จำเป็นต้องอยู่ในสถานที่เดียวกัน แต่จะเชื่อมต่อกันผ่านเครือข่ายสื่อสารความเร็วสูง และคอมพิวเตอร์ที่เชื่อมต่อกันนี้ไม่จำเป็นต้องมีฮาร์ดแวร์และระบบปฏิบัติการที่เหมือนกัน อาจกล่าวได้ว่า Cloud Computing เป็นการจัดสรรทรัพยากรของระบบ IT ทั้งฮาร์ดแวร์และซอฟต์แวร์มาแบ่งปันในลักษณะของการให้บริการ (Software as a Services: SaaS) โดยการประมวลผลผ่านระบบอินเทอร์เน็ต

ปัจจุบันมีบริษัทผู้ให้บริการ Cloud computing หลายราย เช่น ?Amazon และ Dropbox?รูปแบบธุรกิจก็คือจ่ายเฉพาะค่าข้อมูลเท่าที่คุณใช้ไป เช่นคุณใช้พื้นที่ในเซิร์ฟเวอร์ไป 100MB สำหรับเก็บข้อมูลของเว็บไซต์ที่คุณทำ แต่ถ้ามากกว่านั้นก็จ่ายเพิ่มเติมให้ Amazon ไป คือจ่ายเท่าที่คุณใช้จริง ไม่ใช่จ่ายเหมาราคาเหมือนสมัยก่อน

Amazon นอกจากจะเป็นเว็บไซต์ช้อปปิ้งออนไลน์ที่โด่งดังที่สุดแล้ว ทางบริษัทยังได้มีชื่อเสียงสำหรับการให้บริการ Cloud computing ที่ดีที่สุดอีกแห่งหนึ่ง มีบริษัทห้างร้านองค์กรจำนวนมากที่ฝากข้อมูลไว้กับ Amazon เช่น?บริษัทชื่อดังอย่าง Foursquare ยัน Netflix ต่างก็ใช้บริการตัวนี้เพราะบริษัทเหล่านี้เชื่อถือประสิทธิภาพการทำงานของ Amazon

แต่วันพุธที่แล้ว ศูนย์ข้อมูลของ Amazon แห่ง Northern Virginia ก็เริ่มมีปัญหาที่ทำให้เว็บลูกค้าล่ม และมีปัญหาในการเข้าชม

สาเหตุของระบบล่มในครั้งนี้เกิดมาจากปริมาณการใช้ re-mirroring ของ Elastic Block Storage (EBS) ที่มากเกินไป ทำให้ EBS ทำการ backup ตัวเองแบบ countless จึงทำให้เกิด downtime กับข้อมูลในระบบ

การล่มของระบบ Cloud คราวนี้ทำให้เว็บดังๆ อย่าง Foursquare, Quora, Hootsuite, SCVNGR, Heroku, Reddit และ Wildfire และเว็บเล็กเว็บใหญ่นับร้อยได้รับผลกระทบ แต่ก็ไม่ทั้งหมดของบริษัทที่ใช้บริการ Cloud computing จาก Amazon ที่ได้รับผลกระทบนี้ เพราะ Amazon ยังมีศูนย์เก็บข้อมูลอีก 4 แห่งที่ไม่เจอกับปัญหาระบบล่มอย่างนี้

เราได้เรียนรู้อะไร?


Justin ผู้ก่อตั้ง FathomDB (ผู้ให้บริการ Database บนระบบ Cloud) กล่าวว่า ปัญหาใหญ่ที่สุดในครั้งนี้คือการที่ Cloud Redundancy ของ Amazon ไม่สามารถป้องกันความเสียหายที่เกิดจากระบบล่มได้

ปัญหานี้สามารถแก้ไขและป้องกันได้ด้วยการสร้าง Redundancy หรือการเตรียมระบบ Cloud หลายตัวเพื่อรับมือกับปัญหาที่อาจเกิดขึ้น หากระบบที่ใช้อยู่มีปัญหาก็สามารถเปลี่ยนไปใช้งานในระบบสำรองที่เตรียมไว้ แต่สิ่งที่เกิดขึ้นคือองค์กรส่วนใหญ่ไม่ได้คำนึงถึงปัญหาที่อาจเกิดขึ้น และมั่นใจในระบบของ Amazon ว่าจะมีประสิทธิภาพ

เหตุการณ์นี้ไม่ได้หมายความว่าเราควรเลิกใช้ Cloud computing เนื่องจากข้อดีต่างๆ ของระบบ Cloud ไม่ว่าจะเป็นการประหยัดต้นทุน ขนาดของระบบ การใช้อุปกรณ์ และความสามารถของระบบ เราควรต้องดูว่าเราจะวาง Cloud infrastructure นี้อย่างไร หาทางป้องกันระบบล่ม และย้ายการดึงข้อมูลในกรณีที่เกิดการล่มของระบบ

Cloud computing เรียกได้ว่ายังอยู่ในระยะแรกเริ่ม และจากปัญหาที่เกิดขึ้นแสดงให้เห็นว่ามันยังต้องมีการพัฒนาอยู่อีกมาก ไม่อย่างนั้น ปัญหาที่เกิดคราวหน้าอาจเลวร้ายกว่านี้มาก หากไม่มีการเตรียมการที่ดีเอาไว้ล่วงหน้า 🙂

ที่มา:?mashable,?bu.ac.th/knowledgecenter, Business SOA