Cloud Computing ที่เขาว่า “แน่” เกิดอะไรขึ้นใน Black April...ดร.พีรเดช

ดูจะเป็นข่าวใหญ่ที่ต้องจารึกไว้ในประวัติศาสตร์ของอุตสาหกรรมไอซีที(ICTIndustry)ก็ว่าได้ เมื่อยักษ์ใหญ่ในอเมริกา ที่มีเทคโนโลยีล่าสุด ระบบต่างล่มโดยมิได้นัดหมายในเดือนเมษายน 2011ที่ขอเรียกได้ว่าเป็น “Black April” เดือนที่เกิดความโกลาหลในอุตสาหกรรมไอซีที ไปพอสมควร ไม่เพียงแต่ในต่างประเทศ บ้านเราระบบไทยคมก็ทำเอาหน้าจอมืดไปร่วมสามชั่วโมง

ยักษ์ใหญ่แห่งธุรกิจค้าปลีกออนไลน์อย่าง Amazon ส่งผลให้องค์กรนี้มีระบบไอทีที่เข้มแข็งมาก ขนาดที่เข้ามายืนอยู่แถวหน้าได้ท่ามกลางการแข่งขันที่ดุเดือด โดยเฉพาะบริการคลาวด์ (Cloud service) ที่ได้รับการกล่าวขานถึง เป็นกรณีศึกษาของธุรกิจ Cloud computing มาหลายครั้งหลายหน แต่ในที่สุดก็ไม่พ้นกับปัญหาการให้บริการจนได้ สอดคล้องกับคำพระสอนที่ว่า ทุกอย่างเป็นสิ่งไม่เที่ยง

              ล่าสุดทาง Amazon ได้ออกมาชี้แจงทางเหตุทางเทคนิคที่ทำให้ไม่สามารถให้บริการได้ บนบริการ Elastic Compute Cloud หรือ EC2 ส่งผลให้บริการจากหลายบริษัทไม่สามารถใช้งานได้ อาทิเช่น Foursquare, Hootsuite, Reddit และ Quoro



            ปัญหาที่เกิดขึ้นส่งผลให้ผู้ใช้บริการบางราย สูญเสียข้อมูลบางส่วนไปเนื่องจากปัญหาทางเทคนิค ทาง Amazon ได้ออกมารับผิดชอบด้วยการคืนเครดิตเป็นจำนวนวัน เพื่อชดเชยช่วงเวลาที่ไม่สามารถให้บริการได้ แม้จะออกมาแสดงความรับผิดชอบแล้ว แต่ยังก่อให้เกิดความเสียหายไม่เพียงกับตัวบริษัทเท่านั้น แต่ส่งผลเชิงลบต่อภาพรวมของบริการคลาวด์ (Cloud service) ที่คุยนักคุยหนาว่า หนังเหนียวไม่มีทางล่ม แต่ครั้งนี้ก็กินเวลาไปเป็นวัน  



            ทาง Amazon ได้กล่าวว่า ทางบริษัทเข้าใจถึงความสำคัญของธุรกิจของผู้ใช้บริการ และจะทำทุกสิ่งทุกอย่างเพื่อเรียนรู้จากบทเรียนครั้งสำคัญนี้ แล้วนำไปใช้ปรับปรุงบริการของตัวเองให้ดียิ่งขึ้น แม้จะมีการชดเชยให้กับลูกค้าแต่ก็มิได้มีการเปิดเผยตัวเลข ว่าทำให้บริษัทสูญเสียไปเท่าใด คงจะต้องมาคอยติดตามจากรายงายผลประกอบการกันอีกทีหนึ่ง  



            Amazon จัดเป็นผู้นำด้านค้าปลีกบนโลกออนไลน์ ที่ไม่มีใครไม่รู้จัก โดยเฉพาะหนอนหนังสือด้วยแล้ว คงจะรู้จักกันเป็นอย่างดี นอกจากนี้ยังเป็นผู้ให้บริการ Cloud computing รายใหญ่ มีลูกค้าเช่าใช้บริการเซิร์ฟเวอร์จากทั่วทุกมุมโลก แม้ว่ารายได้จากบริการ Amazon Web Services (AWS) จะคิดเป็นสัดส่วนไม่มากเมื่อเทียบกับรายได้ทั้งหมด แต่ทางบริษัทให้ความสำคัญกับบริการนี้มาก โดยเห็นว่าเป็นบริการที่มีศักยภาพ เป็นแหล่งรายได้ที่สำคัญของบริษัทในอนาคต



            สิ่งที่เกิดขึ้นในวันที่ 21 เมษายน 2011 คือ ดาต้าเซนเตอร์ (Data center) ที่ตั้งอยู่ใกล้กับสนามบิน Dulles ใกล้กับ Washington ซึ่งเป็นที่ตั้งของอุปกรณ์หลักสำหรับบริการ EC2 แม้จะผ่านไปเป็นสัปดาห์ทางบริษัทก็ยังต้องพยายามกู้เซิร์ฟเวอร์บางส่วนอยู่  



            ทางบริษัทแจ้งว่า ความเสียหายครั้งนี้เกิดจากความผิดพลาดของเจ้าหน้าที่   ในช่วงที่เกิดเหตุกับบริการ AWS กำลังพยายามอัพเกรดความจุของระบบใน Availability zone อยู่ ซึ่งโดยปกติแล้วโซนนี้จะถูกติดตั้งไว้ตามภูมิภาคต่างๆ เพื่อสำรองข้อมูลไว้ในหลายพื้นที่เพียงป้องกันการสูญหายของข้อมูล ระหว่างการอัพเกรด โดยปกติแล้วจะต้องมีการปรับเปลี่ยนเส้นทางการเดินทางข้อมูลไปยัง โครงข่ายหลัก (Primary network) แต่กลับมีความผิดพลาดส่งไปยังโครงข่ายสำรอง (Backup network) ซึ่งไม่ได้ถูกออกแบบมาเพื่อรับปริมาณทราฟฟิก (Traffic) มหาศาลเช่นนี้ ส่งผลให้ระบบล่มไปโดยปริยาย เมื่อทางบริษัทปรับการส่งทราฟฟิกให้ถูกต้อง ระบบได้พยายามค้นหาเนื้อที่เพื่อการ backup ซึ่งต้องการพื้นที่ขนาดใหญ่ ส่งผลให้ Storage ที่มีอยู่ทั้งหมดถูกใช้งาน ส่งผลให้ 13% ของ Availability zone ใช้งานไม่ได้ในช่วงที่มีปัญหามากที่สุด



            ว่าไปแล้วต้นเหตุของเหตุการณ์ครั้งนี้เกิดจากการเปลี่ยน Configuration ของเครือข่าย นอกจากการแก้ปัญหาทางเทคนิคแล้ว การสื่อสารกับลูกค้าทาง Amazon ยังมีจุดอ่อนในเรื่องนี้ด้วย จึงประกาศชัดเจนที่จะปรับปรุงทั้งทางเทคนิคให้มีขั้นตอนที่รัดกุมมากกว่านี้ และจัดการการสื่อสารกับลูกค้าให้ดีกว่านี้  



            การใช้บริการไม่ได้ของ Public cloud ครั้งนี้ เป็นการตอกย้ำถึงความเสี่ยงในการโยกย้ายระบบเข้าสู่ระบบคลาวด์ (Cloud) สอดคล้องกับการสำรวจทุกครั้ง ที่เรามักจะเห็นความกังวลลำดับต้นๆ สำหรับผู้ที่ต้องการจะเข้ามาใช้บริการคลาวด์ (Cloud service) คำนึงถึง ความเสถียรของระบบ ความปลอดภัยของระบบ มักจะถูกถาม ร่วมกับคำถามที่ว่าคลาวด์ (Cloud) จะช่วยลดค่าใช้จ่ายได้จริงหรือ



            ความเสี่ยงในเรื่อง Service reliability ความเสถียรของระบบ มีความจำเป็นอย่างมาก เนื่องจากธุรกิจที่อยู่บนโลกออนไลน์ ถ้าเว็บมีปัญหาเข้าไม่ได้ ก็เหมือนกับมีร้านแต่ปิดให้บริการ ลูกค้าจะมาใช้บริการก็ไม่ได้ อย่างไรก็ตามสำหรับธุรกิจบนออนไลน์แล้ว การที่เว็บไม่สามารถเข้าใช้งานได้ดูจะเป็นเรื่องใหญ่ กระทบถึงความเชื่อมั่น แล้วใครจะกล้าเลือกใช้งานแบบเสียค่าใช้จ่าย ถ้าวันดีคืนดีใช้ได้บ้างไม่ได้บ้าง ขนาดใช้กันฟรีๆ ไม่ต้องเสียค่าใช้บริการ ก็ยังไม่วายบ่นกันอุบทุกครั้งที่มีปัญหา  



            สิ่งหนึ่งที่ต้องระลึกไว้เสมอก็คือ ไม่ว่าจะเป็นเทคโนโลยีทันสมัยเพียงใดก็ไม่สามารถทำงานได้ ถ้าไม่มีกระแสไฟฟ้า อย่างที่เกิดเหตุภัยพิบัติในญี่ปุ่น สร้างความเสียหายต่อระบบจ่ายไฟฟ้า ระบบก็ไม่สามารถทำงานได้ ในบางกรณีมีการนำเอาพลังงานแสงอาทิตย์มาช่วยในเหตุอุทกภัยก็มีให้เห็นบ้างในบ้านเรา

แล้วปัจจัยใดบ้างที่ควรนำมาพิจารณาในการเลือกใช้คลาวด์โซลูชั่น (Cloud solution)

  • ฮาร์ดแวร์ (Hardware) และโครงสร้างพื้นฐาน (Infrastructure) ที่ผู้ให้บริการคลาวด์ (Cloud provider) ใช้งานอยู่ เป็นปัจจัยสำคัญที่บ่งบอกถึง Availability ของบริการ

  • ต้องมั่นใจว่าผู้ให้บริการคลาวด์ (Cloud provider) ได้จัดการ ควบคุม ดูแล ลดความเสี่ยงที่จะทำให้ระบบไม่สามารถใช้งานได้ มีมาตรการที่ชัดเจน และ ปฏิบัติจริง

  • ระบบที่ผู้ให้บริการคลาวด์ (Cloud provider) ต้องมีระบบสำรอง ต้องติดตั้งในพื้นที่ห่างจากกัน มีแบนด์วิทด์ (Bandwidth) ที่มากพอและเป็นของผู้ให้บริการโครงข่ายพื้นฐานหลายราย เพื่อลดความเสี่ยงในการให้บริการไม่ได้

  • เพื่อความมั่นใจ ต้องสามารถบอกตำแหน่งของข้อมูลว่าอยู่ที่ดาต้าเซนเตอร์ (Data center) ใดได้ ซึ่งการทำงานของ Public cloud ไม่สามารถทำได้ เป็นผลให้หลายธุรกิจประสบปัญหาจากระบบของ Amazon Web Services (AWS) ล่ม เป็นจุดหนึ่งที่ทำให้ผู้ให้บริการ Private cloud ออกมาชูจุดแข็งที่เหนือกว่านี้

             บทเรียนครั้งนี้สอนให้ ผู้ให้บริการต้องคำนึงถึงการออกแบบระบบและกระบวนการการตั้งค่าต่างๆ ที่ต้องไม่ให้เกิดปัญหา Single point of failure ส่วนผู้ใช้บริการ บริษัทต่างๆ ที่ต้องไปอาศัยจมูกผู้อื่นหายใจ ทำได้อย่างมากก็บ่น คอยรอคำขอโทษ หรือต้องคอยสวดมนต์ภาวนา ว่าอย่าให้เกิดปัญหาขึ้นกับบริการของเรา  
    
    
    
             ดูเหมือนว่าปัญหาการให้บริการไม่ได้สำหรับดาต้าเซนเตอร์ (Data center) มีโอกาสเกิดขึ้นได้ แต่ที่สำคัญ ผู้ใช้จะตัดสินว่าบริการดีมีคุณภาพขนาดไหน จากการตอบสนองต่อปัญหาว่าทำได้รวดเร็วแค่ไหน และสามารถป้องกันไม่ให้สาเหตุเดิมๆ มากระทบต่อการให้บริการได้อีกอย่างไร
    
    
    
             นอกจากผู้ให้บริการคลาวด์ (Cloud provider) ที่จะต้องเป็นฝ่ายที่ออกมารับผิดชอบแล้ว ทางผู้ใช้ก็ต้องมีส่วนร่วมออกแบบระบบของตนให้เหมาะสม อาทิเช่น Netflix และ SmugMug ซึ่งเราจะไม่ได้ยินข่าวที่กล่าวถึงผลกระทบเนื่องการบริการ EC2 ของทาง Amazon ล่ม เพราะทั้งสององค์กรได้ออกแบบระบบไม่อาศัยระบบไอทีเพียงรายเดียว ต่างกับบางบริษัทที่พึ่งระบบเกือบทั้งหมด หรือทั้งหมดไปอยู่กับผู้ให้บริการรายเดียวเท่านั้น  
    
    
    
             ในโลกของความเป็นจริง ไม่ว่าจะใช้เทคโนโลยีที่ดีที่สุดขนาดไหน เป็นองค์กรขนาดใหญ่เพียงใด ความผิดพลาดไม่ว่าจากภายในหรือปัจจัยภายนอกสามารถเกิดขึ้นได้ สิ่งที่สำคัญที่สุดที่หลีกเลี่ยงไม่ได้คือทักษะการสื่อสารกับสาธารณชน เมื่อลองให้คะแนนดูแล้วทาง Amazon ยังทำได้ไม่ดีนักเมื่อเกิดเหตุการณ์สุดวิสัยเช่นนี้ ส่งผลให้เรื่องที่ไม่น่าจะบานปลายกลับกลายมาเป็นปัญหาให้กับองค์กร จะเห็นได้จากเหตุการณ์ครั้งล่าสุด เมื่อบริการไม่สามารถใช้งานได้ ทางบริษัทไม่ได้ออกมาให้ความกระจ่างกับสื่อ มีแต่สื่อภายนอกออกความเห็นกันไปต่างๆ นานา ส่งผลลบกับทางบริษัท ซึ่งน่าจะสามารถจัดการด้วยตัวบริษัทเองได้ดีกว่านี้
    
    
    
             อย่างไรก็ตามโชคยังเข้าข้างผู้ให้บริการคลาวด์ (Cloud provider) ในครั้งนี้ เนื่องจากเหตุที่เกิดขึ้น มาตรงกับช่วงวันหยุด Easter พอดี ทำให้ปริมาณทราฟฟิก (Traffic) ยังน้อยกว่าปกติอยู่บ้าง แต่เพียงเท่านี้ก็ทำเอาบริการคลาวด์ของ Amazon ได้ขึ้นเป็นหัวข้อข่าวอีกครั้ง หลังจากคราวที่แล้วที่ประกาศตัดสินใจหยุดให้บริการกับเว็บไซต์ Wikileaks จอมแฉบนโลกออนไลน์ ประเด็นการโจมตีทางคอมพิวเตอร์จึงไม่ใช้สาเหตุของระบบล่มในครั้งนี้ ขณะที่บริการ Web service หลายแห่งที่ให้บริการกับ Wikileak ต้องประสบปัญหาการโจมตีจากกลุ่ม Hacker อยู่เป็นระยะ  
    
    
    
             ถ้าเปรียบเทียบให้เห็นภาพง่ายๆ อาจกล่าวได้ว่าสำหรับผู้ใช้บริการของ Amazon บริการ AWS ที่เปรียบได้กับทางหลวงสายหลัก เมื่อมีปัญหาอุบัติเหตุเกิดขึ้น ไม่เพียงส่งผลกับรถที่อยู่บนถนนเท่านั้น แต่จะกระทบกับรถที่กำลังวิ่งเข้ามาด้วย หรือจะมีการชลอรถเพื่อมองหาเส้นทางอื่น จะเห็นได้ว่าแม้อุบัติเหตุจะเกิดกับถนนเพียงเส้นเดียว แต่มีผลกระทบกับบริเวณใกล้เคียงและถนนที่เชื่อมต่ออีกด้วย
    
    
    
              บทเรียนที่ได้จากเหตุการณ์ครั้งนี้ก็คือ ความเสี่ยงเหล่านี้เกิดขึ้นได้เสมอโดยเฉพาะกับระบบที่เป็นเทคโนโลยีใหม่ล่าสุด ยังไม่เคยมีใครผิดพลาดมาก่อน ทำให้องค์ที่ให้บริการรายแรกๆ เป็นเหมือนหนูทดลองในบางมุมมอง แต่การที่ได้เข้าตลาดเป็นรายแรกก็ย่อมมีโอกาสสร้างฐานลูกค้า สร้างมาตรฐานการให้บริการเป็นการสร้างกำแพงกั้นให้รายใหม่เข้ามาแข่งได้ยากขึ้น นอกจากเรื่องเทคโนโลยีแล้ว แม้จะเป็นผู้ให้บริการด้านเทคโนโลยี ก็ต้องไม่ละเลยการสื่อสารกับผู้ใช้ สื่อต่างๆ เพื่อสร้างความเข้าใจ ผ่อนหนักให้เป็นเบา ในทางกลับกันถ้าปล่อยให้เป็นไปตามบุญตามกรรม เรื่องเล็กๆ ก็อาจขยายผลเป็นเรื่องใหญ่ก็เป็นได้ สำหรับผู้ใช้บริการก็ต้องสร้างทางเลือกนอกจากเป็นการสร้างอำนาจการต่อรองทางธุรกิจ ด้วยการใช้บริการจากผู้ให้บริการมากกว่าหนึ่งรายแล้ว นับเป็นสิ่งที่ช่วยลดความเสี่ยงจากการนำบริการของตนไปฝากชีวิตไว้กับผู้ให้บริการเพียงรายเดียว

ปรมจารย์ท่านว่า ไม่มีอะไร 100% ในโลกแห่งคอมพิวเตอร์ครับ

99.9%

แต่หลายๆ บริษัทใน เมืองนอก กล้าบอก 100% เห็น amazon ล่มกันคงมีการปรับตัวเลข กันเลยทีเดียว อิอิ

amazon ทำ SLA 99.95% นะครับ ไม่ใช่ 100%

เปล่าๆ ไม่ได้หมายถึง amazon มี Hosting บางเจ้าในเมืองนอกน่ะครับ

เช่น

MULTACOM - 2(N+1) Data Center, 100% Uptime

hosting ทำ 100% uptime ง่ายนะครับ บนเงื่อนไขที่ ไม่นับ planned maintenance น่ะนะ

เข้าใจแล้ว planned maintenance งั้น แจ้ง maintenance ก่อนนะั 555+

มี host guarantee 100% นะครับ รายใหญ่ด้วย แต่เงื่อนไขคือถ้า down เขาจะคืนเงินให้บางส่วน ซึ่งลูกค้าต้องมาเคลมคืนครับ