beerdk
1
ผมใช้ cisco c200 m2 กับการ์ด RAID LSI 9260-8i + Battery
set เป็น RAID10 ด้วย WD RE4 1TB 4ลูก Cache Policy เป็น write back
OS ESXi 5.1
ปัญหาคือใช้งานอยู่ดีๆ ก็เหมือน disk หยุดทำงานคือกราฟ Disk ตกลงไปที่ 0 หมดเลย
ยังสามารถล๊อกอินเข้า esxi ได้ vps ข้างในเห็นสถานะเป็น on แต่จริงๆแล้วไม่สามารถทำงานได้คือ ping vps ไม่ติดเลย
สั่ง restart esxi ไม่ได้เพราะหลังจากสั่งมันจะขึ้น restart in process และค้างอยู่ที่หน้านั้น
ต้องสั่ง reset จากหน้า cimc ของ server
มีอาการแบบนี้มา 3 ครั้งแล้ว
2 ครั้งแรกหลังจาก reset บูทไม่ขึ้นอาการคือบูทผ่าน HDD ไปจนหมด boot sequence เหมือนไม่เจอ HDD
ไปดูสถานะของ HDD เป็น unconfigured good
เลยกด power off และ power on กลับมา มีข้อความของ lsi ขึ้นมาบอกประมาณว่ามันตรวจสอบพบ memory corrup และมันได้ recovery แล้ว
และให้ กด C เพื่อไปต่อ พอกด C มันจะเข้าไปใน Web Bios และ RAID10 ที่เคยคอนฟิกไว้ก็กลับมาโดยที่ผมไม่ได้คอนฟิกใหม่ ที่นี้ก็ boot esxi ขึ้นมาได้ปกติ
ส่วนครั้งที่สามพอมีอาการเดิมผมกด Power cycle ใน cimc เลยปรากฏว่ามันบูทได้เลยไม่มีข้อความอะไรผิดปกติ
ไม่ทราบว่ามีใครพอจะรู้รึเปล่าครับ
ว่าปัญหานี้เกิดจากอะไร แล้วควรจะแก้ใขยังไง
ขอบคุณครับ
icez
2
แรมบนการ์ด raid มีปัญหารึเปล่าฮะ?
beerdk
3
แบบนี้จะตรวจสอบได้ยังไงหรอครับ
หรือว่าส่งเครมได้เลย
rtsp
4
ตรวจยาก ถ้ามีประกันก็เคลมไปเลยครับ
TarZa
5
ถ้าคิดว่าเป็นที่ ram ลอง ตั้งให้วิ่งตรงไม่ผ่าน ram ดูสิครับ สายข้างในไม่ดีเปล่า เหมือน disk มัน offline เลย
การ์ด Raid ส่วนน้อยที่จะพังครับ โอกาส HDD เดี้ยงเป็นไปได้สูงครับ ลองเทส จาก 4 ลูก เหลือ 2 ลูกดูครับ
beerdk
7
ตอนนี้ผมไปปรับ Disk Cache Policy เป็น Disable และ Write Cache Policy เป็น Write Through
คงต้องดูอีกสัก 2 สัปดาห์ว่าเป็นอีกรึเปล่า
ถ้าหายคงเป็นที่ cache จริงๆ
360
8
การ์ดตัวเดียวกับผม ปัญหา คล้าย ๆ กัน esxi เหมือนกัน. ปัญหานี้ตรวจสอบยากมาก ต้องค่อย ๆ ลอง.
ผมลองจากถอดการ์ดออกเลย ใช้แต่ hdd เพียว ๆ พบว่ายังมีปัญหาเหมือนเดิม. จึงเอา disk ใหม่ไปเปลี่ยนทั้งชุด พบว่าอาการหาย
สรุปเคสผมเป็นที่ hdd
beerdk
9
มีวิธีเอา HDD มาเทสไหมครับว่าเป็นที่ลูกไหน
360
10
ตอบอยากครับ ปัญหา disk หลุดจาก raid นี่ผมเคยลองตั้งสมมุติฐาน มันเป็นได้หลายกรณี เช่น ไฟตก firmware ห่วย, chip set ใกล้พัง.
ของผมเปลี่ยนยกชุด ชุดเก่าขายทิ้งหมด ตัดปัญหา. จากนั้นไม่มีอาการอีกเลย
เสียบตรงๆ บนบอร์ดเซอเวอร์แล้วก็ใช้ทูลเช็คเอาครับ
ถ้าทำได้ เคลมมันทั้ง hdd ทั้ง raid ไปเลยครับ
beerdk
12
หลังจากปิด cache ไป speed ตกลงไปอย่างชัดเจนเลยลองเปิดกลับมาได้วันเดียวเป็นอีกแล้วพอ reset แล้วเจอหน้าจอนี้ครับ

แบบนี้เป็นที่การ์ด raid ใช่รึเปล่าครับ
rtsp
13
แรมการ์ดเรดพังชัวร์ป๊าปครับ
ถ้าเป็น 9260-8i ก็ต้องเปลี่ยนการ์ดครับผม
Memory บนการ์ด raid เน่าละครับ
รีบเคลมก่อนหมดประกัน
TarZa
15
Dimm นี่คือ แรม แหล่ะครับ ระหว่ารอเปลี่ยน ถ้าไม่มีอะไีจะเสีย ลอง อัพเฟริมแวร์ ดู ครับ
beerdk
16
ตอนนี้เคลมการ์ด raid มาแล้วเมื่อวานนี้
เปิดเครื่องได้วันเดียวเป็นอาการเดิมเลยครับอยู่ดีๆ HDD ทุกลูกก็สถานะเป็น [COLOR=#333333]unconfigured good แล้วนิ่งไป
พอปิดเปิดเครื่องใหม่ก็กลับมาปกติ
ที่ผมงงก็คือสองสัปดาห์ที่ผ่านมาระหว่างรอการ์ด raid ตัวใหม่ส่งมา ผมปิด cache ไว้มันก็ปกติดีไม่มีดับเลย[/COLOR]
rtsp
17
กาดเรดนี่เคลมจากที่ไหนครับ ของใหม่เลยรึเปล่า
ส่วนที่ปิดแคชแล้วไม่พังก็แสดงว่าเป็นที่แรมแหละครับ