记一次记忆深刻的RAID经历……
冲着IDE RAID5和诱人的价格,这个月初去买了一块RAID卡,但是,真是有够多灾多难的。笔者陆续会把一些已遇到的问题先post出来,让想买的同志们在搭配其它硬件时能减少一些不必要的不愉快发生。
! `3 ]* \( t4 N' E# ~: H, f! v* t( Y) Z+ V/ [+ i" p2 J3 {: l; E
目前已知的问题:
$ _, b$ |. [8 } c/ h# J; w6 Q/ y
??和WD的8MB buffer 80GB HD "某些型号完全不兼容":没错,是叫做完全不兼容。本人之前(2002.09)购入一个WD 8MB buffer 80GB HD,用的感觉还不错,于是在买卡后再"另外"买了三个 WD 8MB buffer 80MB HD,为什么叫做另外购买?因为那一家卖的HD比较便宜。不啰嗦,回家后就马上想试四个同型号的WD 8MB 80G HD做Raid 5.... 7 J4 v: J2 `. s) g7 l ~* j
: c# Y* v9 i1 ?- g第一章:Raid卡和3 1个WD 8MB 80GB的第一次接触
( p. R% S3 q. w C( g3 m- b" d8 Q$ q9 }) i0 S
Stage 1 : 单卡测试' m% k4 U# q' R% K4 u
??依据使用手册的记载,SX4000插入PCI Slot后就应该能识别得到Mass storge device。嗯,偶的华硕CUR-DLS双socket 370 CPU Mainboard放在 PCI 64 bit slot或 PCI 32 bit slot都能正确识别到。 0 f# I" Q1 F# z2 Z4 i
% v/ x$ s3 ]8 u+ i& [. x$ z/ sStage 2 : 单一硬盘测试 part I
7 P4 s2 T- f( ~8 P3 F- y9 j??把买卡时内附的排线接上卡的IDE 1,随手mount上旧的那个 WD 8MB 80GB HD。嗯,一样能正确的识别到正确的型号和容量,看来好像都很正常ㄚ?!错了,再来才是无尽恶梦的开始。
: B* [9 G/ {' U9 J5 A7 K7 b+ [& F K t, A! q+ [, r2 i K
Stage 3 : 单一硬盘测试 part II& S$ S% \ r- R0 B
??小心的打开三个新买的WD 8MB 80GB HD,换下原来的那个,放上新的HD....,IRQ error?可能是误判。关电源,把所有适配卡和HD再重插一次,再重开机,还是一样。可能是不小心买到坏的HD,换上第二个新的HD再试一次……又一样的error message。抓狂了,第三个再上……还是一样,一次买到三个新的HD同时坏的机会可能会中乐透头奖的机会有拼。 - ~. O$ L: ~# l* J3 w( z
+ O6 |( u( i2 m4 [* F& tStage 4 : 单一硬盘测试 part III
2 f2 p/ g1 b; N% j3 J2 {/ \??一时兴起,把手上所有的HD都拿来试试看,有 IBM 13GB,seagate 酷鱼三20GB 7200rpm,Maxtor 5400rpm 20G,30G,Maxtor 7200 rpm 60GB,Maxtor 液态7200rpm 80GB。每一个都有识别到正确的容量和型号,连原本那个同样型号旧的WD也有识别到,难道真的是买到三个新的坏硬盘?
6 w) ^. L$ ^) G- z??把这三个硬盘拿到Epox 8KTA上试试看,三个完全识别得到,甚至在OS也都能正确运行,这时心中唯一能想的到的是......打死偶都不会相信的事发生了,硬盘不兼容?
) j9 A" Q7 w$ P. m# Q7 P; a" J3 F" n
第二章:End User就该死吗?
, X. ` W5 R( k/ V. @; k n) o) T ^2 x' ?
??为了这块Raid卡,从晚上七点被玩到早上,哼,摃上了,就给它撑到10点,找出华硕公司电话,客服人员请偶等他的回电……(过了10分钟..嗯,不错的客服效率....)华硕客服部门向偶说,也曾接过类似的案例,同样也是WD的HD。长这么大第一次听说硬盘会冲其它硬件的,搞不好明天连机箱(case)也会和OS冲突。 $ r# G% @8 s7 l. X/ y
" f. i! f( u: e* {, K/ G??等了3个多小时,没有solution,嗯,End User就该死吗?当时偶仍坚持在现有的硬件下不愿变更,所以他建议向WD方面寻求解决方案。没办法了,看来只能试试看……/ F4 L, X C' Y* u
山不转,路转,找代理商看看...(经过对方一番洗脑...)捷元客服人员认为硬盘不兼容只有firmware才会引起,而这种问题应该是"Raid卡的制造商要解决的,但他们愿意协助Raid卡的制造商解决" (再一次印证"踢皮球理论"是客服最高指导原则)
' {* J& g) T: j7 F4 R( g. j. u1 z4 p$ ~! ^/ _
) B3 c% b4 ?) Q??偶提出更换三个和偶那个旧的WD 8MB buffer 80GB HD同firmware的HD的请求, - t8 k4 N9 [- a. Z* A5 j- A3 F
对方的回答是..抱歉,偶们的硬盘全部都是封死的,要一个一个打开找是不可能的....
7 x, K/ z6 k/ e) _0 ^(开始想象在仓库中一个一个打开的情形...hmm..应该是很爽)
0 U7 f1 q0 t" S+ A搞了这种地步,看来偶还是真的没事找事做的样子,干么去买Raid卡和硬盘来玩自已?
* s% M5 K. N& `- }3 E( R8 P
( r8 a% w3 {* k2 p8 _??看来只能尝试最后的方法,找Promise客服看看了…… 6 ]3 L; l. d, }
6 f* J, h% J, p1 o8 k4 |# Q! x第三章:来自 Promise 对WD HD的回应 5 N" h, B d, U
+ U! ^+ |; m7 j( f2 \1 o; J: z5 w9 F(陈述完硬件配备和trouble状况后..)
" n& i" t: K d0 t9 W# M& `??Promise客服人员:很有可能是Firmware"不兼容",不然偶给你最新的Firmware你试试看 : T: C* D8 r% E- I) _( `. f
(前方突然亮起一道光芒..God say"主板要是不兼容,update BIOS通常可以解决,说不定/ l, C/ M- o. a/ A+ I9 @
你的问题就解决了..")
2 ~ e( {, t+ f5 x4 |& V
/ R, b8 b- P$ G5 _, \" l??因为太累了,所以睡倒在计算机前..ZzZzZz...
# ?5 f; U, C* d$ W9 X$ v' B* `" w2 n0 a5 m s$ u* I: a6 `# R+ q% A
??隔天起床第一件事,try it out...update Raid Card BIOS...reboot....wait screen POST message(不,偶不相信,一定是起来还没洗手就按开机键....)Raid卡还是不想理偶的HD..天啊,真的注定偶和Raid5相冲突吗?再次向Promise求助。Promise客服人员……看来真的是Firmware的问题,但Release New BIOS要分送各相关硬件厂商,最少须要一个月以上,抱歉了。Raid卡是好的,HD也是好的,但Raid卡加HD却不能动,真的是不爽在心理却无可奈何…… : ?0 n* T u6 ]: {
& _9 l# u; ~8 c% _第四章:更换硬件是唯一的解决方法 : s% P, R5 ~, I8 C
+ }7 W. ?5 }* Y) |6 q& v) `
??思索了很久,Raid卡和HD只能二选一,偶当然要Raid啦。十分不情愿的去换了Seagate 80GB HD三个回来(华硕拍胸脯保证Seagate绝对没问题),为什么会很不情愿?原因有二: 8 V+ R+ f' e* r
一、因为数个月前偶的酷鱼III 20GB 7200rpm HD才刚举办过告别式;
$ `3 t% |2 {5 d3 j二、半年前买的那个Seagate 酷鱼IV 60GB HD买来一个月中换了二次,还是一样会无故无法开机,只能拿来做存数据用,不能当开机用,所以有酷鱼恐惧症。 & y1 U, f+ Y# c/ [' w1 b
2 n* X& F. Z& V/ r$ E: I6 I
??拿回家后还是乖乖的重复前面所述的那些测试。结果,每一个硬盘都能识别到。再插上四个……
8 @ G$ T7 d5 F! h6 a8 ]当从Raid BIOS出现Build Raid选项时,似乎一切的努力都是值得的。但是,王子和公主从此就过着幸福快乐的日子了吗? 8 N$ m/ S2 U( P: t9 t: j
# P, N1 A5 Z: s f; G8 ]' e! _
第五章:操作系统Hang住
+ ]( d. d2 f0 E% _7 l! r6 h; p- M4 F U, j7 J. `; B
??终于能Build Raid了,看了一下手册,依样画葫芦。四个80GB Build Raid 5 = (4-1)X 80GB = 240GB / |# U* ?$ y# K) I; A! u
被这块Raid卡整过,所以偶还是给他不断的reboot看是不是都能识别的到。最后,看来好像真的没问题了。0 B" @; Q: e" i/ ^
接上上 CDROM和Floppy,install 2000 server, hook上Driver,都顺利识别到Mass storge drivers,到了第一个欢迎安装xxxxx的画面,按Enter准备安装,画面显示正在侦测硬盘中……(有点久,过了一分钟还没侦测完)。
' G. ]" H: }' o8 j: u4 ]
+ z- l: `" n9 d) {: J: i; U2 I(外出去7-11买个饮料,心想回来就应该侦测完了..)
: P* Q3 Z# V' X7 |) k4 y8 B% d5 D6 B4 `. o. O( O8 s& A
??是侦测"完了"吗?一直停在同一个画面。手痒了,给它Reset再reboot,再重复安装步骤……真该去买乐透的。天啊,又中奖了。无法pass OS的侦测硬盘步骤
; J9 \5 o, @5 l( P; A% Q. ?
* C- c/ R. d4 u( l第六章:事情的真相只有一个 " C1 N+ {( t, o1 @
" s5 r9 f* x: w/ i
??没办法,投降了,连络华硕分公司寻求解决。约时间带整组机器过去(因为偶把之前的60G升级成80G)。他们拿了一个Seagate 酷鱼V 120G的来测,测试结果:同样的配备在华硕那里当然是出一样的问题。最后竟敢怀疑偶的HEC 350不够力,另外加了一个Power测,还是一样(致少证明问题点不是死在Power)什么?再来想怀疑偶的内存?本人的插在Raid卡上的Micron 256MB ECC PC-133 RAM个粒好说歹说也在ASUS测过有Pass的(http://taiwan.asus.com.tw/server/comimages/ramtype.gif)且Promise网站上也有写到有通过测试。哼,换上看起来不怎样的一般非ECC的 Apacer SDRAM会有效吗? , }+ ]7 B/ @# B% C) r: a7 [
* ~# ` K- K6 m真的有效!
4 s: |* S* V4 \% Y& e& K' T3 B$ y
2 q/ K7 X" H* ~# `- V V) _事情的真相只有一个,该死的ECC RAM竟然和Promise一起唬吓偶。
. g1 u H8 S4 a4 ~" \" ]5 [7 Y1 _2 E1 g# ~
第七章:再见了,偶亲爱的主板
% `+ [7 W1 }2 i. Q0 l+ B$ v/ y! ]: ^) ?3 `$ S
??回家后不小心踢到了东西,捡起来看一下。烂烂的NEC 256 RAMPC-133 CL=3(非ECC),加减用千辛万苦,克服了重重问题,终于建构起偶的私人File Server with Raid 5。基于十分戒慎恐惧的心理,拿来了一些测试软件,并来回长时间热机测试。3天连续开机跑测试软件保持不当机状态,看来是时候了。在workstation上mount上旧的HD,select all,30GB ctrl C,ctrl V…… / [3 ~5 [) X9 H& Z) j& V7 z
H9 Q9 b: Q) j; b |) Y( }) v( z??想到早上起来就能把数据备份ok,爽度100%,面带微笑,终于可以好好的给他睡一觉了....ZzZzZz...
- t& f5 ~* g+ I: s6 {% s5 ?$ t& H
9 i! n! A: r- I" C??但是,事情真的有这么顺利吗?一早起来,一个大大的" X " 在屏幕上,该死,之前收集的东西中有一些Hack Tool,被防毒程序挡下来,熟练的切换电子式切换器到Raid那台机器,系统Hang住了。按下reset,reboot ... 不..不要...不要停"""" ( P$ [+ X* P5 Z9 k; F
/ B4 E7 X. Y6 g* w- H; q
??真的停了..真的..
( S8 [( b& Z- l- P5 @$ O( v! A; E: k+ y" e8 @$ W
??零件一件一件拆下测试,除了主板,每一个零件都work正常。天啊,这是什么世界,这样也能挂掉一块主机版?!(这块主机版偶之前使用都是24小时不关机的,稳定度决对可信)怀着悲伤的心情,细心的用防静电袋把尸块..不..是遗骸..小心的收好…… % t* @, X5 x1 d3 c1 I3 j1 @
/ p8 p6 T/ @5 j) k b后记: 3 {- V( p. }5 b( h/ \
8 M' P; d' A P2 l* \
配置列表:4 c) R. w# K. q, R7 L
MSI 694D pro(BIOS 1.9) 1 |" u& W0 U, m* M
Intel 733EB X 2
) K. u( q& ^1 j" oMicron 512MB PC-133 RAM (ECC RAM ,但是偶disable ECC)
- v4 L6 a! o7 D+ v: xTNT2 32MB Graphic Card ) @+ y" F9 m# s' q% @! A
DLink 500TX NIC ' h( L! x Q3 ]" q* D& A( i
Promise SX4000 Raid Card
6 X9 h, F/ Y5 kSeagate 酷鱼IV 80GB X 4
4 \- F3 l- X) ^8 L* YHEC 350W Power
( P& Z" q/ C- G4 J5 W1 ^& g
0 R& o" ~, v5 q$ I% V??目前这块Raid卡在偶的MSI 694D pro中正常的运作着,这块卡会挑PCI slot,请费点心调出一个适当的位置。(简单的测试法:放硬盘上去,build raid,如果重开机后BIOS设定没写入,那个slot就不能用) ,这块卡对ECC RAM很感冒,请用普通的SD RAM置入Raid卡上(Raid卡本身有XOR,加减用吧)这块MainBoard上的RAM ECC功能打开会无法by pass selftest(求神问卜中..)
点击图标进入精品网摘收藏 欢迎大家加入网络收藏夹