相比PC而言,服務器出故障的機率是小(xiǎo)多了,但是它出故障造成的損失可也大(dà)多了。作爲服務器維修人員(yuán)需要了解一(yī)些服務器故障恢複的基本知(zhī)識,知(zhī)道在維修時可以做些什麽來最快速的解決問題也可以減少故障停機時間。
本文并不是一(yī)本服務器故障解決的完全手冊,但如果能夠認真的按照下(xià)面的步驟維修維護,它也許可以解決大(dà)多數問題,但當你做完所有的這一(yī)切仍不管用時,不用慚愧,去(qù)找維修專家吧,可以放(fàng)心的是,這些維修步驟不會出現大(dà)的損害,最壞的情形是“It does not work at all”。
本文主要分(fēn)三部分(fēn):第一(yī)部分(fēn)講的是服務器故障排除的基本原則性問題;第二部分(fēn)講述了一(yī)些服務器硬件故障排除的實例;第三部分(fēn)講述了一(yī)些服務器軟件故障排除的實例。
第一(yī)部分(fēn) 服務器故障排除的基本原則性問題
一(yī)、服務器開(kāi)機無顯示應怎麽辦
1、檢查供電環境,零-火(huǒ);零-地電壓
2、檢查電源指示燈,如果亮,正常嗎(ma)
3、按下(xià)電源開(kāi)關時,鍵盤上指示燈亮嗎(ma)?風扇全部轉動嗎(ma)
4、是否更換過顯示器,更換另一(yī)台顯示器
5、去(qù)掉增加内存
6、去(qù)掉增加的CPU
7、去(qù)掉增加的第三方I/O卡
8、檢查内存和CPU 插的是否牢靠
9、Clear CMOS
10、更換主要備件,如系統闆,内存和CPU
二、服務器故障排錯的基本原則是什麽
1、盡量恢複系統缺省配置
a:硬件配置:去(qù)除第三方廠商(shāng)備件和非标配備件
b:資(zī)源配置:清除CMOS,恢複資(zī)源初始配置
c:BIOS,F/W,驅動程序:升級最新的BIOS,F/W和相關驅動程序
d:TPL:擴展的第三方的I/O卡屬于該機型的硬件兼容列表(TPL)嗎(ma)
2、從基本到複雜(zá)
a:系統上從個體(tǐ)到網絡:首先将存在故障的服務器獨立運行,待測試正常後再接入網絡運行,觀察故障現象變化并處理
b:硬件上從最小(xiǎo)系統到現實系統:指從可以運行的硬件開(kāi)始逐步到現實系統爲止
c:軟件上從基本系統到現實系統:指從基本操作系統開(kāi)始逐步到現實系統爲止
3、交換對比
a:在最大(dà)可能相同的條件下(xià),交換操作簡單效果明顯的部件
b:交換NOS載體(tǐ),既交換軟件環境
c:交換硬件,既交換硬件環境
d:交換整機,既交換整體(tǐ)環境
三、服務器故障排除需要收集哪些信息
服務器信息:
1、機器型号
2、機器序列号(S/N:如:NC00075534)
3、Bios 版本
4、是否增加其它設備,如網卡,SCSI 卡,内存,CPU
5、硬盤如何配置,是否做陣列, 陣列級别
6、安裝什麽操作系統及版本(Winnt 4, Netware, Sco, others)
故障信息:
1、在POST時,屏幕顯示的異常信息
2、服務器本身指示燈的狀态
3、報警聲和BEEP CODES
4、NOS的事件記錄文件
5、Events Log 文件
确定故障類型和故障現象:
1、開(kāi)機無顯示
2、上電自檢階段故障
3、安裝階段故障和現象
4、操作系統加載失敗
5、系統運行階段故障
第二部分(fēn) 服務器硬件故障處理幾例
硬件故障是指服務器硬件出現異常而導緻的各類錯誤。由于服務器構成比較複雜(zá),因此在檢查的時候必須認真、仔細。下(xià)面以一(yī)台萬全4500爲例說明。(例子,在實際問題中(zhōng)如果遇到相似現象,也需要具體(tǐ)問題具體(tǐ)分(fēn)析,不要盲目套用)
有一(yī)台萬全4500,配有256M内存,使用一(yī)個PIII XEON 500帶2M高速緩存的處理器。開(kāi)機後沒有任何顯示,但系統日志(zhì)上提示了一(yī)條CPU電壓爲0伏的信息,系統指示燈三燈不停在閃爍(指示燈三燈閃爍是服務器的另一(yī)種報警方式,我(wǒ)會在文後說明)。這種錯誤一(yī)般是處理器電壓調節模塊(VRM)出錯或CPU出錯或CPU與CPU闆塊接觸不良,但也可能是CPU闆塊出錯,這時情況就比較複雜(zá)了,必須經過認真慎重的思考。因爲CPU闆塊在整個服務器中(zhōng),占有舉足輕重的地位,如果它出錯服務器是會報緻命錯誤的,并且在系統日志(zhì)中(zhōng)會提示緻命錯誤,但報CPU電壓錯的情況也有5%左右。我(wǒ)們立刻把CPU調換在另一(yī)CPU插槽中(zhōng),開(kāi)機後依然是剛才的那種故障。所以在初步判斷中(zhōng),可以排除是CPU闆塊壞。
這時,取出CPU仔細擦拭金手指,以及CPU闆塊中(zhōng)與CPU接觸的地方後,開(kāi)機依然無顯示。
相對處理器壞的情況來說處理器電壓模塊(VRM)出現故障的情況比較大(dà)。于是立即在另一(yī)台萬全4500中(zhōng)取下(xià)一(yī)個處理器電壓模塊,安裝在此服務器中(zhōng)。開(kāi)機後,服務器依然沒有任何顯示,系統日志(zhì)上依然提示CPU電壓爲0伏的信息,系統指示燈三燈依然不停在閃爍。這時的情況就比較明顯了。于是立即從另一(yī)台萬全 4500中(zhōng)取下(xià)一(yī)個CPU安裝後,開(kāi)機正常。
總結:
在服務器的維修中(zhōng),線索都會顯得撲朔迷離(lí),一(yī)般來說不可能一(yī)次就可以準确地判斷出問題的所在。這樣就要求相關人員(yuán)要有信心及耐心。出現錯誤一(yī)般的流程是通過系統日志(zhì)上的信息來解決,如果沒有解決問題再找出其它因素,然後再看日志(zhì)信息。總之,服務器出錯後,必須一(yī)步一(yī)步解決,沒有捷徑可言。
又(yòu)如:
有一(yī)台萬全4200開(kāi)機不顯示,發現開(kāi)機時系統日志(zhì)沒有任何信息,且系統指示燈不亮。初步判斷是電源方面出現了錯誤。經過仔細檢查,發現服務器的電源是正常的,因此最大(dà)的可能就是服務器的電源管理闆出現故障。更換電源管理闆後,開(kāi)機顯示正常。但這時,新的問題來了:自檢時,用CTRL+M不能檢測到硬盤。
硬盤在别的服務器上是正常的,因此立即清除此服務器的CMOS,但依然不正常。立刻上網找到此服務器的最新BIOS,升級BIOS後也不能解決問題。又(yòu)檢查硬盤籠子和服務器裏的數據線及電源線後依然出錯。這時,一(yī)般情況會懷疑是服務器的I/O闆(輸入輸出闆塊)有問題。但就在這個時候,我(wǒ)發現在I/O闆上有一(yī)個非聯想的舊(jiù)式網卡,立即去(qù)除此網卡後服務器就一(yī)切正常。
硬件故障并不單單指硬件有問題,它也指硬件之間不兼容。因爲服務器的正常運作需要各部件之間的大(dà)力協調。建議大(dà)家在采購各元件時,都采用同一(yī)品牌原裝的,并且要采用能發揮服務器性能的元件(上例中(zhōng)的舊(jiù)式網卡即使正常也會嚴重影響服務器性能),這樣才不會發生(shēng)莫明其妙的故障。
還有一(yī)種情況:用戶需要把他的萬全3200升級到雙網卡,我(wǒ)建議他購買原裝網卡,但當他看到萬全 4500的網卡是采用的INTEL 82559芯片後,斷然決定不使用原裝網卡而采用另一(yī)品牌也采用INTEL 82559的網卡。過了幾天,他打電話(huà)給我(wǒ)說,他的新網卡不能使用網絡冗餘及數據校驗,并懷疑服務器有問題。維修工(gōng)程師帶了一(yī)個INTEL 82559網卡到用戶那裏,仔細檢查了服務器的環境完全正常後,把INTEL 82559網卡安裝到機器上後一(yī)切正常。這個例子更加說明了,要發揮服務器的最大(dà)性能及功能,必須使用原品牌原裝的配件。非原品牌非原裝的配件,不能支持服務器的某些功能,嚴重的會影響到服務器的正常使用。
要避免硬件故障發生(shēng)頻(pín)率,服務器管理人員(yuán)必須注意服務器的使用環境完全正常。比較重要的服務器必須在恒溫、恒濕的環境;電壓也要符合,不僅要采用UPS,還必須接地線,必須是左零線、右火(huǒ)線,零地電壓在1~3伏。在開(kāi)、關服務器上必須符合正常的流程。工(gōng)作人員(yuán)必須嚴格執行操作流程。
一(yī)般情況來說,服務器維修人員(yuán)對于硬件故障隻要有豐富的經驗都能很快找出故障所在,如果不能解決就必須迅速與服務器的售後服務中(zhōng)心020-32487454聯系。
第三部分(fēn) 服務器常見軟故障解決思路與實例
服務器軟件故障是在服務器故障中(zhōng)占有比例最高的部份,約占70%,解決的過程必須更加深思熟慮。導緻服務器出現軟件故障的原因有很多,最常見的是服務器 BIOS版本太低、服務器的管理軟件或服務器的驅動程序有BUG、應用程序有沖突及人爲造成的軟件故障。下(xià)面分(fēn)别舉例說明各類軟件故障的維修方法。
有一(yī)台萬全3500服務器,配置爲雙PIII 500帶521K高速緩存的CPU、512M内存。開(kāi)機後,系統日志(zhì)報電壓調節模塊異常(VRM)的錯誤,報錯的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。從表面來看,極有可能是服務器的電壓調節模塊或其它硬件出現故障,極容易導緻維護人員(yuán)認爲是硬件故障。維護人員(yuán)立刻使用其它萬全3500的硬件來測試,發現即使使用新的配件,此服務器依然報VRM錯。就在一(yī)籌莫展的時候,維修工(gōng)程師帶來了最新的CPU管理闆(CPU Management Control)的固件(FIRMWARE),于是升級了CPU管理闆塊的FIRMWARE後,服務器恢複立即正常。
FIRMWARE升級方法是, 1) 用軟盤啓動計算機,然後插入firmware軟盤并運行上面的相關文件cabrillo; 2) 系統刷新BMC(主闆控制器)和HSC(熱插拔背闆控制器); 3) 然後系統詢問執行第幾個選項(通常爲2); 4) 然後系統詢問服務器的電源配置(通常爲2); 5) 如果回答有兩個電源,系統詢問服務器是否有輔助風扇——即在第三個電源(冗餘電源)的位置上 是否有風扇(通常爲N); 6) 然後系統詢問是否重寫 BMC kernel use area;(通常爲N)然後系統詢問是否輸入一(yī)個asset tag; (通常爲N) 7)最後系統詢問在刷新後是否要重新啓動系統;(通常爲Y)。這種升級方法也适合刷新系統BIOS等,命令的參數不同以及更新FIRMWARE及BIOS文件名不同,參數請參考服務器的說明。
任何一(yī)款服務器的FIRMWARE及BIOS都會有不同的BUG,因爲BUG在所難免,所以我(wǒ)們不能錯誤地認爲服務器的BIOS程序就很完善,而應該經常更新服務器的FIRMWARE及BIOS,隻是在升級之前應該小(xiǎo)心謹慎,錯誤的升級方法将會導緻嚴重的後果。
目前流行的中(zhōng)高檔服務器都擁有強大(dà)的管理程序,爲客戶提供了方便的管理途徑;服務器也擁有各種操作系統下(xià)的驅動程序,方便了客戶在各種操作系統中(zhōng)的使用。但是,世上任何一(yī)款程序都會有一(yī)些BUG,這些BUG将影響用戶使用。但是服務器廠商(shāng)總是會在第一(yī)時間内開(kāi)發出新的程序,客戶隻需要及時更新這些程序就可以避免這類故障。
當服務器的軟件故障爲此類時,表現的現象也不盡相同。一(yī)般來說,管理程序BUG會導緻系統速度變慢(màn),CPU占用率變高,無法正常使用某些功能等;驅動程序的BUG會導緻死機、與某些軟件有沖突,磁盤工(gōng)作不穩定等。查看管理程序是否出錯的最好的辦法就是在系統中(zhōng)首先禁止此類管理工(gōng)具,再觀察服務器是否還是異常。由于管理工(gōng)具是随着系統啓動而啓動的,所以應首先避免它的啓動。以WINDOWS NT4爲例,就首先在管理工(gōng)具服務中(zhōng)禁用某些服務器軟件服務,再修改注冊表中(zhōng)的啓動項即可。如果是驅動程序有問題的話(huà),就以安全模式進入系統,看是否正常。但是需要注意的是,在安全模式中(zhōng),系統速度變慢(màn)是正常的(特别是磁盤I/O方面)。
服務器的維護人員(yuán)就應該經常在服務器網站上下(xià)載最新的管理工(gōng)具程序及驅動程序。這樣會減少很大(dà)一(yī)部份軟件故障的發生(shēng)。
相比之下(xià),軟件沖突造成的故障判斷比較困難,需要管理人員(yuán)有比較豐富的經驗以及敏銳的觀察力。
曾經有一(yī)位用戶說,他有一(yī)台萬全的服務器無法安裝SQL SERVER 2000,已經重裝N次NT了,排除是系統故障。而這唯一(yī)的服務器又(yòu)将作爲非常重要數據庫服務器,因此非常着急。于是維修工(gōng)程師去(qù)了他的公司查看。這台服務器所在的機房是非常标準、完善的機房,檢查了這台服務器的情況,發現并沒有硬件上的故障,于是排除了光驅讀盤力差的可能。但是,用戶刻的SQL SERVER 2000光盤引起了工(gōng)程師的懷疑,工(gōng)程師讓他拿出了正版的 SQL SERVER安裝,結果還是不行。在安裝的過程中(zhōng),沒有出現絲毫錯誤,可就是在運行的時候會自動退出,沒有任何提示。但是,我(wǒ)在管理工(gōng)具中(zhōng)的事件查看器的系統日志(zhì)中(zhōng)卻發現了一(yī)條信息:windata.exe導緻一(yī)個無效的數據溢出。Windata是用戶自己編寫的一(yī)個程序,而且是随操作系統啓動而啓動的程序。我(wǒ)立即結束掉這個進程後,再運行SQL一(yī)切正常。
對于此類軟件故障,操作員(yuán)最好先查看有關的日志(zhì),看看系統中(zhōng)是否有可疑的進程。目前的服務器無論是高端還是低端,對于SQL等标準程序的支持是相當可靠的,所以排除的重點就是結束可疑進程。
還有一(yī)種軟件故障是人爲因素造成的,它一(yī)般是人爲誤操作(包括沒按操作流程的操作)、意外(wài)關機(包括電源突然不供電)或非正常關閉應用程序造成的。
人爲誤操作因素隻要加強管理都可以避免此類故障發生(shēng)。在這裏就詳細說明意外(wài)關機或非正常關閉程序造成故障的方法。
正常關閉系統程序非常重要,尤其是WEB服務器,一(yī)個用戶就是因爲沒有正常關閉系統程序而經曆了一(yī)次數據損壞甚至丢失的經曆。
對于服務器的軟件故障,隻要平時管理員(yuán)注意維護,應該是可以避免的。
聯系電話(huà):020-87518715
聯系郵箱:services@picusit.com
公司名稱:鄭州易科計算機服務有限公司
公司地址:廣州市天河區龍口西路100号中(zhōng)明大(dà)廈1601