|
|
|
2025.10.21_[📣案例分享] 伺服器可靠性關鍵:電源驗證與電源不穩定性的系統風險
[案例分享] 伺服器可靠性關鍵:電源驗證與電源不穩定性的系統風險
|
|
|
|
伺服器需要長時間穩定運作、支援遠端管理、確保資料不損壞,特別是伺服器運作後,幾乎不會關機,你要如何確保產品能夠符合以下的基本條件呢?
- 開機流程正確且穩定(Power up sequence)
- 供電不穩定時,不會造成資料遺失或硬體損壞
- 韌體與硬體功能正常,例如BMC、BIOS、PMIC、DDR初始化等..
- 斷電或是重啟後,可靠的恢復運作
- 更換關鍵元件(例如SSD)的過程,系統是否依然正常運作
在這些的功能性開發與驗證階段中,[Power]都是非常關鍵的因素,目的是確保DC & AC電源在供給系統上每一個部件時,都能夠提供正確的時序、穩定的啟動與關機,這也是可靠性(Reliability)驗證中非常關鍵的一環。這當中,需要主機板研發團隊進行電源設計、供電時序以及重啟(Reset)。而韌體與BIOS團隊則要確保供電初始化正確以及後續的電源管理邏輯。搭配上品保與製造團隊在可靠性實驗室進行長時間電源循環測試(Power On/Off、Burn-in)甚至是客戶提供的測試流程。
我們所代理的Quarch technology提供一系列的電源測試套件,涵蓋AC與DC完整的電源異常測試以及功率消耗,協助你實現各種異常的電源情況,來驗證伺服器上每個關鍵元件以及系統的Error Handling能力。GPU以及加速卡為了提供更高的頻寬,已經陸續推進到PCIe Gen6的規格,而這個介面也是最容易造成系統藍屏或黑屏的介面,Quarch technology也擁有完整的PCIe Gen6驗證模組,協助你在剛切入全新PCIe Gen6世代的專案時,實現各種異常的電源情況,來驗證伺服器上每個關鍵元件以及系統的Error Handling能力:
- 熱插拔&錯誤控制模組: 可完全控制介面上電源、Sideband以及Data lane。每個訊號都可以單獨控制、加入pin bounce與Glitch,可以在你的主機板上實現所有周邊關鍵元件的熱插拔與錯誤場景。
- DC & AC功率消耗監控模組: 一分鐘即可完成連接,以每秒250KHz來進行取樣搭配uA等級的準確度,即時的呈現電壓/電流與功率消耗等數值,同時也可以進行長時間電源行為紀錄。
- 多通道可控式電源模組: 支援M.2、U.2、SAS、SATA、PCIe AIC、EDSFF等格式,提供Power margining、Ramping、glitching等控制與測試能力。
|
|
|
<案例分享>
測試環境 : 主機板搭配PCIe AIC NIC Card
測試配置 : 在主機板PCIe slot與PCIe DUT金手指中間插入測試治具,而治具連
接到多通到可控電源模組,並透過USB與控制電腦連接(如下圖)。
|
|
|
測試目的 : 測試PCIe AIC Device在主機板供電不穩定的情況下,PCIe DUT在高/
低電壓的極限以及NIC Card失效後,伺服器系統處理失效的行為是
否符合設計。
測試內容 :
- Case #1 : 我們在軟體內針對12v的電源,進行了供電行為的編程,讓12v在供電時,每3ms進行一次-500mV的變化,再回到12v,測試12v~11.5v的耐受度。
- Case #2 : 在5v的電源上,以每5ms的時間下降500mV,直到降至0v,透過這整個過程來觀察DUT究竟會在4.5v or 4v or 3.5v開始無法正確運作,甚至造成伺服器系統藍屏或黑屏。
當然,我們也可以控制電壓下降時的斜率,而非僅是方波。
|
|
|
透過上面的兩個範例,你可在我們的軟體上延伸出更挑戰的測試行為,來確保你的伺服器系統對於電壓異常的耐受度,甚至是個別元件或是整機的功率消耗。我們可以安排展示系統到貴公司進行更詳細的應用實例分享與小組討論,如果您也面臨電源相關的挑戰,歡迎隨時與我們聯繫。
|
|
|
|
|
|
|
|
|
|
|