文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.03.006
中文引用格式: 王欣,張錚,張為華. 數據中心的能源管理技術研究[J].電子技術應用,2016,42(3):20-23,27.
英文引用格式: Wang Xin,Zhang Zheng,Zhang Weihua. Power management technology of datacenters[J].Application of Electronic Technique,2016,42(3):20-23,27.
0 引言
隨著互聯網產業的發展,社交網絡、人工智能、電子商務、物聯網等等一系列新興互聯網業務均依賴于大規模、高流量、多功能的數據存儲與計算。而數據中心作為大規模服務器集群的組織和互聯形式,逐漸成為支撐現代IT產業的基礎設施。隨著數據中心規模的逐漸增大和硬件架構的日趨多樣化,數據中心的能源管理正在逐漸成為數據中心建設和運營的一個重要問題。根據美國自然資源保護理事會(Natural Resources Defense Council)的統計,2013年,全美國的數據中心約消耗了910億千瓦時的電量,相當于34個大型火力發電廠一年的發電量[1]。而根據Environmental Research Letters的預測,全球數據中心的功耗有可能每5年翻一番[2],截至2020年,全美的IT企業每年要在數據中心的供能上花費130億美元,并排放大約1億噸二氧化碳[1]。如此龐大的功耗開銷已經成為數據中心的設計和運營過程中不可忽略的問題。同時,隨著全球氣候變暖等環境問題的出現,龐大的能源供應系統所帶來的巨額碳排放量無疑會給數據中心的運營商帶來環保方面的額外開支,如何將可再生清潔能源投入數據中心服務也必然會成為未來數據中心建設和研究的重點關切。
回顧近年來學術界關于數據中心能源管理問題的研究成果,可以發現當前數據中心的能源管理系統主要面臨以下幾個方面的問題:
(1)功率波動與能源超額認購(oversubscription)
隨著數據中心規模的擴大和復雜度的提高,數據中心所要處理的任務也趨向于多樣化,不同的任務所需的能源供應差別非常大。為滿足數據中心功率理論峰值的消耗,設計者往往需要超額認購能源供應限額,這部分超額認購的能源在數據中心運行的大部分時間并不需要投入工作,這就造成了大量不必要的能源認購開銷。
(2)能源需求的非比例增長
數據中心的可擴展性是數據中心架構設計的一個重要關切,大部分數據中心能夠根據業務規模的擴展增加服務器和相關配套設施的數量。但是隨著計算能力的擴展,由于散熱和架構等方面的問題,數據中心的能源消耗有可能呈現超比例的增加,這會讓數據中心的建設和維護成本成倍增長。
(3)散熱與制冷方面的開銷
溫度控制設備是數據中心必不可少的配套設施,而隨著數據中心發熱量的增大,散熱制冷以及熱能的循環利用,正在成為一個具有很大研究價值的問題。
(4)巨額碳排放所帶來的社會成本
隨著公眾和政府對環保問題的重視,對于高耗能企業征收碳排放稅已經成為一種國際趨勢。而數據中心作為耗電量極高的基礎設施,必然會給IT企業帶來高額的環保開銷。這使得數據中心供應商將關注點轉移到新興的可再生清潔能源上。
為應對這些功耗問題的挑戰,學術界和工業界提出了一系列的解決思路與研究方法,本文總結了這些能源管理技術,討論了現有的數據中心能源管理措施的技術原理和實際效果,并展望了未來數據中心能源管理系統的發展趨勢。
1 面向數據中心的能耗優化
數據中心能源管理方面所面臨的挑戰,本質上是由現有資源的低效利用和傳統能源的高碳排放特性所引起的,因此學術界和產業界的優化方向和研究思路大約可以歸結于兩個方面:提升現有能源的利用效率以及開發利用清潔的可再生能源。近年來,關于數據中心能源管理系統的研究工作主要集中于以下幾個主題。
(1)功率封頂(Power Capping)技術
通過實時監控數據中心的能源供應和消耗狀況,動態調度數據中心的任務分配。并通過不間斷電源(Uninterrupted Power Supply,UPS)來調節電源供應波動和應對突發的功耗高峰。通過平滑功耗曲線、降低功耗峰值壓力,數據中心的供應商可以節省一大部分能源認購而不會影響數據中心的正常運營。
(2)應用級別的程序分析與指令調度
隨著程序分析技術的發展,數據中心的任務調度粒度可以縮小到指令級別,改變程序指令的具體執行時序。通過對于程序指令流的分析和預測,將執行模式相近的指令批量執行,可以從微觀層面降低由于任務切換而帶來的功耗開銷。
(3)新材料部件的應用
隨著相變材料(Phase Changing Material)、熱能存儲設備(Thermal Energy Storage)、超級電容(Super Capacitor)等一系列新型材料部件投入商業化運用,數據中心運轉過程中超額的熱能和電能可以以更高的效率存儲固化并在需要的場景下釋放再生。
(4)可再生能源利用
風能、太陽能、水利能源是低碳環保的可再生能源,是未來數據中心供能的重要來源。然而,這類可再生能源天然地具有間斷性和不穩定性,如何利用不穩定的可再生能源驅動數據中心穩定持續運行,是未來數據中心功能系統的重要研究方向。
2 提升能源利用效率
目前,在提升數據中心對于現有能源的利用效率方面,主要的解決思路集中在功率封頂技術、負載分析與指令級別調度、新型材料的利用等方面。
2.1 功率封頂技術
據統計,數據中心每認購1瓦特的電源供應,無論是否有效投入應用,都會產生10~25美元的費用[3-4]。然而,數據中心按照理論峰值認購的功率數額,實際運行過程中卻很少真正發生。據一項針對Google公司的數據中心功耗狀況的調查,在數據中心的運行過程中,實際功率達到理論峰值的90%的情況小于運行時間的1%(如圖 1所示,橫軸為耗電量與理論峰值的比值,縱軸為運行時間的累積分布函數。可以看到耗電量達到理論峰值90%的運行時間實際小于1%)[5],為這些出現可能性較小的情況而超額認購能源供應顯然會帶來很大的成本浪費。
針對數據中心的功耗波動問題,一個有效的解決思路是功率封頂技術,通過協調數據中的工作負載,使數據中心的功耗曲線趨于平滑。而功率封頂技術所需解決的一個主要問題是能源消耗狀況的不確定性和不可預測性。目前解決這一問題的研究方向集中在兩個方面:
(1)離線的功耗模型理論框架與在線的啟發式能源調度算法
大型數據中心的能源供應框架往往非常復雜,為了得到最佳能源供應和能源利用效率的理論值,有必要針對數據中心能源系統的結構設計進行理論建模,從而得到可以在實際運行中作為參考的基線值。一般來說,數據中心使用大規模分布式的UPS來調節能源負載和應對能源峰值[6]。在能源供應的理論模型中,必須要考慮大規模的UPS陣列的能源存儲量、運行時間、電源壽命、效率與可擴展性等諸多因素。同時,在服務器集群中,數據中心往往通過任務調度和延遲執行來調節集群中各個節點的功耗需求[7-8],而任務遷移的開銷(緩存缺失、網絡帶寬消耗、處理器流水線排空等等)也是理論模型中所必須考慮的因素。通過這些靜態參數,數據中心的管理者可以將數據中心的功耗模型規約為一個線性最小化問題,這為實際運營中的功率消耗提供了可以比較的基線值[9]。然而離線的理論模型需要對各個工作任務的功率消耗有先驗的認知,因此不能直接應用于實際的能源管理過程。在線的啟發式能源調度策略則實時監控數據中心運行時的各項功耗狀況,在服務器級別、集群級別、跨集群級別三個層面調節任務遷移和任務延遲,從而在功率預算的約束內達到最高的計算資源利用效率。
(2)能源供應的分布式設計
UPS是存儲與釋放能源的基本單位,而UPS陣列可以集中于數據中心中的一個邏輯節點,也可以分布于數據中心的各個不同位置。目前,分布式的UPS備用電源正在受到包括Google在內的很多數據中心建設者的重視。在分布式的UPS陣列中,數據中心操作員可以比較靈活地決定哪些備用電源在何時接入電源供應網絡以彌補設備電源的電力供應缺口[10],從而利用儲備電量削減電力供應峰值的壓力。
2.2 程序分析與指令級別調度
數據中心所運行的計算任務的功耗需求調節技術是功耗管理系統的重要組成部分。通過對于程序執行基本塊(Basic Block)的分析,可以計算得出指令之間的相似程度,如果相似程度較高的指令連續執行,就可以省去取值、譯碼、控制邏輯、多路復選器等模塊在任務轉換等方面的功耗開銷。而利用線程同步(Thread Synchronization)技術[11]可以延遲相關指令,使得相似的多條指令可以批量執行。
Princeton大學提出的拖拽執行(Execution Drafting)技術利用了上述的功耗特點,使用指令粒度的程序分析技術識別多個應用間相同或相似的指令序列,利用硬件上的指令同步器(Synchronizer)延遲一些進程或線程的指令流水線過程,從而使得相似的指令序列能夠在運行時間上對齊(Alignment)。當第一條指令開始流水線過程后,后續的指令序列就可以跟隨第一條指令進入處理器流水線。由于已知后續指令在操作碼、寄存器使用方面與第一條指令相似,處理器可以節省一部分取指、譯碼和流水線控制方面的能源開銷[12]。
2.3 新型材料部件的應用
除了以上軟件層面的解決方案外,利用超級電容等新型材料部件的充電/放電過程平衡無規律的功耗波動,結合動態負載分配技術,也能夠有效地消除能源供給與消耗之間的不匹配,達到較高的能源利用效率[13]。相比于傳統的化學電池,超級電容具有以下優勢:(1)較高的能源存儲效率和極短的充放電循環周期;(2)支持快速充電和瞬時大電流放電;(3)使用壽命比傳統電池高出2-3個數量級。但由于現階段超級電容的成本依然較高,所以一般采用超級電容與傳統電池相結合的儲能模式。
而利用熱能存儲設備和相變材料來存儲和釋放數據中心的熱能也已經得到了初步的驗證[14-15]。當數據中心的負載率較高時,高額的放熱量可以通過儲熱設備和相變材料固化,當數據中心負載率降低、冷卻能力余量較大時,將這部分存儲的熱能釋放。由于商業化運營的數據中心一般具有比較固定的負載變化曲線,這部分儲熱材料可以整合為數據中心散熱與冷卻系統的一部分,在一個發熱/散熱周期內規律運轉。
3 可再生能源的利用
隨著氣候變化等環境問題越來越多地受到人們的關注,數據中心作為大規模服務器集群,其龐大的能源開支帶來的碳排放問題也將成為數據中心運營商所必須考慮的社會成本。事實上,如Google、Microsoft、Yahoo!等大型IT企業已經在嘗試使用可再生的清潔能源驅動其部分數據中心的運轉,這些在清潔能源方面的積極舉措能夠使每個數據中心每年約減少20 000磅的二氧化碳排放。
然而,目前能實際投入運營的清潔能源主要為風能、太陽能、水利能源等等,這些可再生能源天然地具有間斷性和不穩定性,如何利用可再生能源驅動數據中心穩定持續運行,依然是一個值得研究的問題。目前,學術界主要的研究方向集中于混合使用可再生能源和傳統能源,即利用可再生能源減少數據中心的碳排放量,同時保留較為穩定的傳統能源以保證數據中心長期平穩運行(如圖 2所示)[17]。
為克服可再生能源的不穩定性,Florida大學提出了一種能源調度模型[17],將數據中心的運行過程劃分為不同的周期(Period),在每個周期中取時間點進行負載率采樣。假設Ui=[ui1 ui2 … uic]為數據中心中c個集群在時間點為i時的負載率,那么在過去的m個時間段內的負載情況可以用以下矩陣表示:
如果將第k個集群中需要調整的虛擬主機數量記為Sk的話,那么對于c個集群,下一時間段內各個主機調整的策略可以表示為S=[s1 s2 … sc]。為使因負載調度帶來的性能波動盡可能?。丛诟鱾€時間點的負載率變化盡可能?。?,這里需要計算所有集群聚合的工作負載率數列的標準差,其中聚合工作負載率由U與S矩陣相乘得出,即[aij]m×1=U×ST。根據標準差的計算公式,實際上該問題可以被規約為一個非線性最小化問題:
上述啟發式的能源管理策略在風能、太陽能驅動的數據中心實驗中均得到了成功實踐,是一種通用而有效的能源調度模型[17-19]。
但另一方面,這些研究基本上是在微型的數據中心模型上進行,并未經過大規模、異構化、高負載壓力的商業化數據中心運營驗證,因此在穩定性、計算資源利用效率、可擴展性方面還有很多可以拓展的空間。
4 總結與展望
數據中心作為大數據時代的基礎設施,在未來的IT產業發展中會扮演越來越重要的角色。能源消耗將成為數據中心建設和運營的一項主要成本,而公眾和政府對于環保問題的重視會讓數據中心的供應商更多地考慮可再生能源的利用。
本文中討論的對于現有能源的功耗管理技術,如功率封頂技術、功率實時監測與動態任務調度技術等等,均已在現有的商業化運營中得到長期驗證,是比較成熟的功耗控制技術。而諸如新材料、新能源的利用,則是近年來隨著學科交叉發展而帶來的嶄新的研究方向,一部分設計思路還僅僅經過了學術界的模型研究和小規模驗證,距離實際投入商業運營還有一段距離。然而這些試驗階段的新技術無疑代表了能源管理系統未來的研究方向。
隨著數據中心規模的不斷擴大和功能的多樣化發展,未來超大規模、異構平臺、分布式的數據中心架構還必然帶來新的能源消耗問題。而可再生能源的轉化與利用技術依然處于試驗和快速發展階段,依然存在非常廣闊的挖掘空間。
參考文獻
[1] Natural Resources Defense Council.America's Data Centers Consuming and Wasting Growing Amounts of Energy[DB/OL][2015-12-27].http://www.nrdc.org/energy/data-centerefficiency-assessment.asp.
[2] KOOMEY J G.Worldwide electricity used in data centers[J].Environmental Research Letters,2008,3(3):034008.
[3] BARROSO L A,CLIDARAS J,H?魻LZLE U.The datacenter as a computer:An introduction to the design of warehouse-scale machines[J].Synthesis lectures on computer architecture,2013,8(3):154.
[4] HAMILTON J.Internet-scale service infrastructure efficiency[C].ACM SIGARCH Computer Architecture News,ACM,2009,37(3):232.
[5] FAN X,WEBER W D,BARROSO L A.Power provisioning for a warehouse-sized computer[C].ACM SIGARCH Computer Architecture News.ACM,2007,35(2):13-23.
[6] Google Server-level UPS for improved efficiency.http://news.cnet.com/8301-1001_3-10209580-92.html.
[7] AMUR H,CIPAR J,GUPTA V,et al.Robust and flexible power-proportional storage[C].Proceedings of the 1st ACM symposium on Cloud computing.ACM,2010:217-228.
[8] CHASE J S,ANDERSON D C,THAKAR P N,et al.Managing energy and server resources in hosting centers[C].ACM SIGOPS Operating Systems Review.ACM,2001,35(5):103-116.
[9] GOVINDAN S,WANG D,SIVASUBRAMANIAM A,et al.Leveraging stored energy for handling power emergencies in aggressively provisioned datacenters[C].ACM SIGARCH Computer Architecture News.ACM,2012,40(1):75-86.
[10] KONTORINIS V,ZHANG L E,AKSANLI B,et al.Managing distributed ups energy for effective power capping in data centers[C].Computer Architecture(ISCA),2012 39th Annual International Symposium on.IEEE,2012:488-499.
[11] RAKVIC R,CAI Q,GONZALEZ J,et al.Thread-management techniques to maximize efficiency in multicore and simultaneous multithreaded microprocessors[J].ACM Transactions on Architecture and Code Optimization(TACO),2010,7(2):9.
[12] MCKEOWN M,BALKIND J,WENTZLAFF D.Execution Drafting: Energy Efficiency Through Computation Deduplication[C].Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture.IEEE Computer Society,2014:432-444.
[13] LIU L,LI C,SUN H,et al.HEB:deploying and managing hybrid energy buffers for improving datacenter efficiency and economy[C].Proceedings of the 42nd Annual International Symposium on Computer Architecture.ACM,2015:463-475.
[14] ZHENG W,MA K,WANG X.Exploiting thermal energy storage to reduce data center capital and operating expenses[C].High Performance Computer Architecture(HPCA),2014 IEEE 20th International Symposium on.IEEE,2014:132-141.
[15] SKACH M,ARORA M,HSU C H,et al.Thermal time shifting:Leveraging phase change materials to reduce cooling costs in warehouse-scale computers[C].Proceedings of the 42nd Annual International Symposium on Computer Architecture(ISCA),ser.ISCA.2015,15.
[16] LI C,QOUNEH A,LI T.iSwitch:coordinating and optimizing renewable energy powered server clusters[C].Computer Architecture(ISCA),2012 39th Annual International Symposium on.IEEE,2012:512-523.
[17] GOIRI I,KATSAK W,LE K,et al.Parasol and greenswitch: Managing datacenters powered by renewable energy[C].ACM SIGARCH Computer Architecture News.ACM, 2013,41(1):51-64.
[18] DENG W,LIU F,JIN H,et al.Multigreen:Cost-minimizing multi-source datacenter power supply with online control[C].Proceedings of the fourth international conference on Future energy systems.ACM,2013:149-160.