資料中心導入RDMA低延遲前瞻技術


壹  前言

隨著通訊與運算技術的快速進展,並在全球經歷嚴峻的COVID-19疫情,使得企業與社會大眾對於即時互動與遠距操作的服務需求格外殷切,加速各項創新的應用服務嶄露頭角,例如:虛擬實境與元宇宙等新型態應用,而近期在生成式人工智慧的浪潮下,資料中心對於大量數據運算與傳輸的需求正在急遽增加,因此資料中心需導入創新的技術與架構來演進。本文將簡述資料中心可透過導入RDMA(Remote Direct Memory Access)此類高效能、低延遲的傳輸技術,滿足相關應用的傳輸需求,提供效能與品質兼具的多媒體即時應用服務。

貳  科技發展現況

一、 資料中心的演進

資料中心在初期以大型伺服器為主提供運算服務,但大型伺服器設備價格昂貴,因此衍生出了將運算工作,分派給複數的小型運算主機的「分散式運算」;隨著網際網路與雲端計算的普及也帶動分散式運算,更為因應5G邊緣運算的崛起,除將應用服務供裝至較靠近使用者的地緣位置,而部分計算負載會送往遠端的伺服器處理,使得低延遲的傳輸需求格外重要,對於資料處理與傳輸的效能提升成為當前資料中心架構演進的首要目標。

圖1 運算中心的演進圖

二、 應用服務的轉變

網路應用服務遍及醫療、交通、安全、娛樂消費等各領域,在疫情趨動需求下,以人為本的「數位優先」新思維讓企業開始布局雲原生、AI人工智慧、元宇宙等新興科技,軟體服務型態持續轉型,世界各國早已對不同的智慧場域推動一系列實作驗證,而中華電信也積極投入相關研發,以強化數位科技的方式,擴展ICT產業軟體便民化。

三、 RDMA技術介紹與挑戰

鑒於上述的技術演變與發展,多數應用服務面臨著延遲太長的挑戰,其癥結點在於現今的資料中心在傳送資料時普遍使用TCP/IP協定,該協定會讓網路封包經過多次封裝,耗費大量時間與CPU資源;也因此高效能、低延遲的RDMA傳輸協定便成為關注的焦點。

RDMA允許運算伺服器直接存取另一個伺服器的記憶體資料,而無需將資料從應用軟體層的緩衝區複製到網路的緩衝區,然後再複製到目標伺服器的記憶體中,透過「零拷貝(Zero Copy)」可以減少資料的複製操作,提高效率,降低CPU使用率,而由於RDMA可以在不涉及CPU的情況下直接使用記憶體資料,達成在遠程傳輸中實現極低的網路延遲。

圖2 TCP/IP傳統傳輸模式與RDMA傳輸模式

以RDMA為概念的發展不僅僅局限於網卡,以nvidia的GPU為例,此類的硬體運算加速器也配合著RDMA的技術,使GPU可逕自索取網卡以及其他GPU本身的記憶體資料,因為資料處理過程中減少了CPU的運作,從而降低了GPU資料傳輸的延遲,對於採用GPU計算的圖形識別服務與AI應用服務為重大技術指標之一。

圖3 GPU傳統傳輸模式與GPU RDMA傳輸模式

實驗數據中,於資料中心內部使用RDMA傳輸資料約莫能降低90%的延遲時間;在處理40Gbps的網路封包時,可節降80%-90%的CPU運算資源。RDMA不僅改善了資料傳輸的速度,同時也釋出了CPU資源,讓更多負載工作可以由CPU處理,進而達成電力節省的效果,其特性讓RDMA適用於需要高效率和即時性的應用服務與場域,例如分散式計算、高性能計算、跨國應用服務等等。

圖4 RDMA實驗的參考數據

然而將RDMA應用於實際場域中,仍存在著軟硬體間的挑戰:以硬體層面來說,硬體本身需要支持RDMA協定的運作,例如伺服器網卡與串接伺服器之間的交換器,而市面上支持RDMA的硬體產品尚未普及,目前由少數幾家廠商以特殊規格進行販售;以軟體層面來說,應用服務本身也需加載RDMA應用的程式庫,才能繞過作業系統對kernel的限制,直接索取硬體記憶體資料,對於已發展起來的應用軟體,需要再付出額外的時間與人力成本來整合服務本身與RDMA技術。另外RDMA的安全議題也需要被重視,目前只有RFC 5042針對RDMA傳輸時進行安全上的規範,但繞過kernel層的保護封裝,直接對接記憶體的行為,需要有更多的實驗數據與佐證資料支持安全測試,讓提供機敏服務的用戶擁有更高的信心指數,例如金融與政府機構應用來使用RDMA技術。

參  結論

隨著5G、人工智慧、物聯網等新領域的發展,預測RDMA技術的應用將會越來越普及。本院致力於改善運算架構的效能問題,研發新世代低延遲、高效能的資料中心,處理資料傳輸的優化方式,短期目標將為RDMA網卡與GPU導入伺服器中,驗證RDMA的實際效能;中長期目標為在低延遲的資料中心支持多元的多媒體應用,推出更多便民服務,秉持著數位賦能與ESG(Environment, Social, Governance)的宗旨,促成便捷的生活發展,進而永續綠化低碳的環境共存。

肆  參考文獻

[1] “The Evolution To Cloud Computing (How Did We Get Here?),” Jamesmbond, May 2015, Available at: https://mycloudblog7.wordpress.com/2015/05/29/the-evolution-to-cloud-computing-how-did-we-get-here/
[2] Nvidia, “NVIDIA GPUDirect,”Available at: https://developer.nvidia.com/gpudirect
[3] Fiber Mall, “What is RDMA?” Available at: https://www.fibermall.com/blog/what-is-rdma.htm
[4] IEEE, “RFC 5040: A Remote Direct Memory Access Protocol Specification,” IBM Corporation, October 2007. Available at: https://datatracker.ietf.org/doc/html/rfc5040
[5] IEEE, “RFC 5042: Direct Data Placement Protocol(DDP)/Remote Direct Memory Access Protocol(RDMAP) Security,” Microsoft Corporation, October 2007. Available at: https://datatracker.ietf.org/doc/html/rfc5042