- 相關推薦
探討自適應協同流水線的遠程復制系統
1 引言
一直以來,數據保護都是IT 行業和工業中的熱門話題。特別是近幾年,經歷過幾次大的災難之后,一些具備完善的數據保護機制的企業能夠很快恢復,但是許多其他的企業則由于數據丟失而破產。因此,數據保護技術受到人們越來越多的關注。遠程復制是一種流行的數據保護技術。它通過維護主站點與地域上相隔的遠端站點的實時鏡像,實現對本地的自然或人為的災難的容災。目前,有兩種典型的遠程鏡像策略:同步方式和異步方式[1]。因為同步方式對RTT[2](Round Trip Time)極為敏感,所以異步方式更受人們的喜愛。
本文中,我們提出了一個新的協同流水線模型來描述遠程復制系統!皡f同”的意思是流水線跨越主站點,網絡和遠程復制站點。因為每個子任務都有相應的“所有者”,所以我們不能任意地分裂它們來平衡流水線的各個階段。為此,我們提出了自適應成組傳輸策略。寫請求被成組傳輸到遠程站點,而且每個組的大小(組與組之間的時間間隔)會根據主站點和遠程備份站點的處理速度動態調整。在我們設計的模型中,實現了數據壓縮和加密,分別用來降低網絡傳輸壓力和增強安全性。這些操作給CPU 帶來了大量的負荷。因此,我們設計了三種加速方法:細粒度流水線、多線程流水線和混合流水線。
論文后面的篇幅組織如下:在第2 節中我們重點介紹近年來的相關工作。在第3 節,我們將詳細闡釋我們系統的基礎架構,并提出自適應協同流水線。在第4 節,我們將從大量實驗結果中介紹該系統的實現并對其的測試。最后,在第5 節我們將作2 出結論并展望下一步的工作。
2 相關工作
EMC Symmetrix Remote Data Facility(SRDF)[3]應用了塊級的同步遠程復制技術,但是如果設備的性能降到閾值一下,它將切換到半同步模式。Veritas Volume Replicator(VVR)[4]是一種邏輯卷級別的遠程復制系統。它支持多遠程復制,并應用日志和事務機制實現異步遠程復制。Dot Hill 的成組遠程復制服務[5],源卷采用即時快照,然后向一個或多個遠程復制系統傳輸傳輸快照數據更新。
網絡應用的快照鏡像[1]使用快照保證備份卷的更新。WAFL 文件系統習慣于跟蹤已經更新的數據塊。Seneca[6]延遲向遠程站點發送成組更新來期待發生寫結合。寫操作僅在組中結合,并且在遠程站點,每個組必須被原子地操作以防止數據不一致的事件發生。
類似于VVR 和Dot Hill 的遠程復制服務,我們的原型也在邏輯卷層實現。像Seneca 一樣,更新操作被成組發送到遠程站點提高性能。我們的原型中還采用了自適應機制。然而,這種自適應是基于異步模式和流水線階段平衡而不是網絡條件的自適應。
還有許多其他的遠程復制產品,例如IBM 的Extended Remote Copy (XRC)[7],HPContinuous Access Storage Appliance (CASA)[8]等等。在近幾年的學術研究中,[9] 又提出了一種新的模型,在該模型中同步和異步模式由上層應用程序或系統指定。[2]并使用ForwardError Correction (FEC)和“回調”機制來實現高可靠性。
3 自適應協同流水線
顯示了我們原型的架構。它是一個在Linux 的LVM2[10]上實現的異步遠程鏡像系統。NBD(網絡塊設備,Network Block Device)[11]用于主從站點間的數據傳輸。當一個寫請求到達時就被復制。原始請求被放到本地隊列,復制的請求被放到遠程隊列。在遠程隊列中的請求在一定時間間隔內被成組發送到備份站點。因為NBD 通過TCP 協議傳輸消息,所以只要每個組都能夠原子地傳輸到備份站點就能保證一致性。為了減輕網絡傳輸壓力,請求在發送前先進行壓縮。然后進行加密操作來報證安全性。從計算復雜性上考慮,先壓縮后加密明顯優于先加密后壓縮。因此,在備份站點,請求在被提交前先解密再解壓。
3.1 協同流水線
為了保證最大吞吐量,一個顯而易見的方法是主從站點的操作并行進行,即當一個組被發送出去后并不等待,而是主站點繼續處理下一個組,備份站點處理前一個。所以我們可以用兩階段(stage)流水線模型來描述請求處理的過程。我們分別叫這兩階段為主階段和備份階段。這是一個“協同”流水線,每個組被主從站點協作處理。我們知道,對于一個已知任務,階段越多,每階段的大小越接近,流水線的性能就越好。然而。協同流水線的一些特殊屬性與之相悖。
對于傳統流水線而言,要提高單一流水線的速度,必須把任務劃分成很小的單元。例如:
現代CPU 的流水線通常有超過20 個階段。然而,協同流水線一般由8 個子任務組成。包括把 bio 集合成組,壓縮,加密,成組傳輸,解密,解壓,寫磁盤和回應。因為它是一個軟件流水線,進一步的任務分解會導致交互開銷過大。更何況我們不能準確地預知一些階段的執行時間(主要是磁盤操作和網絡傳輸,它們的性能很大程度上依賴系統的當前狀態)。對于高效率的流水線來說,這是一個嚴重的阻礙。
一些典型的分布式流水線模型,例如流水線的高斯估測法[12],將任務分解成相同大小的子任務,并把它們分發到合適的處理器上。然而在協同流水線中,每個子任務都有特定的“主人”,所以不能把它們任意分配給其他的處理器。例如:備份站點不能進行數據壓縮,而必須有主站點完成。這個繼承下來的不可變的任務映射使平衡負載變得困難。而且,即便我們把任務分成相同大小的子任務,處理器仍然會有空閑。此外,如果我們想通過加深流水線的深度來提高性能,我們就必須同等地進一步分解主站點和備份站點。
3.2 自適應成組傳輸
就像上面所提到的,在發送完前一個組后,主站點可以立即處理下一個組。在單用戶系統中,這種“盡力而為”的策略保證了最優性能,但是它也有一些缺點。
如果兩個站點的速度不同,例如,主站點比備份站點快,在“盡力而為”策略下,兩個站點將會不同步。如果應用程序將壓力加在存儲子系統上,主從站點之間的裂隙將會越來越大,直到主站點用盡系統資源。然后主站點會放慢速度來等待備份站點的應答,好釋放足夠的資源。這樣使用戶體驗很不穩定(主站點的應答時間)。此外,對于多用戶系統來說,一個處理器用盡所有系統資源不是好方法。這會嚴重影響系統的穩定性和其他處理器的性能。
總而言之,盡力而為的策略不能很好地協調主從站點的關系。或者,它通過用盡系統資源來“協調”兩個站點。所以我們介紹一個自適應成組算法進行協調工作。當系統初始化時我們設置一個組間隔。這個間隔明確了請求積累和成組處理的時間段。即前一階段積累的請求在下一階段被成組處理。每完成一個組的操作,我們就會調整組時間間隔,使主從站點的執行時間接近。因此,當組間時間間隔最終達到穩定時,主從站點將有相同的執行時間(都和組間時間間隔相同)。值得注意的是磁盤操作和網絡傳輸的執行時間不和組大小成比例。所以,雖然兩個站點的時間間隔都變長或變短,但是增加迅速的那一方(通常是主站點)會比增長慢的那一方(通常是備份站點,包括磁盤操作和網絡傳輸)時間間隔長,所以組間時間間隔是收斂的。
不同于盡力而為的策略,當主從站點步調不一致時,自適應成組算法使較快的站點睡眠一段時間而不立即處理下一個組,即減慢較快的站點的速度來促使兩站點間保持平衡。這樣做的優點是顯而易見的:執行速度快的站點不會耗盡系統資源,因此不會系統中其他的處理器。另一個優勢是自適應成組傳輸對網絡狀況有很好的適應性。如果網絡波動,由于時間間隔的調整,主從站點可以自動并及時地適應網絡速度。下面的自適應公式用來調整組間間隔。
公式中curr T 和next T 分別表示當前和下一個時間間隔, pri T 和back T 分別表示主階段和備份階段的執行時間。在我們的實現中, pri T 包括成組,壓縮,加密和發送組花費的時間,back T包括傳輸分組,解密,解壓,寫磁盤和應答所需時間。α 和β 是值在0 和1 之間的調整因子。它們決定了組間間隔接近真實處理時間的快慢和流水線適應網絡改變的快慢。面對持續的繁重的負荷,我們使用組大小的閾值來控制一個組中最大請求數目:
其中total N 表示已經被處理的總的請求數量;total T 表示總的處理時間;也就是說,統計量評估處理能力,并且用來設置下一個閾值next N 。說明了自適應成組算法。當主階段完成后,公式(1)用來調整組間間隔。如果住階段時間比當前時間間隔短,主站點將會睡眠一段時間。當主站點接收到應答時使用公式(2)。
自適應成組算法有不同的變體用于不同的用途。例如,我們可以將組間間隔設置的較短或較長。這些暗示了RPO 的可接受范圍(恢復點對象[13])。此外,組大小的閾值可以用于提供QoS。我們可以調整組大小的閾值和時間間隔的比例來合理安排資源的占有。
3.3 加速技術
數據壓縮/解壓和加密/解密給CPU 帶來了大量的壓力?紤]到多核系統的普遍性,可以利用并行技術實現自適應協同流水線的加速。我們設計了兩種加速方案:細粒度流水線和多線程流水線。把這兩種方法相結合形成了混合流水線。
細粒度流水線加速單一流水線的通用方法是加深流水線的層次,即把任務分成更小的單元,是流水線變長,增加執行的并行度。然而,就像我們在上面提到的,對于協同流水線,我們不能任意重分解流水線。從而,我們必須將主階段和備份階段分成相同數量,相同大小的小階段。很難將現存的兩個階段分成完全相同的小階段,我們采取以下兩種策略:
——我們根據經驗手動將這兩個現存的階段分解。在我們的實現方式里,主階段被分成兩個子階段:壓縮階段包括成組和數據壓縮;加密階段包括數據加密和成組發送。備份階段也相應地分成兩個階段:計算階段包括接收組,數據解密和解壓;I/O 處理階段包括寫磁盤和發送應答信息。主從站點均調用兩個線程。每個線程負責一個子階段。
——很明顯,經驗僅僅保證四個階段近似相等。為了使它們更接近,也要面對動態地改變,自適應成組算法又一次被用到。每個階段完成后,就應用相應地自適應公式來調整組間時間間隔。
多線程流水線另一種直觀的加速方法是把每個階段并行地分解成子階段而不是分成更多的小階段。因為每個組中包括成百上千的請求,簡單有效的分解技術是數據劃分。在我們的實現中,每個組被分成兩個相同大小的子組,且主從站點各調用兩個線程。每個線程負責一個子組。它們并行地處理子組之后出于一致性地考慮,串行地發送出去。
類似于細粒度流水線,多線程流水線也面臨著負載平衡的問題。幸運的是,在這種方式下,問題解決起來容易得多。注意,請求的計算時間和數據大小是成比例的。如果負載中包括的請求都有相同的大小(例如,在我們的實驗中,由Iometer 生成負載),那么如果根據請求數量來分割子組將很容易保證負載平衡。此外,我們可以根據字節總數分割子組。
串行網絡傳輸似乎是多線程流水線的一個阻礙。但是花在這上面的時間只是總執行時間的一小部分,因此串行網絡傳輸并沒有對系統的性能造成很大影響。我們的實驗結果也證實了這一點。
此外,多線程流水線比細粒度流水線更靈活。它甚至可以用來處理不對等的協同流水線。
例如,如果備份站點是主站點的兩倍,備份站點可以用主站點的兩倍的線程數來達到它們之間的執行時間的平衡。
混合流水線我們的實驗結果顯示,不論是四階段流水線還是雙線程流水線都完全占用CPU。理論上,加深流水線或用更多的線程都能充分利用CPU 的能力。然而,像我們上面提到的,太深的流水線會導致嚴重的交互負擔。后一個策略,把一個組分成若干小組可能導致負載不平衡。而太多的線程也會增加交互負擔,所以我們結合這兩個策略。主從階段都分成兩個子階段,并且每個子階段用多線程技術進一步加速。我們可以稱這種方法為混合流水線。
事實上,細粒度流水線是組間并行,即同一時刻,每個組僅由一個處理器處理,幾個組同時由多個處理器處理。多線程流水線是組內并行,即各個組一個接一個地被處理,每個組被多個處理器同時處理;旌狭魉是二維并行。
4 實驗評估
4.1 原型實現
自適應成組算法是在Linux 的LVM2 下作為“遠程復制”實現的。類似于LVM2 下的快照模型,我們的模型把遠程鏡像當做本地卷的附加卷,并實現了三種加速算法。底層的操作系統是RedHat AS server 5(內核版本是2.6.18-128.el5)。并使用LVM2 2.02.39,device mapper1.02.28 和NBD 2.8.8。壓縮/解壓算法用的是LZW 算法[14],加密/解密算法用的是AES 算法[15]。為保證組的自動提交,備份站點使用了日志機制。
4.2 實驗建立
所有的實驗都在2.66GHz 的英特爾雙核Xeon 節點下進行的。一個作為主站點,另一個作為備份站點。每臺機器有2GB 的內存和由6 個37GB 的SAS 硬盤組成的RAID-5 硬件。
兩個節點由千兆以太網相連。為了測試三種并行的模型,我們將備份站點的日志機制關閉來讓CPU 承受更多的負載。α 和β 均被置成0.5。組間間隔初始化為30 毫秒。我們用Iometer[16]
來產生負載。由于寫請求觸發了遠程復制模型,我們僅需要測試寫負載。不像其他專門的狀態,順序寫負載也被使用。為了評估異步模式在性能上的影響,我們記錄經過一段時間Iometer 顯示的性能曲線趨于穩定時的實驗結果。每個數據點都是三個樣本的平均值。
4.3 實驗結果
我們首先進行基準線測試。顯示出了結果!皃ri”主站點中的RAID-5 設備,“back”代表備份站點中的RAID-5 設備!癓VM”代表主站點的源卷,“Async”代表沒有自適應成組算法的異步遠程復制系統!皊imple batch”代表有自適應成組算法但是沒有數據壓縮和加密。
我們可以看出,自適應成組算法的性能很好,盡管和純磁盤操作還有一定差距。
顯示了數據壓縮和加密在性能上的影響。“compression”表示僅進行壓縮,不進行加密;“encryption”表示僅加密不壓縮;“batch”表示既壓縮又加密。和我們預期的一樣,引入壓縮很大程度上提高了性能,因為網絡傳輸壓力減少;而由于復雜的計算度使加密嚴重影響了性能。而最終版本的性能在這兩者之間。
顯示出3 種并行模型很大程度上提高了性能。我們可以看到三種模型均明顯加速了流水線。細粒度流水線和多線程流水線顯示出幾乎相同的性能;旌狭魉提供了更好的性能。因為CPU 沒有過載——在混合流水線測試中CPU 只有87%的占用率。
我們也跟蹤了組間間隔(組大小)。結果顯示在中。組間間隔分別被初始化為30毫秒和15 毫秒。請求大小是4KB。我們記錄了前20 個時間段的組大小。可以看出自適應成組算法確實是主從站點協作很好。組間間隔迅速趨向穩定。
我們還測試了隨機寫的性能。所示,與順序寫相比,隨機寫性能在串行和并行版本之間的差距在減小。原因是I/O 部分在整個運行時間中的比例增加了,而且三種并行模型僅加速了計算部分。
5 結論和進一步工作
本文中,我們展示了一種新型的遠程復制系統的協同流水線模型。不同于傳統的流水線模型,這種新的模型充分利用了處理器的計算能力。為了解決主從階段的不平衡性,我們提出了自適應成組算法。為了減輕由于壓縮,加密和TCP/IP 協議棧造成的CPU 高負載的情況,我們設計了三種并行的模型:細粒度流水線,多線程流水線和混合流水線。在我們的原型中實現了這些技術。實驗結果表明,自適應協同流水線模型有效地平衡了主從階段,三種并行方式提供了更好的性能。
我們所有的實驗都是基于局域網環境。在廣域網環境下測試我們的模型是下一步我們要進行的重要工作。用有效的糾刪碼進行進一步容錯(Error Correcting)也是我們的下一步計劃研究的內容。
中國碩士論文網提供大量免費碩士畢業論文,如有業務需求請咨詢網站客服人員!
參考文獻
[1] Patterson, R.H., Manley, S., Federwisch, M., Hitz, D., Kleiman, S., Owara, S.: SnapMirror:
File-System-Based Asynchronous Mirroring for Disaster Recovery. In:Proceedings of the 1st USENIX Conference
on File and Storage Technologies, FAST 2002, Monterey, California, USA (Jan 2002) 117–129
[2] Weatherspoon, H., Ganesh, L., Marian, T., Balakrishnan, M., Birman, K.: Smoke and Mirrors: Reflecting
Files at a Geographically Remote Location Without Loss of Performance. In: Proceedings of the 7th USENIX
Conference on File and Storage Technologies, FAST 2012, San Francisco, California, USA (Feb 2012) 211–224
[3] EMC SRDF - Zero Data Loss Solutions for Extended Distance Replication. Technical Report P/N
300-006-714, EMC Corporation (Apr 2012)
[4] VERITAS Volume Replicator (tm) 3.5 Administrator’s Guide (Solaris). Technical Report 249505, Symantec
Corporation, Mountain View, CA, USA (Jun 2002)
[5] Secure Data Protection With Dot Hills Batch Remote Replication. White Paper, dot Hill Corporation (Jul
2012)
[6] Ji, M., Veitch, A.C., Wilkes, J.: Seneca: Remote Mirroring Done Write. In: Proceedings of the General Track:
2003 USENIX Annual Technical Conference, San Antonio, Texas, USA (Jun 2003) 253–268
[7] DFSMS/MVS Version 1 Remote Copy Administrator’s Guide and Reference 4th edition. Technical Report
SC35-0169-03, IBM Corporation (Dec 1997)
[8] HP OpenView continuous access storage appliance. White Paper, Hewlett-Packard Company (Nov 2002)
[9] Liu, X., Niv, G., Shenoy, P.J., Ramakrishnan, K.K., van der Merwe, J.E.: The Case for Semantic Aware
Remote Replication. In: Proceedings of the 2006 ACM Workshop On Storage Security And Survivability,
StorageSS 2006, Alexandria, VA, USA (Oct 2006) 79–84
[10] LVM.
[10] Breuer, P.T., Lopez, A.M., Ares, A.G.: The Network Block Device. Linux Journal 2000(73) (2000) 40
[12] Grama, A., Gupta, A., Karypis, G., Kumar, V.: Introduction to Parallel Computing, Second Edition.
Addison-Wesley, Essex, England (2003)
[13] Keeton, K., Santos, C.A., Beyer, D., Chase, J.S., Wilkes, J.: Designing for Disasters. In: Proceedings of the
3rd USENIX Conference on File and Storage Technologies, FAST 2004, San Francisco, California, USA (Mar
2004) 59–72
[14] Welch, T.A.: A Technique for High-Performance Data Compression. IEEE Computer 17(6) (1984) 8–19
[15] NIST Advanced Encryption Standard(AES). Federal Information Processing Standards Publication (2001)
[16] Iometer.
【探討自適應協同流水線的遠程復制系統】相關文章:
混沌系統的模型參考模糊自適應控制03-07
遠程終端監控系統03-08
對基于Internet環境下的協同式教學方式的探討03-20
基于網絡的遠程測控系統的研究03-07
船舶遠程操縱仿真系統的研究03-07
淺析遠程教育問題探討03-26
In多鏈路遠程接入方案的探討03-19
一種OFDM-TDD開環自適應調制系統的自適應分集信令傳輸方法11-22
電廠電能量自動采集系統的探討03-21