DPM In Action Series – Advance Action – HA/DR 360

 

Download Slide:

 http://cid-5dde9ad3ea4afc8d.skydrive.live.com/embedrowdetail.aspx/Storage/DPM/DPM-DisasterRecovery-sonvu.pptx

 

Trước khi bắt đầu cho cụm bài viết DR thì tôi xin có vài lời giới thiệu về thuật ngữ này để rộng đường cho phần trình bày phía sau. Disaster Recovery tiếng việt nghĩa là khôi phục sau thảm họa (tự nhiên/con người/máy móc) theo định nghĩa là các quy trình,chính sách liên quan đến câu chuyện chuẩn bị cho việc phục hồi hay bảo đảm tính liên tục của những thành phần hạ tầng quan trọng đối với doanh nghiệp mà trong đó hạ tầng CNTT là một thành tố ko thể thiếu. Disaster Recovery Planning là một phần ko bao giờ thiếu trong câu chuyện hoạch định Business Continuity Planning. Mà đã nói về BCP thì ai cũng hiểu câu chuyện security cuối cùng quay về chuyện đảm bảo cho Business Up and Running. Vì vậy có thể thấy giải pháp Backup là một thành tố cơ bản trong bất kì giải pháp an ninh nào. Nói đến DR người ta hay nói về 2 thành tố Khoảng Thời Gian Mất Dữ Liệu (Recovery Point Object – RPO) và Thời Gian Tiêu Tốn Cho Phục Hồi Dữ Liệu (Recovery Time Object – RTO).

Câu chuyện khôi phục sau thảm họa (Disaster Recovery) cho hạ tầng CNTT trong đó có cả DPM chỉ được làm tốt nếu Backup Admin thiết lập một DR Plan bài bản dựa vào 2 thành tố RPO và RTO theo chính sách Cam Kết Chất Lượng Dịch Vụ của cty (Service Level Agreement-SLA). Thực ra câu chuyện DR này ko cứ nhất thiết lúc nào hệ thống CNTT cũng phải alway on mà nó phụ thuộc vào mức độ quan trọng của hệ thống cần DR/Chính sách downtime/Kinh phí cho câu chuyện DR. Vì thế ngày hôm nay nhân dịp năm mới tôi xin giới thiệu các phương thức DR theo mức độ từ thấp đến cao với giải pháp DPM 2007 Sp1 và DPM SRT của Microsoft. Rất hi vọng nó sẽ giải tỏa phần nào câu hỏi của nhìu người về khả năng bảo vệ liên tục của System Center DPM 2007 Sp1.

 

DPM-DR-Topology

Để bảo vệ liên tục cho máy chủ hạ tầng (File Server/Domain Controller/DNS-DHCP/DPM Server) và máy chủ ứng dụng (SQL/Exchange/Sharepoint Server) thì ta cần bảo vệ hai thành phần gồm dữ liệu liên quan (như CSDL với SQL Server và DPM Server hoặc File Directory với FIle Server) + SystemState của máy chủ đó. Khi phục hồi dữ liệu thì ta sẽ cần phục hồi Systemsate sau khi đã cài OS và dữ liệu liên quan cần khôi phục, tuy nhiên để giảm thiểu thời gian khôi phục thì BK Admin có thể sử dụng phương thức khôi phục từ máy chủ trắng (Bare Metal Recovery). Bằng cách khôi phục từ máy chủ trắng thì BK Admin có thể chọn phục hồi toàn OS trước khi khôi phục bằng tay dữ liên quan hoặc chọn hình thức phục hồi cả OS + dữ liệu liên quan.

Do đó để thực hiện backup SystemState và dữ liệu của máy chủ thì BK Admin có thể dùng DPM Server và nếu muốn backup và restore từ máy trắng thì sử dụng thêm DPM SRT

* Chú ý: DPM SRT có thể triển khai chung với máy chủ DPM hoặc triển khai rời. Để dùng DPM SRT thì máy chủ hạ tầng cần sử dụng cần sử dụng Enterprise Agent thay vì Standard Agent.

Chúng ta có ba mức độ được phân từ giảm thiểu downtime cho đến tăng cường uptime cho câu chuyện bảo vệ liên tục với giải pháp System Center Data Protection Manager gồm DPM 2007 Sp1 và DPM SRT.

Phần 1: Bảo vệ liên tục máy chủ hạ tầng và ứng dụng với DPM 2007 SP1 và ngăn ngừa thảm họa với DPM SRT.

 

A) Giảm thiểu downtime với cấp độ khôi phục thông thường bằng việc backup System State/Appz Data bằng DPM”

BK Admin có thể sử dụng các bước trong DPM In Action Series để backup và sao lưu SystemState và dữ liệu máy chủ hạ tầng và ứng dụng. Action 11: Backup Active Directory là một ví dụ.

B) Giảm thời gian downtime với cấp cao bằng hình thức giám sát chủ động tình trạng sức khỏe của hệ thống Backup.

Hai vấn đề mà bất cứ BK Admin nào cũng cần chuẩn bị cho mục sức khỏe của hệ thống Backup trong DR Plan của mình.

B-1) Kiểm tra sức khỏe chủ động của dữ liệu backup

Một trong các vấn đề mà các BK Admin có nhiều kinh nghiệm rất đau thương là việc dữ liệu backup bị hỏng khi cần phục hồi. DPM Server hoàn toàn có thể giúp BK Admin tự động hoàn toàn quá trình này với tính năng “Data Integrity”.

20

Hình 1: Schedule check Integrity cho File Server Storage Group

 

4

Hình 2: DPM check Integrity cho Exchange nhưng vẫn đảm bảo performance cho server 

 

B-2) Kiểm tra sức khỏe chủ động của DPM Server

Xem phần C-2) Kiểm tra sức khỏe chủ động của DPM Server ở Phần 2 dành cho DPM Server.

C) Tăng thời gian uptime với cấp độ khôi phục cao bằng cụm cluster Active/active DPM

Một trong những vấn đề mà BK Admin thường lo lắng đó chính là khả năng chống lỗi của hệ thống Backup bằng DPM chỉ với 1 máy chủ. Vì vậy khi máy chủ DPM ngừng hoạt động thì hoạt động backup/restore cũng sẽ bị đình trệ theo. Để sử lý vấn đề này BK Admin có thể xây dựng mô hình kết cụm DPM với mô hình đơn giản nhất là xây dựng máy chủ DPM thứ hai để xử lý vấn đề chống lỗi (Single Point of Failure) do mô hình 1 máy chủ DPM tạo ra cũng như vấn đề bảo vệ liên tục (failover) khi máy chủ DPM chính ngừng hoạt động.

C-1) Xây dựng mô hình chống lỗi với cụm cluster 2 máy chủ DPM.
C-2) Bảo vệ liên tục máy chủ  khi node DPM chính ngừng hoạt động.

D) Tăng thời gian uptime với cấp độ khôi phục tốt nhất bằng hình thức khôi phục máy chủ từ máy trắng với DPM SRT.

Để giảm thời gian phục hồi xuống mức thấp nhất thì BK Admin có thể lựa chọn giải pháp DM SRT để khôi phục máy chủ hạ tầng và ứng dụng từ máy trắng cho phép khôi phục OS hoặc cả OS và dữ liệu cho máy chủ hạ tầng và ứng dụng.

D-1) Triển khai máy chủ DPM SRT và cấu hình DPM SRT Server bảo vệ máy chủ hạ tầng hoặc ứng dụng.
D-2) Khôi phục máy chủ hạ tầng hoặc ứng dụng từ máy trắng.

E) Tăng cường thời gian uptime với cấp độ khôi phục tốt nhất bằng hình thức xây dựng mô hình DPM 2 tiers (DPM 2 DPM 4 DR).

Xem phần F) Tăng cường thời gian uptime với cấp độ khôi phục tốt nhất bằng hình thức xây dựng mô hình DPM 2 tiers (DPM 2 DPM 4 DR) ở Phần 2 dành cho DPM Server.

 

Phần 2: Bảo vệ liên tục máy chủ backup DPM với máy chủ dự phòng và ngăn ngừa thảm họa với DPM SRT.

 

A) Giảm thiểu downtime với cấp độ khôi phục thông thường bằng cách tự backup SystemState/DPM Database/Backup Data với Tape.

BK Admin có thể sử dụng các bước trong DPM In Action Series để backup và sao lưu SystemState và dữ liệu máy chủ DPM. Action 11: Backup Active Directory là một ví dụ. Đồng thời BK Admin cần planning để đảm bảo khi DPM ngừng hoạt động thì dữ liệu backup vẫn được đảm bảo theo chính sách backup. Ngoài việc hoạch định phần retention long-term backup ra tape thì BK Admin cũng có thể cân nhắc dùng RAID 1/5/10/15 cứng để tăng độ an toàn cho dữ liệu backup short-term trên disk.

B) Giảm thiểu downtime với cấp độ khôi phục thông thường bằng cách backup SystemSate/DPM Database/Backup Data bằng các giải pháp backup khác hỗ trợ VSS.

Nếu BK Admin đã muốn sử dụng một giải pháp 3rd khác để bảo vệ cho DPM thì tốt nhất nên chọn giải pháp hỗ trợ VSS vì dữ liệu được backup trên DPM là dạng Replica do VSS tạo ra. Cơ chế sẽ là dùng 3rd để backup systemstate/DPM Databse và Backup Data:

        • SystemState thì như mặc định
        • DPM Database thì backup 2 file DPMDB2007.mdf (Program FilesMicrosoft DPMDPM) và ReportServer.mdf (Program FilesMicrosoft DPMPrerequisites)
        • Backup Data thì backup trực tiếp các dữ liệu trong thư mục Program FilesMicrosoft DPMDPMVolumesReplica (nhưng BK Admin cần make sure rằng 3rd ko modify những dữ liệu trong thư mục này nếu ko thì chính 3rd sẽ là tác nhân làm DPM stop working)

Chú ý: BK Admin hòan toàn có thể sử dụng các giải pháp 3rd không hỗ trợ VSS tuy nhiên chúng tôi hoàn toàn ko khuyến cáo sử dụng cách này. Để xem cách thực hiện có thể xem phần “Backup Using Non-Microsoft Software That Does Not Support VSS” ở tài liệu DPM 2007 Operations Guide.

C) Giảm thời gian downtime với cấp độ khôi phục cấp cao bằng hình thức giám sát chủ động tình trạng sức khỏe của hệ thống máy chủ Backup.

Hai vấn đề mà bất cứ BK Admin nào cũng cần chuẩn bị cho mục sức khỏe của hệ thống Backup trong DR Plan của mình.

C-1) Kiểm tra sức khỏe chủ động của dữ liệu backup

Một trong các vấn đề mà các BK Admin có nhiều kinh nghiệm rất đau thương là việc dữ liệu backup bị hỏng khi cần phục hồi. DPM Server hoàn toàn có thể giúp BK Admin tự hoàn toàn quá trình này với tính năng “Data Integrity”.

C-2) Kiểm tra sức khỏe chủ động của DPM Server

BK Admin có thể kiểm tra event log thường xuyên của DPM Server để phát hiện sớm những vấn đề trục trặc tuy nhiên ko phải BK Admin nào cũng siêng năng như vậy vì ai cũng biết đọc log là một trong những công việc bùn chán nhất mà chưa chắc là BK Admin đã có đủ kĩ năng để xác định nhanh những event nào là critical. Do đó Microsoft cung cấp DPM 2007 SP1 Management Pack cho phép SCOM có thể kiểm tra chủ event log và guide cho BK Admin những action tốt nhất để xử lý. SCOM 2007 có thể giám sát gần 40 sự kiện của DPM Server. Xem chi tiết các loại sự kiện mà SCOM có thể giám sát và guide cách troubleshoot.

DPM-MOM-3Hình 3: Kiểm tra sức khỏe tổng thể của cụm máy chủ DPM

DPM-MOM-1Hình 4: Giám sát sức khỏe của Storage Group

 DPM-MOM-2Hình 5 Đưa ra giải pháp cho sự cố 

 

D) Tăng thời  gian uptime với cấp độ khôi phục cao bằng máy chủ DPM dự phòng.

BK Admin có thể tăng thời gian uptime của máy chủ DPM bằng một máy chủ DPM thứ hai mà tôi hay gọi là cụm cluster active/active 2 nodes DPM. Dĩ nhiên BK Admin hoàn toàn có thể add thêm máy chủ vào cụm cluster này để tạo ra chuỗi backup liên hoàn.

D-1) Xây dựng mô hình chống lỗi cho máy chủ DPM

Xem Xây dựng mô hình chống lỗi với cụm cluster 2 máy chủ DPM để biết thêm chi tiết về cách thiết lập cụm cluster DPM.

D-2) Khôi phục dữ liệu từ node DPM thứ cấp trong cụm cluster.

* Chú ý: với mô hình cụm cluster có từ 3 nodes DPM trở lên thì ta ko thể sử dụng 2 nodes B và C để bảo vệ cho 1 node A mà phải theo hình thức chuỗi node B bảo vệ node A và node C bảo vệ node B.

E) Tằng thời gian uptime với cấp độ khôi phục cao nhất bằng hình thức khôi phục máy chủ DPM từ máy bằng với DPM SRT.

Để giảm thời gian phục hồi xuống mức thấp nhất thì BK Admin có thể lựa chọn giải pháp DM SRT để khôi phục máy chủ DPM từ máy trắng cho phép khôi phục OS hoặc cả OS và CSDL của DPM. Best Practice thì vẫn là kết hợp bảo vệ OS/SystemState bằng DPM SRT và các hình cluster DPM để dự phòng khi DPM server chính down và tape backup để khôi phục Backup Data. Cách thức khôi phục từ máy trắng cho DPM Server với DPM SRT tương tự như cách thực hiện cho máy chủ hạ tầng. Để xem chi tiết cách thực hiện, xin xem D) Tăng thời gian uptime với cấp độ khôi phục tốt nhất bằng hình thức khôi phục máy chủ từ máy trắng với DPM SRT. 

F) Tăng cường thời gian uptime với cấp độ khôi phục tốt nhất bằng hình thức xây dựng mô hình DPM 2 tiers (DPM 2 DPM 4 DR).

DPM-2-DPM-4-DR

Với các doanh nghiệp có quy mô lớn như Bank chẳng hạn thì khả năng DR giữa nhiều site là điều tất yếu vì vậy BK Admin có thể xử dụng mô hình Backup hình sao với mức độ cơ bản là 2 tiers (tier ở Branch Office và tier ở Head Office) và mô hình sao này có thể mở rộng ra tùy theo mức độ phức tạp và đòi hỏi về DR của hạ tầng. Cũng chia sẻ với mọi người rằng Microsoft hiện nay protect toàn bộ 4 DataCenter hiện này và mở rộng thành 25 DC trong tương lai của mình theo hình thức này.

Nhiều người sẽ thắc mắc về RPO và RTO của mô hình D2D4DR này. Thực ra thì nếu chỉ có giải pháp Microsoft ko thì rất khó để có RPO và RTO chuẩn nếu ko có sự tham gia của các thành phần hạ tầng mạng và quan trọng nhất hoạch định của BK Admin phải thật chuẩn khi làm DR Planning. Dưới đây là một ví dụ về thời gian backup/restore dữ liệu (RTO)

DPM-RTO

Bấm vào đây để xem các Action khác của DPM In Action Series

Advertisements

About vncson

Technical Specialist for MSVN - based in HCM. My focus are Core infra like Active Directory/Exchange/Security/Virtualization/System Management.
Bài này đã được đăng trong All about System Center DPM. Đánh dấu đường dẫn tĩnh.

4 Responses to DPM In Action Series – Advance Action – HA/DR 360

  1. Thuan nói:

    Rất pro, thank you Chú Sơn nhé

  2. Triều nói:

    wá tuyệt. Bài viết rất hay. Nếu thêm phần chi phí và mô hình cơ sở hạ tầng nữa thì quá tuyệt. Cám ơn nhiều

  3. Son nói:

    to trieu nguyen:Thực ra thì đây ko pải là proposal về giải pháp DR bằng DPM System đâu mà Sơn chỉ muốn cho mọi người thấy một cái nhìn mọi góc cạnh (360 độ) về DR bằng DPM thôi còn tùy theo tình huống khách hàng mà có propose cụ thể. Còn về giá cả thì anh có thể http://www.microsoft.com/systemcenter/dataprotectionmanager/en/us/pricing-licensing.aspx

  4. Son nói:

    To everyone:Để xây dựng một giải pháp hoàn chỉnh về DR thì còn cần rất nhìu thành phần liên quan của các hãng khác nữa. Chẳng hạn để DR cho DataCenter thì sẽ cần phải có nhìu đồ chơi độc nữa. Tôi sẽ đề cập ở Advance Action tiếp theo về DPM.

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Google photo

Bạn đang bình luận bằng tài khoản Google Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

Connecting to %s