推動板塊化運維,破解大規(guī)模分布式服務框架下的運維難題
- 2023-05-04 瀏覽:1853
作者:工商銀行軟件開發(fā)中心副總經理 王旭光
近年來,工商銀行聚力創(chuàng)新變革,全面實施智慧銀行生態(tài)建設工程(ECOS),實現(xiàn)了從傳統(tǒng)集中式向全分布式的轉型突破,自主研發(fā)了全球銀行業(yè)規(guī)模最大的企業(yè)級云計算平臺,在大型銀行中率先通過全面分布式架構承載主要業(yè)務系統(tǒng)運行,實現(xiàn)了傳統(tǒng)單一核心銀行系統(tǒng)向去核心化開放生態(tài)銀行系統(tǒng)的代際躍升。與此同時,工商銀行將防范IT系統(tǒng)風險作為防范系統(tǒng)性風險的重點課題之一。當前,工商銀行云上節(jié)點數量超5萬個,容器規(guī)模超過30萬個,服務數量超過3萬個,日均服務調用量達160億次。對于以“云計算+分布式”為核心、涵蓋系列企業(yè)級新技術平臺的技術體系,其配套運維能力不斷提高,監(jiān)管機構及客戶對銀行信息系統(tǒng)的安全性提出了更高的要求,這給信息系統(tǒng)高效、安全、穩(wěn)定運行帶來新的挑戰(zhàn)。
一、分布式服務框架下運維工作面臨的挑戰(zhàn)
以分布式、微服務為代表的新架構,在部署節(jié)點數量以及服務交互復雜程度等方面都上升到了新的等級,對基礎設施、網絡環(huán)境、基礎組件的穩(wěn)定性有較高要求,同時所形成的網狀拓撲結構服務調用鏈路為生產運行穩(wěn)定性也帶來新的挑戰(zhàn)。
一是業(yè)務場景通常涉及多個應用組合服務、多個技術組件調用,鏈路較為復雜,服務組件體量巨大,進而大幅提升了鏈路分析、跟蹤、故障診斷、根因定位等的運維管控難度,在發(fā)生基礎設施故障或服務異常時,往往難以快速準確地判斷業(yè)務影響范圍。
二是故障爆炸半徑難以控制。由于服務調用關系復雜,且對基礎設施及技術組件的穩(wěn)定性存在依賴,因此故障會隨調用鏈延長而持續(xù)蔓延,技術基礎組件的局部故障可能造成其上層調用的服務出現(xiàn)大面積故障。
三是業(yè)務場景全鏈路上應用的運維能力參差不齊,木桶效應影響了鏈路所支撐重要業(yè)務的可靠性,如何快速識別和補齊短板,確保關鍵業(yè)務鏈路穩(wěn)定高效運轉成為關鍵。
四是為傳統(tǒng)運維組織協(xié)作模式帶來很大壓力。傳統(tǒng)的運維組織架構大多以應用研發(fā)組織分組進行適配管理,實際運維過程中,問題的反映通?;跇I(yè)務視角,同一重要業(yè)務鏈路上的應用可能分屬不同運維組織,這將增加上下游協(xié)同的溝通和管理成本。
二、分布式服務框架下的運維破局之道
面對上述挑戰(zhàn),工商銀行結合業(yè)界最佳實踐及自身實際情況,開展了基于業(yè)務運維板塊的運維轉型方案研究與實踐。按照企業(yè)級業(yè)務架構及技術架構頂層規(guī)劃,積極推動面向業(yè)務的板塊化運維體系建設和轉型,將“以業(yè)務為中心,構建安全、高效、穩(wěn)定的技術運營服務”作為管理目標,以板塊為抓手,推進運維管控能力提升。
具體而言,運維體系的建設思路主要包括四個方面:一是基于業(yè)務和客戶視角,將更合理有效的端到端的業(yè)務運維板塊作為運維單位,將運維視角從單體應用延伸至業(yè)務的場景運營;二是推動各業(yè)務運維板塊內應用架構的優(yōu)化及板塊間的解耦,強化面向業(yè)務板塊的基礎設施、資源部署和邊界管理,實現(xiàn)板塊間的風險隔離;三是提升基于業(yè)務板塊和關鍵業(yè)務場景的鏈路級監(jiān)控、應急、變更管控及容災等核心生產運維能力,補齊短板,結合運維智能化轉型發(fā)展,賦能業(yè)務的數字化轉型;四是建立和完善與業(yè)務運維板塊相適配的組織保障體系,進一步優(yōu)化相關管理機制及工作流程,形成面向業(yè)務的板塊化運營管控機制。
三、推動板塊化運維實施
一是定義與劃分業(yè)務運維板塊。業(yè)務運維板塊是基于工商銀行企業(yè)級業(yè)務架構及IT架構,結合業(yè)務領域劃分、業(yè)務應用分組及生產運維實際經驗,圍繞端到端的業(yè)務場景定義的,用于承接生產運維、風險管控等運維工作的一組應用或服務群組。結合工商銀行IT架構分層體系,明確業(yè)務運維板塊的三大劃分原則:
第一,面向業(yè)務的高內聚原則。將渠道、業(yè)務產品的應用或群組以業(yè)務板塊和場景為邊界進行端到端聚合,形成渠道類、業(yè)務產品類業(yè)務運維板塊。渠道類業(yè)務運維板塊如融e行板塊、遠程銀行板塊等;業(yè)務產品類業(yè)務運維板塊如對公板塊、信用卡板塊等。
第二,將業(yè)務基礎的應用或群組以面向業(yè)務的服務能力為邊界進行聚合,形成業(yè)務基礎類業(yè)務運維板塊,如快捷支付板塊、e支付板塊、清算管理板塊等。
第三,將技術基礎的應用或群組以所支撐的業(yè)務板塊為邊界進行從屬關系的劃分和聚合,確保技術基礎服務資源相對隔離。不同類型的板塊根據板塊自身特點梳理關鍵業(yè)務場景,識別服務鏈路,明確板塊建設目標。工商銀行業(yè)務運維板塊劃分示意如圖1所示。
圖1 工商銀行業(yè)務運維板塊劃分示意
二是優(yōu)化運維組織架構。基于業(yè)務運維板塊進行運維組織架構調整,改變原來參考應用所屬IT架構分層和研發(fā)組織歸屬以及各運維專業(yè)進行團隊組織劃分的形式,轉為按業(yè)務運維板塊進行運維團隊的分組并輻射至業(yè)務、研發(fā)、測試部門。如圖2所示,業(yè)務板塊核心圈內的應用歸屬同一實體物理團隊運維,以此減少同一業(yè)務場景的跨部門、跨專業(yè)溝通;虛線框內為與板塊核心業(yè)務緊密相關的技術及業(yè)務基礎應用,以配備專人配合的虛擬團隊為板塊提供穩(wěn)定性保障。通過對板塊化組織的調整,實現(xiàn)運維工作本身的解耦和內聚,加速運維視角從科技應用視角向業(yè)務視角轉換,強化科技與業(yè)務的聯(lián)動,提升問題處置的有效性和響應速度,挖掘運維數據價值,賦能業(yè)務運營。
圖2 工商銀行業(yè)務運維板塊結構示意
三是開展全鏈路服務治理及部署調優(yōu)。明確各板塊的核心場景及關鍵服務調用鏈路,以板塊為邊界做好風險隔離,對標板塊內應用高內聚、松耦合的目標,做好服務調用關系管控,非關鍵鏈路服務采取異步調用、可熔斷、降級等措施與關鍵鏈路解耦,發(fā)生故障時能通過自動化應急手段避免對板塊核心業(yè)務產生影響。板塊之間的調用比照系統(tǒng)內外調用控制,合理劃分和部署支撐板塊業(yè)務的技術基礎平臺資源,重點保障場景基礎設施、網絡資源相對隔離,有效控制技術基礎組件故障對業(yè)務產生的影響范圍,減少系統(tǒng)風險在板塊間的擴散。
四是構建面向業(yè)務全鏈路的故障診斷中心。建立面向業(yè)務全鏈路的監(jiān)控規(guī)范,基于流量染色等技術構建業(yè)務調用鏈拓撲能力,自動實時生成業(yè)務場景實際調用鏈的拓撲透視圖,為板塊全鏈路構建可觀測監(jiān)控底座;對于板塊內重要業(yè)務場景開展業(yè)務生死線指標監(jiān)控,依托可觀測監(jiān)控底座,加速建設智能基線、故障定位等智能化監(jiān)控體系,打造一站式全鏈路可觀測中心,提升業(yè)務連續(xù)性保障能力。
五是拉齊板塊內各相關應用的運維能水平。圍繞板塊內重要業(yè)務場景做好全鏈路性能容量管控、壓測,構建板塊的實際業(yè)務支撐能力,確保鏈路上各節(jié)點達到高可用保障要求,并完善同城、異地的災備環(huán)境,構建快速容災切換能力;提升突發(fā)業(yè)務量激增、基礎設施或應用節(jié)點故障情況下的系統(tǒng)自我保護能力;建立健全鏈路級應急預案、一鍵式應急處置能力,提升板塊業(yè)務連續(xù)性水平。
六是健全組織機制,挖掘運維價值,推動板塊化業(yè)務運營。結合近年來工商銀行開展的站點可靠性工程師(SRE)運維模式,建立應用運維團隊和業(yè)務部門、應用研發(fā)團隊、測試團隊的組織匹配關系,圍繞各專業(yè)板塊核心業(yè)務協(xié)同建設,共同對業(yè)務穩(wěn)定性負責;同時,通過對運維領域的用數賦智場景的挖掘,完善鏈路級的技術運營能力,支撐業(yè)務運營能力的數字化轉型,賦能面向業(yè)務的運維價值提升。
以快捷支付業(yè)務板塊為例,工商銀行建立了研發(fā)、測試、生產三中心跨專業(yè)保障團隊,通過SRE運維模式共同對系統(tǒng)穩(wěn)定性負責,推動板塊全鏈路接入全息監(jiān)控、應用畫像,構建動態(tài)展示服務拓撲鏈路圖,完善一鍵式應急工具,進一步提升面向業(yè)務的異常感知能力、故障定位和應急處置能力,推動落實板塊內核心應用基礎設施內聚部署和技術支撐平臺應用單獨群組板塊劃分等重大架構調整,實現(xiàn)對電商大促等重要業(yè)務高峰時點備戰(zhàn)態(tài)資源和獨立PaaS資源池的部署調優(yōu)。經過團隊全體成員的共同努力,工商銀行快捷支付業(yè)務在監(jiān)管機構排名穩(wěn)步提升并保持前列,電商大促保障水平逐年提升。
四、板塊化運維實施成效與展望
板塊化運維是工商銀行對運維模式的新探索,是工商銀行運維轉型的重要實踐。經過一年的建設,從試點到形成目前20余個重要業(yè)務板塊,工商銀行板塊化運維體系逐步走向成熟,系統(tǒng)性風險防控能力、應急處置效能等各個方面都取得了階段性進展,影響較大的問題數量降到歷年最低水平,應急處置效率不斷提高,整體運維水平保持業(yè)內領先。后續(xù),工商銀行將繼續(xù)在以下幾個方面尋求突破:一是進一步深化板塊化運維工作,加強對智能化轉型成果的轉化和運用;二是進一步強化業(yè)務視角和全局視角,在實際工作中保持全局觀,從業(yè)務價值和業(yè)務運營視角看待板塊化運維;三是依托板塊化運維實踐,在完善運維架構的同時反哺應用架構,推動應用架構與運維架構進一步適配。
當前,工商銀行正處于數字化轉型的關鍵期。工商銀行將以“優(yōu)化場景聯(lián)動、數據驅動的生產運維管理體系,防范系統(tǒng)性風險”為運維目標,不斷強化科技與業(yè)務的融合,使“科技”成為驅動、賦能全行業(yè)務的“業(yè)務伙伴”,助力數字工行建設;繼續(xù)運用好“目標導向、問題導向、結果導向”的科學方法,確保運維技術水平同業(yè)領先,堅守“金融為民”的初心和使命,夯實風險抵御能力,為數字中國建設貢獻“工行力量”。
本文來源:微信公眾號《中國金融電腦》2023年第4期
免責聲明:所載內容來源互聯(lián)網、微信公眾號等公開渠道,我們對文中觀點保持中立,僅供參考、交流等非商業(yè)目的。轉載的稿件版權歸原作者和機構所有,如有侵權,請聯(lián)系我們刪除。