原文:《商業銀行IT運維管理體系》

隨著金融科技發展的日新月異,信息技術在銀行系統扮演的角色越來越重要,銀行業的日常穩定運營與IT系統緊密相關,信息技術早已成為與核心業務系統管理息息相關的重要要素。構建安全、穩定、有序、高效的IT運維管理模式,是各商業銀行推動業務系統穩定運行、加強自身競爭能力的關鍵所在,對促進商業銀行支付業務安全健康發展具有積極意義。

主要問題

IT運維管理是指基于網絡基礎設施建設,在網絡設施的運行狀態下,采用相對應的管理方法,對物理網絡、軟硬件環境等運行環境進行維護管理的IT管理工作,實現完善的IT運維管理是商業銀行提高經營水平和服務水平的關鍵。從調研情況看,目前商業銀行IT運維管理工作存在一些問題,制約了商業銀行IT運維管理水平的進一步提升。例如:IT運維管理機制不完善,流程操作缺乏嚴肅性;運維管理過度依賴科技人員,不能形成與統一業務目標建設的合力;KPI關鍵績效指標考核機制不完善,不能全面準確反映真實的工作績效;缺乏管理工具,無法在IT運維過程中提供全面、安全、穩定的運行支持;缺乏系統化的、詳盡的標準化建設,簡單的收集、梳理難以滿足未來企業IT信息化發展需要;突發事件的預警和告警無法實現統一可視化,導致IT運維事件響應來源不一,工作效率低下,突發事件應急能力較低。

管理思路

從商業銀行IT運維管理存在的問題分析看,應采取“三步走”模式逐步加以完善和改進:一是運維服務流程梳理,對服務工作任務分解、排列,形成固定服務程序;二是在服務流程、規范這兩個維度形成“服務工作標準”,確保操作流程統一性;三是利用IT工具約束工作任務,建立相應的KPI關鍵性指標,準確衡量服務質量。

在此基礎下,從六個方面進一步完善IT運維管理平臺。一是搭建統一監管平臺。通過搭建統一監管平臺,實現機房狀態、系統狀態、網絡吞吐、應用日志等基礎監控和業務監控的統一管理,擺脫監控產品多、監控場景單一的處境。二是實現基礎設施全面監控。采用專業的運維監控框架,結合行內自身特點進行適應性匹配,實現所有設備實時監控。三是分析、歸類、整合高效化。借助ELK技術將分散在服務器中的數據收集、分類;采用運維監控和ELK兩種采集方式,結合大數據手段,對數據進一步分析、歸類、整合等,為IT運維提供多種數據服務。四是數據分析的加強。利用互聯網成熟穩定技術作為支撐,在統一監控平臺基礎上,對各類監控數據指標進行數據處理、趨勢分析,降低風險發生概率。五是強化突發事件處置能力。統一監控平臺可在突發事件中觸發告警,對常規操作謹慎自動化嘗試處理,為突發事件的處理爭取時間。六是標準化與自動化相結合。信息科技管理平臺與統一監控平臺相互對接,通過標準化流程推動自動化處理,保障運維合規化、標準化、自動化流程。自動化能力與標準化建設相輔相成,共同發展,為IT運維管理提供全面支撐。

管理目標

其一,自動化業務監控——風險提示。統一監控平臺以微服務架構模式,通過多個不同服務模塊對支付系統進行實時監控,如:查詢查復、頭寸、凈借記限額、止付業務、退匯、掛賬未受理情況等,通過大數據趨勢分析,規律性展示業務高發時段,提醒運維人員提前做好風險防控。

其二,基礎環境信息收集——風險暴露?;A環境信息采集內容不斷增多,通過統一監控平臺反映出來的如影響性能或安全方面的隱患逐漸顯露,及時調整系統、網絡、應用架構,盡早處理隱患,保障了支付系統的業務連續性,網銀交易超時率大幅降低。

其三,可視化信息查詢——風險靈活掌握??梢暬畔⒉樵円浴氨O控隨行”為目標,實現多節點、自適應、跨平臺、多端適配,信息隨行方式,使相關業務、技術人員隨時隨地查詢統一監控平臺的監控信息,使支付基礎環境、業務指標、異常檢測通過預警、告警、可視化、數字化、自動化和多展示、多處理形式,提高受理效率,保證支付安全。

相關建議

一是強化信息共享。IT運維管理相關技術更新換代速度較其它領域更快,相關技術人員需要接受的信息較多,加強信息的共享是避免出現技術盲區的有效手段之一。提供開放的分享空間,使員工通過討論的方式分享自己的經驗與想法,加強信息流動力的同時激發員工的創新思考精神,各部門間相互學習,交流經驗,從而達到增強整個IT運維管理團隊技術能力的目的,逐步擊破整個組織技術盲區。

二是加強運維流程管理。進一步完善運維管理流程,健全運維管理制度和標準,通過建設全面的監控管理平臺將各個業務系統中的各種設備、軟件、業務應用均能納入到監控平臺中來,消除管理對象之間差別、消除數據采集手段的差別、消除管理軟件的差別,對各種不同來源數據統一處理、統一展現、統一用戶登錄、統一權限控制。

三是增強應對突發事件能力。應急演練是檢驗IT運維管理體系成熟度、運維應急預案、系統承載力的重要手段。日常加強應急演練,是保障突發事件下IT運維管理相關系統正常運行的重要前提。在具體演練中,要制定詳細的演練方案,明確突發事件成因、目的、具體時間、演練成員等重要事項,針對演練過程中發現的問題,進行評估分析,完善IT運維管理應急體系,為應對突發事件打下堅實基礎。