首页
> 资讯中心 > 产品
解读 | 建立“集约化运维监控平台” 满足《政府网站发展指引》运维监控及时性要求
时间:2017-11-24 11:57 浏览次数:

关注「大汉科技」全面了解互联网+政务服务应用之道

随着集约化网站群的发展,集约化程度不断提高,网站、应用程序、服务器、网络安全设备等的数量和密度持续提升,可持续、长效化运维的难度不断增加。基于这种趋势,《政府网站发展指引》国办发〔2017〕47号(简称《指引》)对网站运维监控方面也提出了更高要求。

2.2.4 政府网站技术运维要有专门人员负责。具体负责网站平台的建设和技术保障,做好软硬件系统维护、功能升级、应用开发等工作。按照网络安全法等法律法规和政策标准要求,开展检测评估和安全建设,并定期对网站进行安全检查,及时消除隐患。不断完善防攻击、防篡改、防病毒等安全防护措施,加强日常巡检和监测,发现问题或出现突发情况要及时妥善处理,确保网站平台安全、稳定、高效运行。

7.2.1 建立安全监测预警机制,实时监测网站的硬件环境、软件环境、应用系统、网站数据等运行状态以及网站挂马、内容篡改等攻击情况,并对异常情况进行报警和处置。

8.2.2 值班读网制度。建立24小时值班制度,及时处理突发事件,编辑、审核和发布相关稿件。设立质量管理岗位,加强日常监测,通过机器扫描、人工检查等方法,对政府网站的整体运行情况、链接可用情况、栏目更新情况、信息内容质量等进行日常巡检,每日浏览网站内容,特别要认真审看新发布的稿件信息,及时发现问题、纠正错漏并做好记录

从加粗划重点的文字中可看出,《指引》对网站运维监控的最大要求在于及时性与实时性,这是网站集约化程度提高之后的必然要求。集约化程度提高之后,平台处理的数据量、面对的用户数都会海量提升,出现任何问题在短时间造成的影响也相应巨幅增加。2015年1月5日上午,工商银行三方存管系统出现异常,影响90家证券公司54709名客户、48.8亿元的银证转账操作;2015年5月28日,支付宝因数据光纤出现问题,导致全国范围内系统瘫痪长达2.5小时。当拥有海量用户的网络平台出现隐患或问题,早一分钟发现,早一分钟解决都能避免和挽回很多损失和负面影响。

对于各地政府而言,网站集约化是一项全新的任务,经验方面存在不足,从而在运维监控方面难免遇到各类问题,主要包括:

1、集约化后的网站规模成倍上升,内容和设备出现问题概率大大增加,依赖传统方式上低频率的定期错别字、错链死链和栏目更新的扫描以及设备巡检成为杯水车薪;

2、《指引》要求建立24小时值班制度,如果要求值班人员一直守在机房和电脑前值班,那么势必要配备多名人员轮班,这种人力成本的增加对一些地方政府和部门来说可能难以负担;

3、运维过程中产生的系统错误日志、攻击告警记录、设备故障信息等数据如果以代码等计算机语言方式呈现,对于技术背景不深的运维人员无疑是难以阅读的天书,即使是技术人员也需要花费大量时间来分析和理解这些抽象化数据。

图:集约化运维监控平台

为了解决以上难题,集约化的网站群系统需要搭建这样一种“集约化运维监控平台”——它能够从至少三个方面以“快”制胜,迅速预防和解决网站运维中出现的隐患和问题,将各种负面影响提前化解或最小化:

1、发现问题快

“集约化运维监控平台”应提供安全监控、普查监控、服务监控、主机监控等多维度监控的各类细化监控指标,并具备分钟级监控数据粒度。这样方能确保在系统的任何一个层面,任何一个时间点出现问题均能快速发现。

2、报送问题快

在互联网已经全面移动化的现今,平台应充分利用移动优势,通过短信、微信等即时通讯工具将平台监控中发现的问题第一时间自动发送到绑定的管理员手机等移动端设备上。这样即使管理员临时离开了监控平台界面,也可迅速获取到异常信息,采取相应对策,达到与固定地点值班同样的效果,在合理的程度上可以减轻24小时值班人力成本方面的压力。

3、理解问题快

在读图时代,数据呈现的方式不应该抽象化、繁琐化。平台应具备化繁为简、深入浅出的能力,将运维监控数据通过多样化的色块、图形、图表方式呈现,将关键问题提炼、凸显出来,把对数据的挖掘、筛选、优化呈现等工作交给机器,让管理者专注于理解要点后的决策工作;同时,所有监控数据详情应在平台中进行足够长期的保留,以便满足管理者在事后一段时间内对问题进行复盘的需求。




【打印本页】 【关闭窗口】
Produced By 大汉网络 大汉版通发布系统