ITPub博客

首页 > 数字化转型 > ERP > 压力、动力、成长、成就

压力、动力、成长、成就

原创 ERP 作者:chenhr 时间:2007-06-04 10:44:17 0 删除 编辑

﹊2007年IBSS质量维护提升年专题之一

压力、动力、成长、成就

---广东天讯科技广州IBSS维护工作小结

陈华荣

2007年5月30日

1 引子

“唉,怎么那么快就又更新了?明天肯定又是得乱上一阵子的啦……

“那可不,系统组今晚一上更新包,明天软件组就得严阵以待,全力扑灭如潮水般的报障单了……

“比较担心前台压力太大,营业厅又要大排长龙,营业员又得忍受客户的数落与谩骂了……

“最可怕的是,频出问题的IBSS系统会直接影响到服务质量,影响到企业形象,进而影响到广州市电的营业收入……

以上种种,就是IBSS上线直到06年下半年初,上至公司领导,下到维护中心技术人员对于IBSS更新的担心与忧虑。IBSS系统更新,所带来的问题,让我们这群维护人员寝食难安。

更新的晚上,是不眠的晚上,系统组通霄达旦的把巨量的新程序包更新到生产系统上去;更新后的几天日子,是我们与报障单极限竞速的日子,一定要在排山倒海般的报障单涌来之前,定位问题根源,及时要求厂家打更新包的补丁包,再来一到数次的紧急更新。

更新完成后一周到再一次更新的间歇,也就是我们稍微可以喘口气的时间;只可惜,更新的频率是惊人的,两周一次全量更新,中间还会夹杂着不少的紧急更新!

维护的日子,就在不断的更新、更新、再更新中悄然的逝去了……

2 转变

我们再也不能这样子来做维护了!

维护时间超长,报障数量极多;维护质量不高,用户评价不高。辛苦换不回成果,这赔本的买卖可不能常做。

压力是空前巨大的,“迎难而上”,素来是科技公司的优秀传统;面对严峻的考验,在公司领导的指导与部署下,我们冷静思考,沉着应战,化压力为动力,启动了维护思路的转变。

于是从06年下半年开始,我们开始贯彻“变补为防,以防为主”的主动维护思路,以积极的“事前控制”为工作重心,狠抓更新前的管控和日常的使用管理,力求将故障消灭在未萌芽阶段。

经过一段时间的努力,从0610月份开始直到现在,总体来说,我们的措施使得IBSS系统运行平稳了许多,高效了许多。我们的工作成绩,也得到了相关用户与领导的一致认可。

以下是我们因应于自身维护实践,所总结出来的一些工作思路与工作方法,希望能够给到我们这些做维护工作的同事们一些启发与参考,共同将我们的运营维护能力做一点提高,进而给我们的企业带来效果与效率的一同提升。

3 方法

3.1 制度建设

“无规矩不成方圆”,万事但凡有章可循,有法可依,做起来就会得心应手,不会出错;同时也就有章可考,奖赏与惩罚也就有了根据。

为了保障IBSS的平稳高效运行,我们着重建立与健全了以下的制度与流程。

3.1.1 版本更新维护流程

对于版本更新的管控任务,是重中之重。我们定义了严格的输入、输出机制,做到每个环节都有人负责,上下游工序间界面清晰,分工合理。

建立起一只专门的测试队伍,对每一次的全量更新做仔细的符合性测试,并使用自己的常规测试案例做相应的回归测试。对测试中发现的问题,坚决不放过,积极主动与厂家沟通,保证在上线前解决。

使用专人负责广州IBSS更新的实施工作,保证更新的连贯与高效。更新操作实施登记制度,保证更新实施可以有案可查。

实施更新可回退流程。每次更新前将相关的配置信息做备份后转存,对于大规模的实体数据更新做好数据库的热备份,对于后台程序变更则做复制备份。在紧急情况下面,可进行完整的更新回退流程。

3.1.2 系统定期维护制度

以前我们采取的都是比较被动的维护方式,即系统出现问题的时候,才进行一些常规的重启中间件应用服务,重启数据库甚至重新启动机器的操作。因为应用程序始终是存在内存泄露,设计缺陷等等问题,这就直接导致了长期的运营当中,主机的CPU与内存资源的可用率在不断的降低,从而引发一些大的故障甚至于DOWN机的事故。

借鉴帐务计费系统每月出帐前重新启动的经验,我们今年也同样采取了主动的定期维护制度,做到应用两周重启,数据库一月一重启,操作系统一季一重启。这样的主动维护,让主机的资源得到释放和再生,直接使得IBSS运营的故障率直线下降,大大提升了运营的质量。

3.1.3 重大故障处理流程

鉴于3月上旬的IBSS运行缓慢的故障引发的连串问题,我们完善了重大故障处理流程。加强了与外部用户的沟通与联系,做到及时、准确的上报。

技术人员遵照该流程去处理问题时,在一定时限内无法迅速解决问题,就需要逐级上报领导,协调相关的资源进行统一的会诊与排障工作。这样就有利于保证我们的内外部渠道畅通,使故障处理流程化、透明化,最大限度的做到让领导掌握系统状况,决策相关的处理方法。

3.1.4 批量后台作业管理办法

对于系统的正常运营,管控好系统的负荷也是相当关键的。如果在高峰时期再给IBSS系统“百上加斤”的话,它肯定不堪重荷,响应缓慢或者可能罢工抗议的。

鉴于3月上旬故障的教训,我们连同运维部门,一起制定了对系统性能影响比较大的后台作业的管理办法。以月为周期,定义不同的时间窗口,由不同的部门在IBSS系统非高峰时段提交。

比如根据累积的系统运营数据,在每天的930分到12点,下午1430分到18点,均为营业高峰时段,此两个时间段就不允许提交后台批量作业。

又比如每月的月初1号到8号,月尾25号到31号,是出帐与停复机繁忙期,此段时间就不允许做大规模的系统维护处理。

有了这样的统一规划之后,各个部门对于IBSS系统的使用就交错开来,井然有序,不会再出现“塞车”的状况了,IBSS系统的运行就更加之稳定了。

3.2 人才培养

人才是企业真正宝贵的财富,尤其对于维护工作来说,更是如此。培养一个优秀的维护人才,需要企业付出许多的成本,包括时间,财力,培训,管理上的成本,甚至于必须包括可能的出错的代价等等。

总结起来,我们在IBSS系统维护人才的培养方面,主要做了如下的两项工作。

3.2.1 知识库建设

知识的传承,关系到一家企业的生死存忙。有积累,才会有创新。如何将我们对于IBSS系统维护的经验保留下来,并快速的进行传播,一直是我们考虑的一个问题。

07年以来,我们加大了对于Wiki知识库的建设,要求我们的维护人员,必须把自己的维护经验,处理案例以文字的形式提交到我们的Wiki系统上面。同时也要求,维护人员处理故障的时候,首先要检查该故障是否在Wiki上面有,如果有的话,遵照相应的处理流程描述进行处理,如果有更好的办法,直接在上面进行知识库的修改。一直改进到这个故障的处理产生“Best pratice”为止。

人人都要有贡献,Wiki知识库的建设直接跟绩效考核挂沟,这就最大限度的调动了大家总结经验、贡献知识财富的积极性。

3.2.2 专职人才培养

“人贵有专攻”,专家的力量是比较强大的。如果我们能够有一只比较强大的维护专家队伍,做好维护工作自然是水到渠成,顺理成章的事情了。为了达成这个目的,在实际维护工作中,我们做到了合理的调配人力,合理的分派专业工作,最终使得我们的人才各有所长,各有所精。

比如系统组就划分了主机、网络、数据库、故障处理与系统监控几大类,软件组则依据IBSS系统的特点划分了受理、调度、资源、接口等几个大组。每个类别或每个组的人员都能够独当一面,高效的完成好自身的专业工作。

在此基础上,接下来要做的就是做专业的交叉,培养“既有专精,又有广度”的复合型人才,适应维护工作不断变化的需要。

3.3 技术管控

有效的技术手段,是保障维护工作能够高效运转的动力。在两年多的IBSS运营维护上面,经过众多同事们的共同努力;尤其是在07年以来,我们逐步完善了对于IBSS系统的技术管控手段,有效提升了维护的质量。这也为我们今后能够进入系统维护服务市场,提供了信心与保证。

总体来说,我们在技术上实现了如下的手段。

3.3.1 短信监控

我们有7*24小时的不间断监控,也定义了每天人工检查主机、应用、数据库状况的制度。但是人工监控的缺点是明显的,如检查力度比较弱,人工要求比较高,可能会出差错等等。于是,我们着手研发了一套自动监控、短信报警的系统,以自动化手段来增强监控的实时性,准确性。

主要监控的内容包括了中间件应用服务的队列数目;中间件应用输出日志的大小变化情况;数据库表空间的使用率,会话数目;IBSS应用的各类订单数目、工单数目等等。当超出预定的经验数值的时候,会自动发送告警信息到相关人员的小灵通上面,提示进行问题解决。

这就大大提高了处理故障的响应速度,基本上没等这个故障反应到前台用户我们就已经处理掉了。

在此基础上,我们继续改进程序,对许多进程,如果超出一定的允许范围的时候,就自动进行相应的重新启动处理。这也进一步提升了维护的质量。

3.3.2 经验数据

经验数据的累积,对于能否维护一个系统平稳高效的运转,是相当重要的。

07年以来,我们加大了对于IBSS系统各项参数的采集、整理力度。多方收集主机的CPU、内存使用状况,主机进程数目,IBSS订单生成速度,接口处理能力等数据,做到时时、事事以数据说话。

3.3.3 文档信息化

长期以来,我们的监控记录基本上是以Excel表格这种形式来存放的,由于文件数目太多,不利于存储与做进一步的分析应用,基本上也就是记录下来放着完事了。文档未经过整理,未能提供其对未来的指引作用,就不能称之为有效的信息。

针对此弊端,我们设计了内部的日常工作管理系统来进行数据的采集与存储,方便对于监控工作的管理,利于今后的分析与报表管理,也给将来的系统运营打下了坚实的信息基础。

3.3.4 数据清理

IBSS系统的一大特点就是,每个月新增的数据量巨大。上线以来,几乎每月激增80G左右的过程数据;这么庞大的数据,必然影响系统的高效运营。

07年以来,加大对于IBSS历史数据、过程数据的定期整理工作。每个月,将部分非关键的历史数据、过程数据做外部备份之后,将其清除掉。通过对IBSS数据库的“瘦身”工作,降低了负荷,运营的效率明显提高了。

4 未来

4.1.1 巩固成果,提高效率

今日之成就,实属来之不易,这也必须感谢我们工维中心兄弟姐妹们的无私奉献和扎实工作,也必须感谢运维领导及主业各级部门的指导与配合。

如何巩固这成果,是我们接下来工作的重点。力争再接再厉,再立新功,再创辉煌!

在巩固的前提下面,我们也必须进一步的提高能力,提升响应速度,把广州IBSS的维护做成一个品牌项目。

4.1.2 开拓市场,输出服务

公司企业化的运营,要求每个部门都贡献利润,没有利润的部门是没有必要存在的。这是残酷的现实,我们要发展就必须先生存下来。在做好IBSS维护的前提下,我们还必须承担创收的任务。

作为维护部门,我们最有价值的东西就是自己的服务,高品质、全方位的系统维护经验、能力、工具……

面对市场,我们唯有把自己做精做强,用我们的服务去争取更多的客户资源,为企业发展添砖加瓦。可喜的是,我们已经勇敢的迈出了第一步,目前已经在跟网监中心洽谈其网管系统的代维工作。

5 结语

维护工作是相当繁重与繁琐的,需要我们以高度负责的态度,并投以满腔的热忱才能持之以恒的做好。

客户的满意就是我们最大的奖赏。

压力必须转化为动力。唯有不断的成长,才能不断的成就未来。

籍此,共勉。

[@more@]

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/206020/viewspace-917325/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 福祸相依
请登录后发表评论 登录
全部评论
  • 博文量
    37
  • 访问量
    42823