ITPub博客

首页 > 自动化运维 > 大规模网络运维 > 企业IT监控网管解决方案

企业IT监控网管解决方案

原创 大规模网络运维 作者:pjh0417 时间:2019-06-27 14:42:42 0 删除 编辑

第 1 章 方案背景

1.1. 方案背景


随着经济和科技的迅猛发展,企业的信息化步入了一个崭新的时代,而随着企业规模的不断壮大,业务的不断拓展,企业信息化依赖的网络结构和 IT 技术越来越复杂。企业 IT 网管部门的网管软件和技术实力直接决定企业是否能提供提供稳定、可靠、快速、优质的服务。但是,传统网管监控设备种类受限,监控的效率不高,后期扩展困难,同时无法和企业的业务情况结合起来,无法提供足够的安全管控功能,致使企业 IT 系统运行维护的管理水平相对滞后。

1.2. 企业 IT 管理的需求


针对企业 IT 网管的实际情况,企业往往对网管软件有以下需求:

1. 全面深入的监控管理


企业既有不同厂商的网络设备,也有各种服务器、软件应用,设备种类繁多,设备数量巨大,而且设备的管理协议不同,IT 部门期望能用一套软件统一监控起来。

2. 不间断的全程监控


IT 部门需要进行 7*24 的全程监控,故障将要发生前能提前预警,故障出现时可以立刻通知到管理员,定位到故障环节,快速恢复系统。

3. 后期扩展设备的支持


对企业来说,新的业务在不断开展,设备和新的软件应用也在不断扩展,IT 部门期望现有的网管软件对未来的扩展也能有较好的支持。

4.IT 复杂性与管理方便性的矛盾


IT 基础设施本身就越来越复杂,技术也越来越高级,面对复杂的 IT 设施进行管理,对 IT 部门技能的要求也将更高。因此对网管的功能要求也是越来越高,造成网管软件功能操作复杂,难以上手。

5. 清楚的掌控设备部署间的关系


设备之间的物理关系、设备与业务的关系,是 IT 部门进行全局掌控的基本条件, 随着时间的变化、人员的流动、设备的变更、业务的迁移,导致设备和业务的拓扑关系很难管理。

6. 与公司业务相结合


传统的网管软件往往只负责管理网络设备,无法支持对公司业务情况的拓扑展示和实时监控,不能有效地反馈企业最在意的业务情况。

7. 多层次的安全管理


对于企业中的不同部门,需要对不同的部门分配不同的管理权限以及设备权限,权限的管理分配是 IT 部门关注的重要指标。

8. 成本的控制


IT 部门作为服务中心,如何保障 IT 投资收益,提升 IT 投资价值,实现最大的业务目标,是 IT 部门重点关注的指标。

第 2 章 业 智和网管平台企业 IT 网管解决方案


北京智和信通有限公司,针对企业 IT 网管的需求,综合考虑了通用性、高效性、扩展性、易用性、网络管理和业务管理、安全管控等方面的问题,提出了智和网管平台企业 IT 部门解决方案。

2.1. 核心解决方案


智和网管平台实现了对设备的全面监控、持续监控,对网管功能的持续扩展,图形拓扑展示网络情况,业务管理、安全管理等功能。

2.1.1 全面的监控管理


将多种类和品牌的设备统一管理,对各种 WEB 服务、数据库、邮件、OA、J2EE 等应用进行监控。基本上覆盖了从硬件设施到软件应用的全面管理需要。可以对网络设备的接口、流量、IP 状态、连接状态、接收/发送字节、带宽、错误包、丢弃包进行监控;对 Windows、Linux、Unix 服务器的 CPU、内存、磁盘、网卡流量、硬件设施、软件进程进行监控。具有丰富的监控指标,并且支持自定义的监控指标,做到了深入管理。

2.1.2 不间断的全程监控


第一,通过无人值守的故障监视器和性能监视器,作为任务在后台自动运行;并且采用多线程任务并发技术,检测频率提升到秒级,可以做到实时准确高效稳定检测设备。
第二,主动化事件管理,通过 syslog 及 trap 技术可以接收设备/服务器主动发送的消息,集中处理后,及时通知用户。
第三,系统采用 3 级故障逐步预警机制,让故障在恶化前就被管理发现。并可以通过邮件、软件界面、手机短信通知到设备负责人。使用智和网管平台,管理人员无需整天盯着设备即可做到全程的监控。

2.1.3 对后期扩展设备的支持


平台底层采用特有技术的《通用管理框架设计》,加入了设备管理中间层,以屏蔽各种不同设备的管理区别。系统提供了故障监视器定义和性能监视器定义操作界面,管理员自己就可以实现管理扩展,通过扩展功能可以支持更多的设备种类和监控更多的信息。

2.1.4 真正解决 IT 复杂性与管理方便性的矛盾


采用简化的安装部署技术,基本可以做到一键式安装部署。基于拓扑图的所见所得监控管理界面,遵循从概貌到细节的管理习惯,自动搜索发现、自动监控匹配技术,保证监控正确。 通过一系列的化繁为简技术,用户基本上无需培训,就可以上手管理。

2.1.5 清楚的掌控设备部署间的关系


创造性的采用以拓扑关系为基础的管理模式,支持按物理网络、部门、业务职责等方式来管理大量的设备;可以自动搜索设备,进一步自动搜索设备上的业务。通过多种发现算法,智能分析端口转发表,LLDP 表、MAC-IP表、路由转发表等自动搜索发现交换机下的下挂设备,分析下挂设备的 IP、MAC、端口等信息,自动生成设备的下挂拓扑图。可以让管理员随时都可以看到最完整的设备拓扑视图。

2.1.6 提供业务管理功能


企业 IP 网管可以自由、灵活地进行业务管理,打破了传统物理网络和设备的概念,支持用户选择跨网络的多台设备,组成完整的业务设备拓扑,并进行监控,从而使管理员直观地了解业务流程和业务情况。

2.1.7 做到多层次的安全管理


支持多级网络/区域的组织结构,而且可以对不同用户分配管理不同的网络/区域。用户登录后,只能看到自己权限下的网络和设备。通过黑白名单功能来检测用户所关心的设备(通过 IP 和 MAC 来识别)是否在网络中出现以及出现的时间,提醒用户下一步的操作。通过支持对用户网络,用户权限进行设置,以及对黑白名单进行控制,多层次、多角度的提升了网络的安全性,保障用户网络安全。

2.1.8 实现成本控制


公司坚持自主研发,不会涉及到第三方费用;通过操作方便性减少培训支出;采用通用管理框架设计技术,管理新的设备和业务也无需成本;基于电信级分布式可靠技术内核,减少维护支出。这一系列技术,将保证智和网管平台(SugarNMS)可以批量化和低成本化,从而带给最终用户最有竞争力的价格。

2.2. 应用价值


采用智和网管平台企业 IT 网管解决方案,通过智能化管理、直观拓扑图、完善的告警机制等,让企业真正实现了通过简易的网管操作,全面掌控网络情况:
1. 掌控设备情况,对不同种类设备进行集中监控,实时了解设备连接情况和运行情况。
2. 掌控业务情况,全面掌控关注的业务流程、相关设备、有关告警。
3. 掌控安全情况,多方位地掌控网络安全情况,保障网络安全运行。

第 3 章 方案技术特征和优势

3.1. 技术特征


智和网管平台以 JAVA 语音为基础,自主开发,具有模块化、智能化的特点。
1、智和网管平台以 JAVA 高级编程语言为基础,从功能块、数据库、界面全部基于统一 JAVA 技术平台和统一数据关系模型。
2、智和网管平台使用模块化设计模式,将平台在基础框架、可重用组件和软件功能之间保持隔离,既确保了快速定制,又不损失组件化、架构化特性。


3、智和网管平台基于自行研发的 Object SNMP、设备自动发现组件和拓扑图组件,拥有智能化的设备发现和管理特性。
4、智和网管平台从底层网络协议到开发平台,拥有 100%自主知识产权。
5、智和网管平台同时具有基于 JAVA 的客户端和 HTML5 的客户端,满足不同用户的需求。

3.2. 方案优势

3.2.1. 产品优势


智能化 :一键式智能化网管,一键搜索、发现、识别网络设备、资源、链路,智能化故障管理,最大限度提高产品的易操作性,提高管理效率并降低成本。
具象化:自动生成拓扑图,全面完整呈现网络的拓扑结构,实现具象化网络管理方式,极大的降低了 IT 管理的难度。
自动化 :自动发现、识别设备、资源、链路,智能分析链路逻辑从而自动生成拓扑图,简化用户操作步骤,降低管理环境搭建时间。
个性化 :个性化定制开发、系统集成,满足用户不同需求,用户可以随心定制出符合需求的网管平台,并对平台功能不断更新,以满足日益变化的管理需求。
国产化 :完全支持国产处理器、服务器、操作系统、数据库,改善国内基本没有支持国产化平台的网管软件的情况,满足用户日益增多的信息建设国产化需求。
秒级监控:领先的秒级监控能力与多线程任务并发技术,监测频率提升到秒级,最低可设为 5 秒,实时、精确、高效、稳定监测设备。
稳定性:电信级软件架构的微内核精简技术,100% Java 多层分布式技术,提供了电信级可靠性保障。支持容灾方案以及双机备份设置,最大限度保障网管数据的安全。
易用性:产品以用户为中心进行设计,界面设计友好,产品功能易见易学易用。
兼容性:采用 Java 跨平台技术,完美兼容主流/国产系统及数据库,提供 C/S 和 B/S 两种客户端界面,兼容 PC 以及移动设备,让管理随时随地。
企业级 :支持大规模组网管理,可直接穿透私网进行监控,支持分布式部署方式,平台易于升级和维护,能够满足未来业务需求的变化。
私有设备:新的设备类型、未知设备种类,用户无需开发编程,系统提供的 GUI 策略扩展界面,就可完成对新设备的支持。

3.2.2. 技术优势


平台技术:Java 跨平台技术,服务端可运行在 Windows、Linux、国产麒麟等操作系统上。支持 MySQL、Oracle以及国产金仓数据库。
网络环境:穿透私网,监控私网中的网络设备;可同时部署多个分布式 SNMP 采集器,分别对设备进行监控。
网管扩展能力  :提供开放式开发平台和插件代码,具有全面的二次开发、系统集成、功能扩展能力。提供个性化的定制开发、第三方系统集成服务。
系统稳定能力:支持容错方案以及双机热备方案。
设备管理能力 :支持多种物理链接发现技术。提供了 IP、网络范围搜索等设备发现途径。全面管理当前设备。
监控支持:支持 SNMP、Telent、SSH、WMI、JMX、HTTP、JDBC、ODBC 以及其他管理协议进行监控。

第 4 章 企业服务

4.1. 企业介绍


北京智和信通技术有限公司是行业内领先的智能网管解决方案供应商。公司专注于网管领域,深入网管市场需求,依托自身强大的技术研发实力,以“管控万物,无所不能,无处不在”为产品创新理念,其核心产品-智和网管平台已成为众多用户的最优选择。经过多年的技术沉淀,智和信通已获得超过 16 项自主研发知识产权,并为全国包括电信运营商、大型国有单位、科研院所、设备商、系统集成商、企业用户和开发人员等提供综合网络管理解决方案以及网管平台开发定制服务,已管控设备类型超过 500 种,管理设备数量超过 100 万台。

4.2. 产品服务


开发级服务:提供完善的开发服务,在开发过程中提供开发培训、服务支持以及全面的开发技术文档。
设备对接调测:为用户提供设备对接调测服务,协助用户完成平台的实施部署。
技术支持:提供 7*24 小时专门的技术服务工程师热线电话支持,远程在线支持、现场支持等多种服务支持,即时发布消息邮件和技术公告,定期进行系统软件检测、优化和文档更新等。
故障诊断及排除 :如果客户的系统出现异常故障,接到电话,技术工程师会在第一时间作出响应,及时调配专业的技术工程师根据项目档案提供在线支持或现场进行抢修,为客户快速、便捷的实施诊断和恢复。
系统调优 :技术工程师根据自己的丰富实施经验,针对客户系统性能下降及时找出瓶颈,提出完善的优化方案并付诸实施。及时消除系统隐患,避免造成业务中断;在不增加或减少投资的同时,大幅度提高系统的运行性能和可管理性。
升级质保服务:提供已有版本的问题修复升级,并持续的开发新功能新版本,不断新增功能。
监控管理方法库升级 ( 特色服务 ) :通过下载最新的监控管理方法库,即可实现管理新的设备和更多的监控管理方法。

第 5 章 部分典型案例

5.1. 北京联通 IPTV 网管系统

5.1.1. 项目背景


中国联通是我国三大移动运营商之一,公司主要经营移动通信业务,国内、国际固定电话网络与设施,语音、数据、图像及多媒体通信与信息服务,电信增值业务,IP 电话业务等国家批准的其它业务,以及与通信及信息业务相关的系统集成等业务。IPTV 业务管理平台提供统一业务监控模块,实现对华为能力平台(华为 S9306、S5352、S930、华为 E1000防火墙)、中兴能力平台(中兴 2826、4507、8905 交换机)、播控网关、IPTV 盒端管理平台、IPTV 业务管理平台等平台的统一业务监控,监控内容包括网络、主机、存储、应用、业务数据等。本期 IPTV 扩容目标架构图如下所示:

5.1.2. 核心需求


最终用户 IPTV 统一网管负责对 IPTV 系统涉及的所有网元(包括服务器、交换机、防火墙、存储设备)及系统和应用的故障告警、日志、性能、拓扑、历史数据(保留一年的历史数据)等信息进行集中管理和展现,并能够按时、日、月进行统计和输出报表。
1. 网元数据要求
对于网络中的节点要求获取的信息包括但不局限于设备基本信息(IP、类型、名称等)、设备网卡、网卡流量、CPU 内存、CDN 信息、存储信息、设备性能等参数。
2. 故障告警的要求
提供多种告警通知(声音、短信、邮件等),多种告警分类,登录失败应产生告警通知管理员,告警阈值可调节,可以分权分区域进行告警。
3. 日志管理的要求
除了记录基本的操作外,系统中的各设备都需建立自己的日志文件,定期传递给系统的日志管理,进行集收集、分析和故障告警。
4. 性能管理的要求
实时监控设备和网络的状态,获取有关 CDN 网络运行的信息及统计数据;并能在所收集的数据的基础上,提供网络的性能统计。
5. 集中展现管理
对所管理区域 CDN 及 EPG 全网设备提供网络拓扑结构,提供分级的网络拓扑图像及其相关信息,并根据实际运行情况展现维护和管理网络资源,包括各网元设备。支持资源的查询以及统计功能,并且可以实现资源的自动更新。

5.1.3. 智和信通解决方案


针对北京联通 IPTV 项目的实际需求,智和信通提出了基于智和网管平台定制开发的解决方案。通过开发扩展,让智和网管平台支持各平台通过 SNMP、SNMP Trap、FTP、WebServer 等协议接口方式进行数据上报的采集监控的采集方式,使平台监控模块可直接采集被监控设备信息。
1. 支持 SSH 协议监控主机、CLI、SMI 协议监控存储,JDBC 协议监控数据库、HTTP/JMX 协议监控中间件;
2. 通过 SNMP 协议,自动发现设备上的资源,如网络接口、内存、CPU 与磁盘等信息,通过 TCP 可以发现设上存在的软件服务;
3. 平台通过 SNMP 、SNMP Trap、FTP、WebServer 等协议接口方式进行数据上报,平台监控模块直接采集被监控设备信息;
4. 智和网管平台具备主动的故障监控功能,能从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警,可以用声音、邮件、短信及时提醒网管人员;
5. 提供了多项已定义好的数据对象,用于从设备上采集系统信息、网络信息、交换信息、软件信息、磁盘 CPU资源、流量信息,可以通过曲线图、趋势图等展示性能指标,可以按天、星期、月 、任意时间段查看性能指标变化。

5.1.4. 方案成果


联通 IPTV 网管部署上线后,管理员可以通过 IPTV 网管对网络下的所有网元设备(包括服务器、交换机、防火墙、存储设备)及系统和应用的故障告警、日志、性能、拓扑、历史数据等信息进行集中管理和展现,并能够按时、日、月进行统计和输出报表,方便了管理员对系统的管理,提高了管理的效率。

5.2. 兴唐通信网络运维管理系统

5.2.1. 项目背景


兴唐通信科技有限公司,隶属于大唐电信科技产业集团,是一家面向信息通信产业的高科技公司,是国家数据通信工程技术研究中心的依托单位。大唐电信旗下的兴唐公司承建某单位的全国性业务专网系统,此业务专网包含 CISCO、华为、H3C 的网络设备、Windows 服务器、Linux 服务器、专有服务器、病毒服务器等。该主要面临以下几个难题:一是运维监控,管理人员面对复杂的网络,不能有效掌握全局,这非常不利于管理工作的进行;二是故障处理效率,由于故障的不可预知,管理人员往往在发生故障后才去查找设备,找到设备后又诊断原因,处理效率较低,影响了正常工作的进行;三是对整个企业的网络系统性能管理,如何科学地反映网络系统的性能瓶颈,从而为改善网络优化架构方面的决策提供理论依据。

5.2.2. 核心需求


对专网系统下的设备进行运维监控,能够自动检测到设备的故障并进行及时的通知,能够对整个网络的性能进行监控,以统计报表的形式进行网络状况的分析,找出网络的性能瓶颈。
1. 网管的通用功能,包括设备拓扑、故障管理、性能管理、配置管理以及安全管理等网管软件基本功能;
2. 地图式拓扑图功能,支持网络、服务器、PC 机三大网络区域拓扑图管理;
3. 部门组织结构的导航处理;
4. 对网络中的设备进行监控,包括网络设备、服务器和 PC 机;
5. 病毒和安全的监控。

5.2.3. 智和信通解决方案


在此业务专网的监控中,智和网管平台除了采用传统监控模式对网络设备进行监控外,还采用了业务专网中特有的服务器平台接口和病毒数据库接口,对计算机和服务器的安全、异常、病毒等做深入监控。
1. 智和网管平台已经包含设备拓扑、故障管理、性能管理、配置管理以及安全管理等网管软件基本功能,用户可以直接使用;
2. 智和网管平台使用了与业务系统布局一致的地图导航功能;
3. 可以按全国业务专网→省市专网→区域专网→部门科室→设备→设备监控资源 6 个层次进行直观的监控查看;
4. 在导航图上集成各种故障、安全、异常、警报、监控操作;

5.2.4. 方案成果


智和网管平台部署上线后,网络管理人员通过拓扑图能够对整个网络有个整体的认识,对改善网络,优化架构方面提供了帮助。平台的告警机制,让原来需要花数个小时才能找到故障设备,现在只需要几秒,大大提高了工作效率。

5.3. 深圳联通业务专线监控监控系统

5.3.1. 项目背景


中国联通是我国三大移动运营商之一,公司主要经营移动通信业务,国内、国际固定电话网络与设施,语音、数据、图像及多媒体通信与信息服务,电信增值业务,IP 电话业务等国家批准的其它业务,以及与通信及信息业务相关的系统集成等业务。电信业务持续不断的发展为 IT 系统及其运维提出了更高的要求,运营商必须依赖网管软件对 IT 系统基础环境、网络、主机、应用、数据库、中间件、存储和备份、安全设备等的基本监控。

5.3.2. 核心需求


一套综合网管软件高效管理分部在各地不同区域的设备,包括所有的服务器、网络设备、软件系统在同一界面中统一监控。具体需求如下:
1. 能够自动搜索发现网络拓扑,并基于图形化的方式展现拓扑结构;
2. 发现故障的时间,网管必须要快速发现、通知和处理故障,平均不能低于 30 秒,最大不能超过 1 分钟;
3. 基于运营商规模庞大监控指标严格,要求网管软件具备高频率同时监控大量设备的能力;
4. 提供安全可靠的手段让授权的管理人员能通过互联网在任何地点,任何时间对进行远程管理;
5. 能生成丰富的统计报表。

5.3.3. 智和信通解决方案


针对深圳联通的需求,智和信通为其提供了智和网管平台通用解决方案。智和网管平台全面满足用户设备拓扑、故障管理、性能管理、配置管理以及安全管理的网管需求,解决用户设备管控、功能实现、运营维护和扩展集成的难题。
1. 软件统一监控管理
智和网管平台作为一款综合性网管能够管理和监控所有类型的网络设备,支持分布式部署和采集,保证任务的分解,从架构层面上解决了大型复杂网络的采集性能问题。
2. 拓扑化管理
智和网管平台支持多种自动搜索拓扑技术,提供多种监控视图,包括地理区域图、网络拓扑图、机房拓扑图、设备面板图,能够满足不同层面、不同部门、不同地区人员的管理需。
3. 故障采集与通知
智和网管平台能实时发现故障并通过短信息、告警声、闪烁灯方式及时通知管理员。提供异常状态基线报警和关联报警等功能,并可同时设置多个报警条件,报警及时准确。
4. 海量设备实时监控
智和网管平台可同时对成千上万台设备的海量监控点进行秒级监控,确保海量数据的监控准确性和实时性。
5. 多客户端管理
智和网管平台支持多角色管理员分权管理网络,通过角色与地域权限立体化管理,使各种角度的运维人员责权分明。B/S 客户端采用 HTML5 技术做到可以通过手机、PAD 等登录管理,做到随时随处进行管理。
6. 统计报表
智和网管平台能自动生成不同监测参数组合的报告, 并可自动生成不同类型的图形、 图表、数据表等,支持统计报表的导出和打印。

5.3.4. 方案成果


 在部署智和网管平台之前,只能人工来维护这些庞大的设备之间的关系,导致维护量巨大,在网络变化的时候的,网络设备关系来不及及时更新。部署了智和网管平台后,所有设备都被纳入到网管软件中集中管理,设备出现故障时,做到了数秒内即可发现故障。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69933068/viewspace-2648920/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2019-06-17

  • 博文量
    9
  • 访问量
    6845