系统概述
总论
本建议书全面阐述了中国联合通信有限公司(以下简称中国联通)CDMA WAP网关的网络运营现状及管理方式,对中国联通CDMA WAP网关的网管系统建设的方式、目标,从组网结构、建设目标、管理范围、功能和技术要求等方面进行了描述。
中国联通CDMA WAP网关全网逻辑结构
中国联通CDMA WAP网关是联通新推出的基于CDMA网络的一项增值数据业务,目前已经在北京、上海、广州、重庆等4个城市开通,基本网络逻辑结构如下图所示。
(图1:中国联通CDMA WAP网关全网逻辑结构图)
管理方案配置
管理方案配置主要分内部监测服务器(SiteView Manager服务器和SiteView Submanager服务器)配置、外部监测服务器(SiteView外部监测数据库服务器和 SiteView外部监测Agent服务器)配置。
SiteView Manager服务器主要负责SiteView内部监测数据存储、报告、SiteView Submanager服务器主要负责SiteView内部监测数据监测、采集、报警、SiteView外部监测数据库服务器负责外部监测数据的存储和发布、SiteView外部监测Agent服务器负责外部监测。
(图2: 中国联通CDMA WAP管理方案设备配置图)
联通北京分公司要有4台服务器,分别是2台SiteView Submanager服务器,1台SiteView Manager服务器,1台SiteView外部监测数据库服务器。
联通上海、广州和重庆分公司要各放置3台服务器,分别是2台SiteView Submanager服务器,1台SiteView Manager服务器。
对SiteView Manager服务器、SiteView Submanager服务器、SiteView外部监测数据库服务器、SiteView外部监测Agent服务器的硬件配置要求和系统软件配置要求见本方案的 “实施环境要求”。
中国联通CDMA WAP网关网管建设目标
中国联通CDMA WAP网管系统的远期目标是:建设一个满足“集中监控、集中维护、集中管理”现代化运营维护模式需要的,面向业务的、面向市场的运营维护系统,实现端到端的管理,实现中国联通CDMA WAP网关服务质量的全面提升。
网管系统的近期目标是:
告警和性能数据的集中管理,提高CDMA WAP网关的运维效率;
从网络内外进行集中网络性能分析,实现CDMA WAP网关网络运行质量的量化管理;
实现网络资源的集中式管理,合理配置网络资源,提高资源利用率;
实现中国联通CDMA WAP网关质量的分析和保障,改善网络服务质量,提高竞争能力。
中国联通CDMA WAP网关运营的工作内容主要包括以下三个层次:
中国联通CDMA WAP网关业务管理;
中国联通CDMA WAP网关运营维护;
中国联通CDMA WAP网关网元管理。
其中网元运维管理是客户服务管理、WAP业务管理的基础和保证。运营维护以客户服务、业务经营为核心,为其提供必要的业务运行支撑。运营维护介于客户服务与网元管理之间,主要定位于网络及系统管理程序的实现,包括:网络规划与发展、网络资源管理、网络维护与恢复等。因此,运营维护系统应该服务于以下工作内容:
运行分析
网络监控
网络数据管理
网络资源管理
网络规划与发展
针对以上的管理需求,要对中国联通CDMA WAP网关网络进行综合有效的管理,满足当前和未来的需求,游龙科技的运营维护系统,面向业务和应用,采用智能化多业务模拟的设计思路,灵活的可以快速部署的基于B/S架构的集中式模块管理模式,是完全符合中国联通CDMA WAP网关运营维护目标的网管理系统。游龙科技运营维护系统的基本指导原则为:
基于综合运营维护平台,并有机地针对管理功能的需求,利用其核心开发相应的网络应用管理系统。管理层次结构分为:网元管理、运营维护和WAP业务管理;
在网管系统中涉及到的管理元素不只局限于网络节点、故障、拓扑结构,更提供网络层和业务层的管理和分析,为网络服务质量和业务的开展提供保障。包含对整个网络的性能指标、特征趋势、文件系统、应用系统进行统一的、基于Web的管理;对网络和系统的性能进行有效的分析、检测和容量规划,为网络和业务的发展策略的制定提供信息支持。
游龙科技SiteView网管系统提供全面的管理方法,以管理IP运营网络中的资源,包括路由器、交换机、防火墙,服务器,数据库,WAP业务流程管理等,并提供集中的管理中心,用户可以通过一台中心管理机,就可以看到所有管理的资源。
基于业务的管理策略。用户界面、功能模块要能根据用户的要求灵活配置,以满足管理体制不断完善的需要,针对每个不同用户关心的不同对象,应提供灵活的业务处理视图功能,可以根据用户的具体要求,提供动态的业务处理视图,供用户掌握自己所关心的问题。
开放的运营维护体系结构,具有高度可扩展性的模块化设计,为将来新技术和新业务的引入提供发展空间并能根据用户的实际需要进行有效的变革。
游龙建设中国联通WAP网管系统的优势
作为业界领先的电信级网管软件开发商,游龙科技提供的SiteView具有如下的技术优势:
针对中国本地网络系统的管理模式和需求;
完全自主产权,提供源代码级的技术支持;
为客户提供面向管理和需求的应用定制及开发;
提供符合中国客户的功能强大的管理功能、界面和报表;
高级的安全特性;
在开发及网管应用上采用国际先进技术,遵循统一的规范。
SiteView网管系统可以:
改进服务
通过有效地将中国联通CDMA WAP运营网络中的信息集中到一个独立的协作式系统环境中,SiteView可以明显地改进服务质量。
最大程度地提高工作效率
提供了强大的查找和数据过滤功能,让管理人员可以快速找到所需的信息。相关信息自动地被过滤到管理终端上,使管理人员及时得到最具实效性的关键信息。通过创建个性化的、更具针对性的管理页面,管理人员可以更有效地组织重要信息,实现更准确的定位。
支持未来的扩容和增长
基于HTTP技术,从而具有高度的可伸缩性,交互操作性,可扩展性和平台独立性。
降低管理成本
通过集中化管理和有效集成现有系统,大大降低管理成本。
体系结构
SiteView体系结构
SiteView网管系统是一套内外结合的运营维护系统,它可全面监测联通WAP网关。联通可以根据对内外监测数据的结合分析来诊断系统瓶颈和故障原因。比如当WAP请求性能下降时,通过内部系统可以发现是CPU过载还是内存过载,从而找到系统瓶颈,为升级和更新系统提供决策支持。
(图3:SiteView网管系统工作原理图)
SiteView网管系统是基于Web技术的B/S结构应用系统,它作为服务运行于监测主机上,监视信息平台基础架构及其应用运行状况、发送故障警告、自动生成信息平台性能分析报告。用户可以通过浏览器了解信息平台运行状况、配置系统信息。SiteView信息平台运营维护系统采用高度模块化设计,无需在被监测服务器上安装监测代理,同时提供扩展接口,方便用户与其它系统管理软件实现无缝集成。SiteView网管系统主要由以下几个子系统组成:
基础子系统
基础子系统是整个SiteView系统的基础,它提供一些必不可少的系统基础功能。
用户界面子系统
用户通过用户界面子系统查看系统实时状况、浏览报告。
数据采集子系统
数据采集程序对整个网络运行参数进行全面、系统,深入的采集。
配置子系统
在配置子系统中,管理员根据系统环境和监测方案对SiteView进行配置。
扩展接口子系统
扩展接口子系统使SiteView用户很容易以SiteView为平台,扩展自己的特有功能。
故障管理子系统
故障管理子系统根据用户设定的条件,当故障发生时发送警报至相关人员,让管理者能够及时了解系统发生的故障及其故障原因,并通过系统设置,自动恢复系统的正常运作。
外部网络性能监测
从外部模拟用户访问WAP业务流程过程监测,测试WAP访问的成功率、响应时间等参数,使联通管理人员真实了解客户感受,以便更好地为客户服务,同时根据监测结果也可量化管理业务质量。
网关内部运营维护
在网关机房内部安装SiteView网管系统,监测WAP网关的运行状况,对WAP网关从网络层、服务器层、业务层、应用层等层面立体监测。
(图4:SiteView网管系统模块组成图)
SiteView的技术特点
SiteView的核心设计思想是通过模拟运营维护人员的日常操作,对整个网络的运行状况进行7X24的实时监测和管理。与其它网管软件相比,SiteView具有以下特点:
集中非代理式的监测方式
在被监测对象上无需安装任何代理软件,对被监测对象的性能影响甚微,系统的维护和升级都十分方便,且费用低廉。
可用性更高
需要安装代理软件的其他网管工具需要管理员维护网管机和每台服务器上的代理软件,而SiteView只需要管理员维护网管机就可以了,这样节省了大量的软件安装和配置时间,并节省平时对网管系统的管理时间。
网管系统可靠性更高
代理软件安装在不同的服务器上,每台服务器的资源情况、安装的软件情况都不同,对代理软件的影响也不一样,有可能会和代理软件冲突,造成代理软件不稳定,当代理软件报警时,还需要判断是代理软件的问题还是服务器真正出现问题,这样就降低了网管系统可靠性。
不影响被监测服务器性能
这种监测方式从外部对被监测服务器监测,因为服务器上没有代理软件运行,所以性能几乎没有任何影响。有代理的软件如果代理软件写得不稳定,很可能会形成服务器的负担。
避免潜在安全问题
代理软件一般做得比较简单、不太多考虑安全问题,有可能会造成安全漏洞。
维护升级方便
当发生网管系统需要升级、修补Bug或服务器重新安装、升级,SiteView只需要升级网管机就可以了,而需要安装代理软件的其他网管工具需要升级每台服务器的代理软件,工作量非常大。
综上所述,非代理的网管软件可靠性更高,更加容易使用、维护、升级,同时降低了网管人员工作量和成本。网管人员可以化更多的时间在设计网络系统,提高网络性能,而不是监视它。
跨平台监测
从Win2000环境下可以对NT, Unix,Solaris,AIX,FreeBSD,Unixware,HPUX,OpenServer, Linux等不同平台的服务器进行远程监测,对于客户特殊的操作系统还可根据客户的需求动态定制我们的监测系统。
全中文界面、方便实用
SiteView可以很快的安装部署完毕,操作十分方便,一切从实用出发,采用全中文的界面和帮助,提供本地化的技术支持和服务,只要具备基本网管常识,无需任何专门培训,就可轻松管理你的网络。
无与伦比的可扩展性
SiteView提供的分布式可扩展实施方案,将对系统资源占用最大的数据采集工作分配给其它机器协同完成,从而实现了网管规模的无限扩展,可以更好的满足联通自动化、智能化运营维护的需求。
(图5:SiteView网管系统分布式工作原理图)
(图6:SiteView网管系统分布式实施方案界面配置图)
如上图所示,系统管理员可通过SiteView中央控制系统将不同的数据采集工作分配给其它的SiteView监测服务器完成,从而大幅度降低了SiteView对中央控制系统资源的占用,满足大规模数据采集的需求,实现了整个网管系统线性扩展。
开放式的API接口
系统提供的开放式的API接口,可以让运营维护人员十分方便的添加自身系统独有的特殊监测器,从而满足用户特有的监测需求。SiteView系统以监测为基础,提供的主要是通用监测器,但是由于设备和应用的多样性和特殊性,没有任何网管软件可以提供所有监测器,因此SiteView系统提供了开放式接口,以供用户方便地添加自己的特殊监测器,用户添加的监测器将无缝的与SiteView系统集成,并可以自由地使用SiteView提供的各种服务,如警告、报警等。SiteView开放式接口由动态连接库(DLL)和模版文件(Template)组成。动态连接库可按照SiteView定义的规范由用户或其他软件供应商提供,模版文件可以利用SiteView的模版文件向导(TPLWizard)生成。
(图7:SiteView开放式API接口应用图)
下面是一个用户自行开发的文件监测器的范例:
(图8:SiteView开放式API配置文件范例图)
(图9:SiteView开放式API数据采集程序范例图)
配置文件分为三部分,一个是模版信息,如数据采集文件名、函数名等。二是输入参数,如被监测文件名、所在机器。三是返回值,如返回值含义、类型等。
数据采集程序外层是一个C语言的动态连接库,它包含一个配置文件定义的数据采集函数,函数体主要分三部分,一是解读输入值,二是根据输入值采集数据,采集数据的方法多种多样,可以是exe、dll、batch、Script,语言可以是C、Java、Delphi、VBScript等。三是组织测试结果返回。
完成这些工作后,将配置文件和数据采集程序拷贝到指定目录,就可以通过SiteView配置监测器,自动使用任务计划、报警、报告,非常方便。目前国泰君安、21CN都使用了自己定制的监测器,运行良好。
神奇的故障自动恢复功能
对于那些系统经常出现的常见故障,运营维护人员更可以事先写好脚本程序或CGI程序,一旦满足了事先设定的条件,系统将自动运行指定的脚本程序或Post数据到指定的CGI程序,从而使系统故障自动恢复。
完善的性能监测报告
系统可根据不同层面管理人员的要求,定时自动生成实时的或基于天、星期和月的不同监测参数组合的报告,供您分析诊断系统状况,并可自动将报告发送到指定邮箱。
考虑周全的安全设置,保障用户使用安全
数据采集、传输、存储、读取支持128位HTTPS和SSH加密协议。用户登录系统除通过不同的用户名和密码进行身份和权限控制外,更可设定系统只允许通过指定的IP地址进行远程登录。
采用友好的Web界面
采用B/S结构,用户可在任意地方通过IE浏览器浏览。同时可以方便多名系统管理人员同时对系统进行管理。
1.1SiteView支持的网络协议
WAP网络本身并没有提供完善的管理机制,我们对WAP网络的管理是建立在测量的基础之上的,应用到的主要协议和技术如下:
SNMP协议
支持SNMP V1,支持管理公有MIB、私有MIB,及其TRAP的接收处理
支持SNMP V2c, 支持管理公有MIB、私有MIB,及其TRAP的接收处理
支持RMON1、RMON2
支持各设备厂家自定义的MIB路径
ICMP 协议
支持基于端到端的性能参数采集、统计、分析
支持基于逐跳(hop by hop)的性能参数采集、统计、分析
SYS LOG
支持对设备SYS LOG的管理(采集)、统计、分析
TELNET协议
支持通过Telnet 协议对网络设备的管理、信息采集
SSH协议
支持通过SSH 协议对网络服务器的管理、信息采集
数据库技术
支持多种数据库格式,ORACLE、SQL SERVER、SYBASE、INFORMIX等
XML技术
采用XML技术进行数据发布、数据存储、数据传送等
HTTP协议
支持浏览器-服务器(B/S)的软硬件体系结构,符合现代软件技术的发展趋势
DNS协议
通过DNS协议可以从应用层面验证DNS解析是否正确
RPC技术
支持通过RPC技术对Windows服务器的管理、信息采集
LDAP协议
支持通过LDAP协议对认证服务器的监测和管理
SMTP、POP3协议
支持SMTP、POP3协议通过对邮件服务器的监测和管理
联通网关内部运营维护
1.2概述
SiteView网管系统对中国联通CDMA WAP网关内部的网络、主机服务器系统、数据库系统、网络交换设备、业务和应用进行集中非代理的轮询式监测管理,将中国联通CDMA WAP网关基础架构的系统、设备和业务运行数据进行集中采集、存储、处理并发布。
SiteView通过对CDMA系统网络状况的监测,保证网络能够有效、平稳、安全的运行。在系统运行出现问题时,及时向系统维护工程师发送警报,记录并分析故障事件,通过对数据和事件的采集和分析,向维护部门和管理部门提供充足完整的运行数据,供维护和管理人员根据网络运行状况制定合适的运行策略,使网络运行在最高效的状态下。
1.2.1SiteView网管系统的软件结构
SiteView采用B/S架构,系统按层次分成如下模块:
(图10:SiteView网管系统数据采集工作流程图)
系统结构
SiteView是基于Web技术的应用系统,它作为服务运行在一台微机上,监视系统参数、发送警告、自动生成网络故障分析报告。用户可以通过浏览器了解系统状况、配置系统信息。
该系统分成几个模块:Web控制界面、计划任务、监测器、警告、报告。
Web控制模块
Web控制模块主要用来接收用户HTTP请求、显示当前监测器状态,同时允许用户编辑系统配置信息(如设置新的监测器)。用户一般只能看到这个模块。另外,这个模块需要安全认证,我们通过IP和密码检验两种手段进行安全保证,确保只有指定IP范围内的用户用正确的用户名和口令才能登录。
任务计划模块
任务计划模块运行监测器、发送警告,并根据配置文件在指定时间运行监测器。
监测器模块
监测器进行监测并获取系统状态信息,例如:CPU使用率、磁盘空间、DNS Server、邮件服务器、进程状态等。
监测器分为三类:一类是应用监测器,主要包括邮件服务监测器、DNS服务器监测器、URL监测器、数据库监测器等;另一类是服务器监测器,服务器监测器主要对服务器状态进行监测,支持各种主流操作系统操作系统,如LINUX、AIX、NT4.0等;最后是网络信息监测器,主要包括Ping、Port、SNMP、网络设备接口流量等,它可以对网络设备如路由器、交换机、防火墙等进行监测。
警报模块
根据用户设定的条件通过警报模块给用户发送警报,通过Email、手机短信息、声音、脚本、Post等报警方式将故障及时通知相应系统管理员,以便故障得以及时的处理。其中脚本报警、Post报警更可以自动排除常见故障,使系统恢复正常。脚本报警的概念是当系统发生故障后,系统自动运行预先定义好的脚本,脚本有重新启动机器脚本、重起IIS报警脚本等等,这些脚本可以对系统故障进行自行修复。
报告模块
用户通过报告模块生成的信息报告,就可以客观地分析系统负载发展趋势及繁忙时间点等因素,并且为用户将来升级和规划系统提供了真实数据。同时,它可以每天自动将报告发送到指定邮箱中。
中国联通内部网络结构
中国联通CDMA WAP网关网络分为两层,第一层是北京和上海等网关节点;第二层是重庆和广州等地方网络。
北京和上海的网关节点
中国联通CDMA WAP网关在北京和上海有两个比较大的网关节点,网关节点处部署有较大的WAP机房。
(图11:中国联通CDMA WAP系统北京节点图)
CDMA WAP网关二级网络
中国联通目前在重庆和广州等地的用户通过联通的广域网连接到北京、上海的网关中心使用WAP服务。
(图12:中国联通CDMA WAP系统网关二级网络图)
运营维护
概述
联通WAP网关有大量的网络设备, 包括路由器,交换机和防火墙,这些设备负责广域网中的数据正常传递、总部和分部的联系。一个WAP请求需要经过防火墙、路由器、Load Balance等一系列网络设备才能完成,一旦出现网络故障,整个应用系统有可能崩溃,因此对它们的监测非常重要。为保证实时发现故障,对网络设备的监测主要采用SNMP、RMON、ICMP、SYSLog等多种协议和技术,采用轮询和事件处理等机制。主要监测这些设备的下列指标:
可用性、连通性。
设备本身的性能和网络的性能,如CPU使用率、流量、丢包率等。
安全性,如是否有异常日志及有没有人非法登陆。
通过多角度、多层次的监测从而保证网络稳定、可靠,一旦发生系统故障,可通过手机短信、E_mail、声音等多种方式及时通知管理员,在网络故障影响到最终客户之前隔离故障、解决问题。
通过轮询机制SiteView向维护部门和管理部门提供充足、完整的运行数据,生成丰富、有效报告,供维护和管理人员根据网络运行状况制定合适的运行策略,使网络运行在最高效的状态下。也为中国联通WAP网络提供网络的容量规划、趋势分析以及数据的优先级方面的信息。
运营维护方案
3.2.2.1网络应用拓扑
SiteView的网络应用拓扑可以直观反映系统基础架构及其应用的运行状况,与其它的网络拓扑不同,它的拓扑节点上不仅可以表示为一个实际的网络设备,如服务器、路由器、交换机、防火墙等,还可以表示一个实际的应用服务,如WWW服务,数据库服务,邮件服务等。如果拓扑节点所对应网络设备或应用服务发生故障,则该拓扑节点以红色或黄色标识。通过网络拓扑图用户可以迅速发现哪个网络节点发生故障,并进行处理。SiteView适用于各种复杂的网络环境。不管是简单的局域网,还是遍布全国的庞大的广域网或存储局域网,SiteView都可根据你的需求生成各种相应的网络拓扑图,并且可以十分方便地在各个拓扑图间进行切换,从而使复杂的网络信息系统管理工作变得直观和轻松。
网络应用拓扑绘图模块综述
此模块部分是在微软的Visio2002基础上开发的,安装后经过环境参数的配置,就会出现在Visio2002的菜单中。由于Visio2002已经是微软开发的一种非常成熟强大的绘图工具,所以将SiteView的拓扑插件集成在Visio2002中,更加可以发挥强大的所见即所得的绘图功能。并且SiteView自带超大型图库,能逼真的标识不同厂家、不同型号的服务器和网络设备。利用Microsoft Visio这种成熟的软件,经过简单的拖拽就能十分方便地生成各种反映网络设备关联状况的美观的网络拓扑图,也可直接导入现有拓扑图或网络示意图,从而使复杂的网络环境变得直观和清晰。一旦网络环境发生变化,也能十分方便地作相应的调整。
(图13:SiteView 网络应用拓扑图)
公用模块库
SiteView的公用模块库文件分为两类,一类是后缀为.vss的模具文件,一类是后缀为.vsl的宏文件。在模具文件中SiteView提供了大量的设备图形,能够逼真形象的标识不同厂家、不同型号的服务器和网络设备。宏文件用来响应用户添加拖拽图形的时间和发布绘制好的拓扑图到SiteView。
网络应用拓扑特性
保证网络信息平台持续高效运行随着信息化的普及,网络信息平台将合作伙伴、供应商、客户和员工有机的结合起来。企业经营的成功与否,越来越依赖于网络系统的正常运行和高可用性,系统出现故障或响应时间过长,将对企业的整个经营活动产生巨大的影响。因此,高效的网络与系统管理不仅是必需的,而且已经成为企业成功的先决条件。
先进的可视化功能SiteView的网络拓扑功能使繁杂的网络信息平台运营维护管理工作变得直观和方便。系统的管理人员通过一个基于浏览器的用户界面,可以一目了然地了解整个异构系统、网络设备及其应用的运行状况。 SiteView不仅可以用来保证网络基础架构的高可用性,还可以用来追踪各种企业关键网络应用的运行情况,查看各种设备之间的关联并在复杂的IT架构中漫游,从而实现方便高效的管理。
(图14:SiteView 网络应用拓扑特性图)
适用于各种复杂的网络环境。
不管你是简单的局域网,还是遍布全国的庞大的广域网或存储局域网,SiteView都可根据你的需求生成各种相应的网络拓扑图,并且可以十分方便地在各个拓扑图间进行切换,从而使复杂的网络信息系统管理工作变得直观和轻松。
(图15:SiteView 网络应用拓扑目录列表)
后台数据与网络拓扑的完美结合直观反映整个系统运行状况。
网络拓扑图一旦生成,SiteView会自动查找、添加与相应的服务器、网络设备、IP地址、端口相关的各种监测参数。单击网络拓扑图上的任意组件,与该组件相关的监测参数的运行状况都将直接显示出来,点击任意监测参数可以查看该监测参数的历史数据和实时报告。网络拓扑图中任何组件的监测参数中只要有一个达到了事先设定危险或错误的条件,该组件颜色就会变成相应的黄色或红色,系统管理人员从网络应用拓扑图可一目了然地了解整个网络信息平台的运行状况。
(图16:SiteView 网络应用拓扑目录列表)
面向应用的网络拓扑。
SiteView的网络拓扑功能不仅可以用来直观地反映服务器、网络设备等网络基础架构的运行状况和网络状况,而且可以直观地显示数据库、Mail、FTP等等各种网络应用的运行情况,从而帮助系统管理人员从应用层面确保整个网络信息平台的正常运营。
(图17:SiteView 网络应用拓扑图)
3.2.2.2拓扑自动发现
综述
自动发现是SiteView拓扑部分的另一块功能,它能够自动识别设备类型,包括各种服务器类型、路由器、交换机、等等,以及它们之间的关系,并且自动将它们存储到公用对象库中对应的类中,通过图形管理界面能够直观的查询网络拓扑关系自动发现顺序有三种发现方式,包括ICMP、SNMP、CDP、其中ICMP是按照IP地址,将子网内的各个主机节点逐一发现,它的发现内容最全面,但是耗时也是最长,视子网内主机数量而定。SNMP和CDP主要是用来搜索网络内的路由器、交换机等网络设备。
拓扑自动发现的两个阶段
SiteView拓扑自动发现第一阶段是勾践网络基本框架阶段——从某一路由器出发,将与该路由器相连接的子网和其他路由器搜索出来,构建出网络框架。SiteView拓扑自动发现第二阶段丰富完善网络结构阶段——从已经搜索出的网络设备继续延伸搜索,包括子网中的主机,直至将整个网络拓扑图搜索完整。
主机服务器管理
概述
SiteView通过高度集成的服务器管理模块对WAP1.2和WAP2.0网关系统内的各主机服务器的硬件设备及操作系统进行监控管理和性能管理,采集服务器的CPU、内存、硬盘、网卡等硬件的关键运行参数,以及软件和应用程序的进程、服务、端口等的运行状况,对系统日志进行分类扫描查询,对于影响服务器运行性能的故障事件进行及时告警,采取响应的处理措施,保证服务器的正常安全运行。
(图18:SiteView主机服务器监测模块图)
中国联通WAP服务器构成
中国联通有许多服务器,以北分的WAP服务器清单为例:
中国北京联通IDC WAP服务器清单:
主机服务器管理方案
SiteView服务器管理系统内置有60多种监测器其中涉及服务器相关的监测器有20多种,其中主要包括服务器CPU、内存、磁盘空间、服务、进程、网卡、接口状态、错误日志、NT事件日志、UNIX LOG文件、文件和目录等,使用这些监测器可以从多角度多方面对服务器的运行状态进行监控。
使用CPU监测器可以持续监测CPU的使用率,从而根据CPU的繁忙情况判断服务器运行状况。使用内存监测器,可以监测服务器当前正在使用的内存数量及剩余内存数量,通过使用内存监测器可以很清楚的了解到当前在服务器上内存使用的情况。
通过使用磁盘空间监测器可以了解指定磁盘的使用情况,当磁盘使用量达到或超过阀值时及时的通知管理员增加硬盘容量或对硬盘进行整理。
通过使用服务监测器,可以很轻松的监测指定的服务是否正在运行,对发生故障停止的服务还可以使用脚本报警将特定的服务重新启动。
使用进程监测器,可以对当前正在内存中执行的进程进行监测,如果有使用CPU和内存特别高的进程,可以立即发现。
SiteView中包含的这些监测器每个都有其特点,都是针对服务器运行状况的不同方面进行监测。综合运用多种监测器可以完美的监测服务器的运行状况。
数据库系统管理
概述
数据库系统对于网络应用的正常运行至关重要,它是一切网络应用的基础。对于北京联通CDMA WAP网关,数据库系统对于业务CDMA WAP业务的正常运作,明显是不可或缺的。
针对北京联通ORACLE数据库系统,使用SiteView产品可以从以下几个方面进行监测来保证数据库系统的正常工作:
应用可用性监测
系统资源占用监测
应用自身性能指标监测。
数据库系统管理方案
应用可用性监测
SiteView产品的数据库监测器可以直接通过向数据库系统发送SQL语句,从而等待数据库系统的响应时间来决定数据库的性能。针对北京联通ORACLE数据库系统,设置几个数据库监测器,让监测器定时执行一些与重要 业务相关的SQL语句,如果响应时间超过阀值,表明Oracle数据库出现了问题。
系统资源占用监测
对于ORACLE数据库系统,1512端口是ORACLE数据库服务器与客户端通信的端口,一旦该端口出现问题,客户将无法访问数据库服务器。通过SiteView产品中的端口监测器可以监测某一端口是否可以连接,这样可以实时地了解数据库服务器的工作情况。
另外可以通过监测Oracle服务器的进程来决定是否数据库服务器是否工作正常,Oracle数据服务器本身有4-5个关键进程,这些进程一旦出现问题,Oracle的某个功能将会不正常,但不一定影响整个Oracle,它对Oracle的影响是比较隐蔽的,管理员如果不监测这些进程,很难发现问题。通过SiteView产品的进程监测器就可以实时地了解数据库服务器关键进程的运行情况。
应用自身性能指标监测。
通过Oracle性能监测器,可了解到Oracle本身状况,如Open Cursor等;这对调整系统性能很有帮助。
网络交换设备管理
概述
针对联通网络拓扑,骨干网络主要由Cisco的网络交换以及路由设备构成。大致情况如下:
骨干网通过一台Cisco3640网络路由器与北京IWF相连,C3640又通过两台F5的负载均衡设备与两台Catalyst 3550交换机相连,而在两台C3550交换机下面则连接了北京联通的各种业务平台。
网络交换设备管理方案
网络设备可用性
监测网络设备可用性最简单的方法就是网络设备对Ping或者SNMP Get请求的响应。SiteView产品通过监测器很好是实现了这两种监测方式。通过Ping监测器你可以知道监测点到被监测设备的连通性、网络设备的响应时间以及连接的丢包率,这样可以有效地反应了你的网络状况的好与坏。尽管Ping监测器有时并不能真实地反应网络的真实情况(网络设备不能可能是你的网络设备跟本不支持对Ping请求的响应),但你却可以通过测试网络设备对SNMP GET请求的响应来决定网络的连接状况以及SNMP代理程序的可用性。
SiteView产品中还存在另外一个测试远程设备连通性的监测器Proxy Ping,通过Proxy Ping监测器,你可以通过中间一台网络设备(支持CISCO-PING-MIB)测试该设备到远程另外一台网络设备的连通性,这样你在本地就可以知晓远程两台网络设备之间的连接性。
(图19:SiteView Proxy Ping工作图)
如上图所示,如果监测机到R1路由器的链路是正常的,那么我们就可以使用运行在监测机上的Proxy Ping监测器通过R1路由器的SNMP代理(支持CISCO-PING-MIB)测试R1到R2路由器链路的连通性。
网络接口的可用性直接反应了该接口所连接的链路是否工作正常。使用SiteView的接口状态以及接口丢包率监测器你可以实时地了解网络设备接口是否工作于正常状态,根据接口丢包率你可以及时地获悉是否接口发生了严重的故障。
网络设备的性能
网络设备的性能参数主要包括网络设备的CPU负载、内存使用率以及剩余内存空间等。针对这些性能参数,SiteView中主机采用两种方式进行性能数据的采集,其一是远程登录(Telnet),在这种方式中,SiteView通过模拟终端用户的行为直接登录到网络设备,过网络设备操作系统提供的命令来查看设备的性能参数,这种方式的优点是直观,完全符合运营维护员的行为。其二是通过SNMP来获得性能参数数据,这种方式的优点的占用网络资源小,速度快。
网络流量管理
网络流量管理主要是对流经北京联通IP网络的数据流量进行管理。通过对网络流量状况的监测,保证网络能够有效、平稳、安全地运行。并通过对网络设备流量数据的采集和分析,向维护部门和管理部门提供充足、完整的运行数据,供维护和管理人员根据网络运行状况制定合适的运行策略,使网络运行在最高效的状态下。
SiteView网络流量监测器是一个面向IP宽带网络、基于实用的信息采集和传输平台。通过SNMP协议,对网络进行实时业务流量分析,通过各种数据指标、性能报表和性能趋势图,为北京联通IP网络提供网络的容量规划、趋势分析以及数据的优先级方面的信息。
为确保SiteView流量管理能够实时、准确地反应北京联通IP网络的流量情况,SiteView提供如下几种流量分析方式:
1)流量即时数据,提供及查询最近2小时的网络5分钟即时流量
2)流量小时数据,提供及查询最近48小时的每小时流量情况
3)流量每天数据,提供及查询最近9周的每天流量情况
4)流量每月数据,提供及查询最近10年的每月流量报告
5)对于上述流量情况(包括流入/流出平均速率、流入/流出峰值速率、流入/流出字节数、流入/流出平均带宽利用率和流入/流出峰值带宽利用率),可以按照分行和时间等参数灵活查询,提供实时流量趋势图和流量报表,报表可以保存为EXCEL和XML格式,支持下载和打印操作。)
网络业务分析
SiteView通过CISCO路由器的NETFLOW协议,可以统计有固定IP PORT的业务的流量情况,实时地了解网络中的业务分布情况:
骨干网CDMA WAP流量分析
1) 业务流量小时数据,提供及查询最近48小时的每个业务的每小时流量情况;
2) 业务流量日数据,提供及查询最近9周的每个业务的每日流量情况;
3) 业务流量月数据,提供及查询最近10年的每个业务的每月流量情况;
4) 对于上述流量情况(包括流入/流出平均速率、流入/流出字节数),可以按照分行和时间等参数灵活查询,提供流量报表,报表可以保存为EXCEL和XML格式,支持下载和打印操作。
网络设备事件管理
SiteView系统中有接收SNMP TRAP、SYSLOG网络事件的功能。SiteView在接收到网络事件后,可以按照相应的格式进行分析,从而得到相应的事件信息。
针对SNMP TRAP,它主要包括以下的信息:
企业:网络事件的企业对象标识符
代理地址:发生网络事件的SNMP代理地址
TRAP类型:发生事件的标准类型(0~6)
特定代码:发生事件的厂商特定类型(TRAP类型=6)
时间戳:发生事件时代理的启动时间
对象标识符:发生事件的对象标识符
标识符对应值:发生事件对象标识符的值
针对SYSLOG,它主要包括以下的信息:
时间戳(TimeStamp):发生事件的时间
事件来源(Facility):发生事件的设备
事件程度(Severity):事件的严重级别
事件描述(Textual Description):事件描述信息
根据上面的不同信息,SiteView提供不同字段的查询报表,做到报表的任意定制。
另外,SiteView还有转发网络网络事件的功能,它可以将收到的SNMP TRAP、SYSLOG通过各自的协议转发到其他的系统,以方便与其他系统的集成。
SiteView对RMON的支持
RMON是一项基于SNMP的技术。RMON的所有功能是基于存在于网络设备中的一个专用数据集合,而通信协议采用SNMP。目前RMON有两个版本,RMON、RMON2,RMON覆盖了ISO七层模型的一至三层,而RMON2覆盖了ISO七层模型的包括四层在内的上层功能。
目前大多数的网络设备支持RMON,它主要由四个组组成:statistics, history, alarms, and events。其中etherStats组提供的第二层流量统计数据可以做基线(baseline)统计,也可以统计单播、多播以及广播的数据流量。
对于RMON,它最强大的功能是由alarms以及event组提供的阈值设置技术,它能够让你配置网络设备当设备出现反常情况时通过SNMP TRAP通知你。
目前SiteView支持RMON以及RMON2,你只要配置好了RMON模块,SiteView就可以完成对网络设备的自动监测。
应用管理
中国联通WAP应用概述
中国联通WAP网关集成了大量应用软件,这些应用软件如果出现故障、配合不好,即使硬件性能再好也无法提高WAP响应速度,增加用户满意度。目前WAP网关主要集成了Portal、计费网管、HS OLAP、OpenWave、DotNet、Radius等应用,只有将这些应用全面监测起来,才能全面了解系统运行状况。
WAP应用管理方案
针对WAP应用可以从三个层次监测:
应用可用性监测
模拟真实业务操作,监测是否可以正常完成业务。
系统资源占用监测
监测服务是否正常运行、对系统资源占用情况。
应用自身性能指标监测
监测业务系统的性能参数,为调整系统性能提供参考。
通过以上三个层次的监测,可以全面、真实了解应用的运行状况,一旦发生故障就可迅速发现故障根源。下面是被监测的应用内容:
3.6.2.1 Portal监测
Portal前端是一个Web Server,联通的Web Server有IIS、TOMCAT两种。
1,IIS监测
应用可用性监测
监测8个关键的URL,监测DNS时间、TCP时间、第一字节时间、下载时间、成功率。
监测几个关键的业务流程
系统资源占用监测
监测80端口。
通过服务监测器监测World Wide Web Publishing Service和IIS Admin Service占用的CPU、内存。
应用自身性能指标监测
通过IIS监测器、ASP监测器来监测IIS性能,监测参数有请求速率、错误请求数、当前连接数、脚本运行错误数等。
2,TOMCAT监测
应用可用性监测
监测8个关键的URL
监测几个关键的业务流程
系统资源占用监测
通过服务监测器监测TOMCAT Service占用的CPU、内存。
监测80端口。
应用自身性能指标监测
监测TomCat的性能参数。
3,监测HSExportMonthCDR进程占用的CPU、内存
4,监测HSOmpCDRService进程占用的CPU、内存
5,监测HSSplitCDRService进程占用的CPU、内存
6,监测JNT进程占用的CPU、内存
3.6.2.2 计费网关监测
计费网关是WAP业务的关键模块,因此对其监测工作非常重要。
应用可用性监测
和联通沟通,共同讨论监测方式。
系统资源占用监测
通过服务监测器监测Billing Gateway的进程占用的CPU、内存。
监测Billing Gateway绑定的端口
应用自身性能指标监测
应用程序日志监测,对应用程序产生的日志文件进行分析,发现有满足设置条件的错误报警。Billing Gateway检查自身发现异常后会在自身日志文件中写入一些错误事件,监测Billing GateWay应用程序日志中的错误事件对及时发现故障非常有帮助。
配置文件监测,采集配置文件、如果文件发生变化报警。一般配置文件在系统稳定后基本不会调整,如果发生变化很可能被黑客攻击、修改。
3.6.2.3 HS OLAP系统监测
系统资源占用监测
监控系统各项后台服务进程,保证服务正常运行。
3.6.2.4 OpenWave监测
应用可用性监测
向OpenWave发送WAP请求,监测请求是否被正确响应并及时返回、响应时间。
系统资源占用监测
通过服务监测器监测OpenWave的进程
监测OpenWave绑定的端口
应用自身性能指标监测
集成OpenWave的SDK软件包,采集OpenWave的性能参数。该功能实现需要和OpenWave公司合作。
3.6.2.5 DotNet FrameWork监测
应用自身性能指标监测
监测Dot Net性能参数,如Bytes Jitted/sec、of Exceps Thrown/sec、Allocated Bytes/sec等。
3.6.2.6 Radius监测
应用可用性监测
采用Radius监测器发送radius认证请求,监测请求是否被响应、响应时间。
系统资源占用监测
通过服务监测器监测Radius的进程占用的CPU、内存。
3.6.2.7 Squid代理服务器监测
应用可用性监测
采用URL监测器,使用squid做代理访问一些门户网站,如果这些门户网站都无法访问,squid代理服务器可能出现问题。
系统资源占用监测
监测squid系统进程或服务占用的CPU、内存。
监测squid绑定的端口
监测分配给squid的内存、磁盘空间。
应用自身性能指标监测
应用程序日志监测,对应用程序产生的日志文件进行分析,发现有满足设置条件的错误报警。
SNMP监测,通过squid自身的SNMP Agent,可以监测squid的healthy set of protocol, network, ICP peer and client counters.
采用性能监测器监测系统的HTTP, ICP and DNS request rates、hit ratios、median service times、 mean object size、 CPU、 memory、 swap 和 file descriptor usage等指标。
3.6.2.8 Email系统监测
应用可用性监测
采用Email监测器,模拟真实用户发送和接收一封信件,看是否能真正成功来证明系统是否正常。
系统资源占用监测
监测25、110两个端口。
监测Email相关的系统进程或服务占用CPU、内存。
应用自身性能指标监测
根据Mail Server不同,二次开发监测器监测Mail Server的性能参数,目前已有Exchange Server性能参数监测器。
3.6.2.9 LDAP监测
应用可用性监测
通过LDAP监测器发送LDAP请求,支持内容匹配和LDAP过滤,监测响应时间、成功率。
系统资源占用监测
监测LDAP服务器的服务占用的CPU、内存。
3.6.2.10 特殊应用监测
针对新增加或特殊应用,采用开放接口开放新的监测器对应用进行监测。
故障定位及告警
概述
SiteView故障诊断与管理功能可以根据用户设定的条件,当故障发生时发送警报至相关人员,让管理者能够及时了解系统发生的故障及其故障原因,并通过系统设置,自动恢复系统的正常运作。SiteView可以通过
手机短信息
电话(自动拨打值班电话)
声音
远程声音
SNMP Set
SNMP Trap
自动恢复脚本
启动/禁止监测器
远程声音
等多种方式及时通知管理员或自动恢复系统。
故障管理方案
SiteView故障诊断与管理功能包括以下六大部分。
告警发送
基线BaseLine动态报警
故障连锁诊断
故障确认
关联报警
故障自动恢复
3.7.2.1 告警发送
SiteView对网站进行24×7的实时监控,一旦出现性能故障或性能指标达到报警标准,警报便会通过界面颜色显示、声音、邮件、手机短信息等方式自动发送,及时通知相关管理人员在故障发生前及时消除故障隐患。丰富的报警设置允许自定义报警的条件、升级、相关性以及报警分组,帮助管理人员快速查找报警发生的原因。以下是SiteView在探知故障发生后同步发送告警功能的设计。
3.7.2.2 BaseLine(基线)告警
Baseline指的是系统的基本值,含义是历史数据的平均值和平均方差。通过历史数据,按照系统运维人员的要求动态生成基线阀值模型,监测数据超出模型范围将认为异常,发送报警。它可用来帮助系统运维人员快速发现流量异常,防范黑客入侵。
(图20:SiteView统计基线阀值模型图)
上图中绿线是一个时间周期的历史数据平均值,普通报警是设置一个固定阀值,如黄线,而基线报警的阀值是动态变化的(红色间断线),所以BaseLine报警比固定阀值报警更加合理。
3.7.2.3故障连锁诊断
当系统发生故障后,由于系统复杂―——几十台路由器、服务器,用户很难立刻根据表面现象判断出故障的真正原因,用户会根据经验一步一步地检查故障,如ping一下路由器、检查一下系统CPU使用率、内存使用率等。这样手工检查的缺点一是对网管人员要求高,普通网管很难胜任该工作,二是随意性强、没有规范,很容易漏掉一些关键点,三是效率低,网管人员一边思考、一边检查,耗时长,而网络瘫痪时间越长,企业的损失就越大。
针对此情况,SiteView提供工具将此连锁诊断过程程序化,一旦系统出现异常,SiteView将自动启动连锁诊断功能,实现零时定位故障,帮助用户快速查找故障根源。用户可以根据自己的经验对某个应用或某台设备定义好连续诊断的过程,一旦该应用或该设备运行异常,SiteView将自动启动连锁诊断程序,对可能产生故障的原因逐一进行确认,直至找到故障根源。由于过程自动化,非常规范,不会漏掉一些关键步骤,使检查更准确,并且这个连锁诊断过程可逐步积累,形成知识库,即使是普通网管人员也可以轻松使用。流程诊断模块使故障诊断更加快捷、方便、准确。
(图21:SiteView故障连锁诊断图)
3.7.2.4 故障确认
当系统发生故障时,SiteView会自动重新执行一次对该系统组件的数据查询,以确认确实是发生了故障,同时,SiteView故障确认按钮会凸起来,相关系统管理工程师可以将处理故障的方法、过程等相关信息填入故障确认注释框里,SiteView会将该信息自动进行存储。以后遇到同类型的故障时,工程师可以通过查看故障确认日志获得相关参考信息。
(图22:SiteView故障确认功能图)
3.7.2.5 关联报警
用户可以根据经验自己定义故障的诊断过程,SiteView提供工具将此过程程序化,一旦系统出现异常,SiteView将自动启动连锁诊断功能,实现零时定位故障,使故障诊断更加快捷、方便、准确,而且随着诊断过程的逐渐积累,会形成知识库,网管人员之间知识共享,即使是普通网管人员也可以诊断高级故障。
父子依存关联报警设置:
If A occurs and (B, C, D) occur, then report A
比如: Ping一台服务器错误报警,取消其它服务器上的应用报警
报警值班人员管理
在不同的时段,将报警通知给不同的值班人员
报警事件确认
If A occurs and (run verification script), then report A or null
报警升级
重复次数阀值关联报警设置 (见附图)
If count (A) occurs in time interval [t1, t2], then generate C.
比如:第一次报警,通知经理和一线网管工程师,故障发生
第二,三,四次报警,只通知一线网管工程师,故障处理中
第五次报警,通知经理和一线网管工程师,故障处理时间太长,引起管理层对故障处理的重视
(图23:SiteView关联报警图)
3.7.2.6告警产生后的自动恢复
SiteView的故障自动恢复功能对运营维护人员具有非常重要的意义。当出现一个临时性的标准故障时,自动恢复功能就会执行脚本或POST数据到指定的CGI程序,使服务恢复正常。比如,把一个挂起的服务器操作通过自动启动功能而使它重新运行;把一个耗费系统过多资源的进程停止或者重新启动。
外部网络性能监测
概述
SiteView外部监测系统是游龙科技开发的一套功能强大的网站外部应用监测系统。本系统在各地分布有Agent(代理监测端),可以从各个Agent监测指定的URL的响应时间、服务成功率、错误统计、整体性能等,帮助您从多个侧面了解该WAP的响应情况、对外服务情况以及网站内容的可访问性。
SiteView外部监测系统结构
SiteView外部监测系统架构如图一所示,整个系统建立在TCP/IP网络中,下面分别说明各部分的名称及其功能,图中:
A --- 分布在各地的智能代理
它们已经建立了到INTERNET的物理连接,目前运行的操作系统主要为Windows NT和RedHat Linux。
C --- DragonWatch系统客户机
通过它可以直接以直观的方式将性能数据显示在客户的浏览器中。目前游龙网只支持Internet Explore浏览器。
D --- DragonWatch系统的中心数据仓库
负责性能数据的存储和分析处理,数据仓库数据管理系统为Microsoft SQL Server 2000。
S --- DragonWatch系统服务器
负责处理数据仓库中数据并生成方便直观的图形数据;定期启动代理以及接收代理数据。
(图24:SiteView外部监测系统结构图)
SiteView外部监测系统主要包含如下特色:
监测、警报、鉴别和诊断网络性能故障
游龙科技的SiteView外部监测系统专门针对客户对网络性能管理的需求而设计。SiteView外部监测系统通过模拟终端用户对网站进行24X7的实时监测,并从网络结构(防火墙内外)方面来诊断网络性能问题产生的根源。
24×7对终端用户体验(QoE)进行实时监测
SiteView外部监测系统使用两种方式来精确测量终端用户的实际体验:通过监测实时用户登录网站的响应时间;通过模拟用户在您的网站上进行复杂的业务流程操作。SiteView外部监测系统不仅检验用户是否正在接收正确的内容,而且通过对业务流程响应时间的测量来判断它们是否超过客户设定的标准。
针对性能故障的报警系统
当SiteView外部监测系统发现到一个性能故障时,它将通过记录到日志、E-mail、短信息等方式报警。这种可设置的系统能够集成到现有的警报发布程序中,当网络性能一旦发生问题时它们便以发布消息的方式通知有关人员,使系统因故障而带来的风险最小化。
量化由于网络性能问题而带来的商务影响
SiteView外部监测系统不间断地报告详细而精确的实时用户信息,通过这些数据,您便可以查找受具体网络故障而影响的用户的精确的时间和位置,从而可以对因网络性能问题带来的商务影响进行量化
鉴别性能故障根源
SiteView外部监测系统通过分析终端用户遇到的性能问题来寻找其在网络结构中的原因,以便相关人员能有效地解决问题。
发布性能和可用性事件的预先警告
SiteView外部监测系统随时监测您的网站以确保它正按照期望的服务水平正常运行。一旦出现故障,警报被将及时发送以确保您在您的用户之前知道故障。
进行实时故障侦查
SiteView外部监测系统能够在任何时间、任何地点通过浏览器显示详细的实时状态信息。您从任何地方都能看到最新信息和历史趋势分析。
提高服务水平
使用SiteView外部监测系统的性能统计分析,您能根据您用户的实际体验来定义您的服务水平级别。此外,您能检验这些服务水平级别并证实您的系统性能已经达到要求。
外部网络性能监测方案
响应时间
平均响应时间表示每个业务流程在一定时间段(年、月、日、时)的响应时间。响应时间越快表示服务质量越高,网络情况稳定,主机情况也稳定。通过下图可以看到HTTP方式比WAP方式访问网站明显快。
(图25:SiteView平均响应时间比较图)
(图26:SiteView平均响应时间不同城市比较图)
上图是一个业务流程在不同城市的平均响应时间,通过对比可以发现城市之间的性能差异。
服务成功率
服务成功率报告显示在一定时间段访问成功率。服务成功率代表了网页或WAP网页的服务成功率,从这个参数可以看出指定的URL的服务情况,根据此参数可以相应的判断服务的运行情况。
(图27:SiteView服务成功率图)
上图是两个业务流程在一天的服务成功率,可以看到该天yahoo网站出现问题。
故障分析
SiteView外部监测系统包含非常强大的故障分析系统,对于每个Agent监测的数据都有详细的记录,通地SiteView外部监测系统的故障分析模块,可以很方便的查看所有错误数据,并可以按字段进行排序。同时故障分析模块也支持使用过滤功能将某一范围内的错误数据过滤出来以便于分析。
(图28:SiteView故障分析图)
上图是实际的故障分析界面图,错误列表,列出时间、业务流程、错误原因,等项帮助用户分析错误,确定错误原因,及时的处理掉发现的错误。
页面分析
SiteView外部监测系统的核心是其强大的页面分析模块。页面分析模块用于分析处理网页上各个组件的下载时间,TCP连接时间,头时间和数据下载时间,把访问一个网页的过程分解成各个精确的组成部分,通过对这些组成部分的分析,很容易查找到存在的错误。
(图29:SiteView页面分析图)
上图是页面分析报告,列出每个业务流程访问过程中域名解析、服务器连接、第一字节包、重定向、数据下载各花费的时间。如果某一部分占用时间过长则表明其遇到错误或非正常情况,可以结合故障分析功能查找其真实错误原因。
路由追踪分析
路由追踪功能实现了TraceRoute的功能,SiteView将从各个不同的Agent向目的地址TraceRoute,并将返回的数据保存在数据库中,用户将使用SiteView的统一报表界面来查看TraceRoute的结果。
网页组件分析报告
SiteView网页组件分析报告能使管理人员确认影响缓慢的网络性能的某一个单独的页面组件,如一个大的图片,广告条或第三方服务器的数据。对每一个组件(gif, jpeg, HTML text, etc.),管理人员能看到DNS 时间、TCP/IP时间、第一字节时间、下载时间、HTTP错误,网页组件大小和重定向信息。
(图30:SiteView网页组件分析图)
数据发布
原始数据管理
SiteView的原始数据将以文本形式保存在磁盘中的固定目录中,默认是C:\siteview\log目录,每次监测的数据将占用数据文件中的一行。默认情况下SitView的愿始数据将被保存80天,如果超过此天数,需要到选项中设置。在选项中设置保存历史天数的界面如下图所示:
(图31:SiteView原始数据管理图)
1.3报表管理
SiteView包含强大的报表功能,其中分为小报表,快速报表,综合报表三部分。小报表表示最近一段时间内被测系统的运行情况,快速报表相对于小报表要复杂许多,有多种选项可以选择,综合报表比快速报表还要复杂和强大,综合报表支持指定时间自动生成,可以在指定的时间自动生成报表并发送到指定的邮件,同时结合相应的过滤选项还可以实现数据过滤的功能,加强报表的针对性。下图显示了一个小报表的图像,小报表是实时报表,不会将报表内容保存到硬盘上。
(图32:SiteView报表管理图)
下图显示了快速报表的定义页面,可以看到快速报表支持更多的参数定义,能够生成各更为复杂精确的报表内容。注意快速报表的内容也是否保存到硬盘上。
(图33:SiteView快速报表配置图)
快速报表提供了快速生成报表的工具,很方便即时查看系统运行状况。
综合报表定义界面更为复杂,同时综合报表将会保存在磁盘上以备日后查询使用,综合报表的定义界面如下(与快速报表非常类似,但有定时自动生成的功能):
(图34:SiteView综合报表配置界面)
1.4数据发布管理
SiteView新的报表工具基于强大的ASP.NET平台,支持用户定义各种虚拟设备,每个虚拟设备可以配置各自的报表模块在不同的位置。总的报表面板包含三部分内容,左面板,中面板和右面板,三个面板之间的报表模块可自定义所在位置。通过面板边上的图板可以方便的执行移动的操作。
(图35:SiteView数据报表管理配置界面)
SiteView强大的数据发布功能支持多种自定义的虚拟设备,每个虚拟设备都可以由管理界面动态配置,报表最终将会根据虚拟设备的定义生成各自的报表内容并根据定义的页面位置排列出来。
(图36:SiteView服务器性能报告图)
(图37:SiteView最差排名图)
1.5数据发布的特点
创建和生成符合运营商管理要求和格式的报表。
动态、实时提供各类报表,高速的报表生成。
可创建自动生成报表的任务。通过界面来进行任务的创建,删除,修改和执行
等管理。
可创建统计图。可创建多种样式的统计图,可即时或定时创建统计图,并可保存为图片文件格式。
可创建多种类型的表格。支持多层列标题.单元格中可包含文字,图片和链
接。并可设置表格边框线粗细,颜色,单元格间距等各种表格属性。
可创建多元素多结构的报表。即在同一张报表中可包含若干不同种类的表
格,统计图和文本信息。
方便地创建数据发布子系统中的各种对象,包括有元数据,表模板,图模板,报
表模板,报表和任务。有以下三种方法:
通过引用已创建的对象。
提供一些常用的报表模板,表模板和图模板。
创建表模板时,将其中的部分参数作为变量。
支持多用户。可进行用户管理,控制各个用户不同的操作权限。
支持日志管理和记录。可通过界面这些注册需要进行日志记录的操作,当这些操作发生时进行日志记录。
更友好的操作界面和发生错误时的处理提示。
支持用户自定义、组合报表。
实用网络监测工具
SiteView 包含一系列的诊断工具,通过这些实用的工具,可以帮助您迅速测试指定服务或应用的可用性,以下是SiteView应用程序诊断工具。
FTP工具
连接到FTP服务器并检验是否可以从服务器上下载某一特定的文件。两台计算机必须支持它们各自的FTP任务:其中一个必须是FTP客户,而另一个必须是FTP服务器。FTP也被称为“文件传输协议”。该工具用来诊断FTP服务器能否正常工作。
Trace Router工具
该工具使用TRACERT命令监测当前主机与指定主机连接所经过的路由状况。
Mail工具
该工具通过发送和接受邮件来诊断邮件服务器能否正常工作。
DNS工具
检验DNS服务器是否正常工作。域名系统(DNS)是一种 Internet和TCP/IP标准命名服务。DNS服务允许网络上的客户机注册和解析DNS域名。这些名称用于搜索和访问由您的网络或其他网络(如 Internet)上的其它计算机提供的资源。该工具使用nslookup 命令监测使用指定的DNS服务器能否正确解析指定主机。
Ping工具
Ping命令有助于验证IP级的连通性。发现和解决问题时,可以使用Ping向目标主机名或IP地址发送ICMP回应请求。需要验证主机能否连接到TCP/IP网络和网络资源时,请使用Ping工具。
NetStat工具
该工具用来显示当前主机的网络接口状态和激活连接。
LDAP工具
LDAP是设计用于在TCP/IP网络上使用的通讯协议。LDAP定义目录客户如何访问目录服务器以及客户如何能进行目录操作并共享目录数据。该工具通过发送密码验证请求诊断LDAP服务器,完成一个LDAP服务器的验证。
News工具
NNTP用来将网络新闻邮件分发到Internet上的NNTP 服务器和NNTP客户的TCP/IP协议套件的成员。设计了NNTP就可以将新闻文章存储在服务器上的中央数据库中,这样用户就可以选择指定的项目以阅读这些项目。该工具诊断新闻服务器能否正常工作,新闻客户端通过向新闻服务器(用NNTP协议)发送请求来访问新闻组,服务器鉴别相关服务,该表格对新闻服务器提供相关的请求信息。
安全管理
登录系统的验证
SiteView系统在用户登录的过程中,除了进行用户名和密码的验证外,还可以通过配置,实现IP地址的验证,这样可以最大限度的防止挂接密码词典的密码发生器破解用户名和密码。
配置信息本地的加密存储
SiteView系统对于用户所作的任何配置信息全部采用EDS的128位加密方法进行本地存储,这样即使SiteView系统所在的主机被突破,也无法获得用户的任何信息(如帐户等)。
帐户的安全性
SiteView系统在运行某些监测时(如CPU,磁盘,内存等),将使用用户提供的帐户,这些帐户可以由用户设置权限(如只读权限等),以保障被测设备的安全。
远程登录的加密
SiteView系统在运行某些监测时(如CPU,磁盘,内存等),将使用用户提供的帐户进行远程登录,这种登录过程可能被恶意截获,形成潜在的威胁,因此SiteView系统采用加密的登录过程(即SSH),以保障远程登录的安全性。
用户管理和访问控制
用户管理模块可以增加、修改、删除用户,也可以给不同用户赋予不同权限。SiteView 最高级别的系统管理员可以为其它系统管理人员配置不同的用户名、密码和权限。权限设置覆盖SiteView的所有功能,包括监测器,报警,报告和诊断工具等。不同的系统管理员用不同的用户名和密码登录系统,看到的可能是完全不同的监测内容,可对系统进行的操作权限也大相径庭,这样系统管理职责不同的人拥有不同权限,权责分明,系统管理规范化。
例如可以为企业非信息管理部门领导专门开设一个用户,只允许他查看有关应用监测的运行情况,而不能对SiteView网管系统进行任何设置。下图为用户管理设置页面的一部分,通过勾选CheckBox,可以设置该用户可以看到那些监测内容以及可以对系统进行哪些操作。
(图38:SiteView用户管理和访问控制图)
实施工作计划
实施人员
本项目实施一共需要16名工程师
实施进度安排
8.2.1系统调研
用5个工作日做各地项目调研,在调研中分析SiteView系统在中国联通的监测点,分析每个SiteView Manager监测的个数,分析SiteView Submanager的具体监测点情况,分析SiteView 外部监测数据库发布服务器的具体数据发布措施和功能。
8.2.2系统安装调试
在用16个工作日分析系统功能并安装调试SiteView软件。
SiteView Manager安装调试
各用1个工作日在四个分公司安装和调试SiteView Manager。
SiteView Submanager和SiteView Agent安装调试
用10个工作日安装基层主站和基层工作站的SiteView Submanager 和SiteView Agent,
SiteView 外部监测数据库发布服务器安装调试
用2个工作日安装和调试SiteView 外部监测数据库发布服务器。
8.2.3系统培训
用4个工作日内初步培训中国联通各分公司运营维护员正确使用SiteView系统。
请看下面项目实施进度安排图。
(图39:项目实施进度安排图)
1.6实施环境要求
