助力上海电信GBase集群

客户概述

上海市电信有限公司于2002年11月18日正式成立。在2008年1月28日更名为中国电信股份有限公司上海分公司,是境外上市的 中国电信股份有限公司的分公司。公司主要经营固定电话、移动通信、卫星通信、互联网接入及应用等综合信息服务。目前中国电信 上海公司拥有中国电信集团内最大的本地网。截止到2010年底,公司为1780多万用户提供全方位的综合信息服务,承担了全国50% 以上的国际电话汇接。

客户需求

上海电信目前使用南大通用数据库集群系统,广泛地支撑各类数据仓库系统、BI系统和决策支持系统。随着用户数据量的增加, 在业务高峰期,客户希望缩短差异数据的时间,提高业务决策分析的精度。

问题分析

南大通用大规模分布式并行数据库集群系统,简称:GBase 8a MPP Cluster, 它是在GBase 8a列存储数据库基础上开发的一 款Shared Nothing架构的分布式并行数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用 计算平台。 自G

Base集群实施以来,基于其构建的业务系统一直为上海电信的业务运营提供着有力的信息化支撑,企业上下对整个系统的满 意度较高。但近两年来伴随着上海电信业务量的增长,系统数据量爆发式增长,性能问题逐渐成为影响系统满意度最主要因素。

经对数据库系统的监控分析发现:性能问题主要集中在数据查询上,由于查询占用的系统资源较多且长时间得不到释放,从而造 成系统整体反应慢的现象。且通过常规数据库优化手段无法解决此问题,最终发现根本原因是底层存储设备性能不足。经核实GBase 底层数据库文件存放在SAS硬盘组成的RAID5本地磁盘组上,而本地SAS磁盘组提供的IO性能又严重不足,所以导致业务响应时间过 长。

系统概述

为满足上海电信对大容量、快速数据查询处理的需要,GBase数据库部署在24个计算节点和一台加载机上,24个计算节点划分为 8个集群,每个集群3个计算节点。所有服务器运行64位SUSE Linux Enterprise Server 11 SP2操作系统,对应GBase版本为 8.5.1.2-38613。

集群架构改造

GBase集群对磁盘IO的需求主要为数据文件的读写、索引文件的读写、缓存目录的读写。在拥有较大容量内存的服务器上,内存 缓存命中率大大增加,集群节点的内存已经在本次扩容期间全部提升到512GB,满足现有业务系统的缓存需求。同时因为集群在执行 过程中的临时表都会以物理表的形式落地,所以本项目中将Flash存储作为主存储使用,采用超低延迟与超高性能的Shannon Direct -IO™ PCIe Flash设备替换原有RAID5本地磁盘组来存放数据文件和索引文件,每个计算节点上新增了一块1.2TB的Shannon Direct -IO™ PCIe Flash-G2i设备。原有RAID5本地磁盘组不再参与数据库业务运行,从而满足上层数据库应用的需求。

改造前后系统应用性能对比

系统改造完成后,用户对Gbase系统数据库的IO性能进行了对比测试,结果如下:

改造前后FIO性能对比

总结

通过采用Shannon Direct-IO™ PCIe Flash 设备替代之前RAID5本地磁盘组来运行数据库实例,消除了原有数据库系统的性能瓶 颈,Shannon Direct-IO™ PCIe Flash 作为数据库主存,整个系统数据随机读写性能成倍增长,有效地提升了整个集群的运算与加载 性能。

设备上线使用集群内单机停机的方法,整个改造过程中集群业务未受影响,系统改造完毕全部节点重新上线后几分钟内同步完毕, 后续增量数据实时同步。

Shannon Direct-IO™ PCIe Flash的成功应用提升了业务系统的整体性能,这种优化改造无需重新设计系统架构和方案,其可以 作为电信业务系统优化改造的优选方案。