2023-09-26

福州水务大数据中心 注重数据服务与应用能力的平台

分享:

引言:福州水务集团有限公司(以下简称“福州水务”)成立于2008年,注册资本21.2亿元。现有各级参控股子公司60多家,包括1家A股上市企业及2家国家级高新技术企业。福州水务是一家集供水、排水、环保、温泉、综合服务五大板块为一体的综合环境服务商,市场拓展至省内外,辐射江西、广东、江苏、浙江等16个省、市、自治区。运营17座水厂,总规模195万吨/日,其中福州主城区供水服务范围覆盖福州市四城区约250平方公里,服务人口超280万人;运营污水厂24座,污水处理规模176万吨/日,原水供应规模336万吨/日(含在建),总规模707万吨/日(含在建)

福州水务于2018年成立信息化指挥部并组建数字水务研究中心,正式启动数字水务建设。在数字水务建设的初级阶段,福州水务规划了“一个大数据中心、三大板块、六大体系、八大重点项目”的“1368”数字水务战略。在该战略指引下,福州水务通过大数据中心建设,向上支撑集团生产运营、营销客服、管理管控三大板块的不同应用,以推进集团的数字化、智化转型。

项目概况

福州水务大数据中心项目结合公司发展战略的需要,建立适应智慧水务的,具备行业影响力的大数据中心,统一数据标准,提升数据质量,为各类智慧应用提供坚实的数据基础,最终为管理运营提供有效的决策支持,提升数据的价值。

项目背景

福州水务高度重视营商环境以及客户服务工作,持续不断推出便民举措,并引入先进的服务理念以及工具和手段辅助客户服务工作效率和质量的提升,公司相继建设了营销系统、报装系统、呼叫中心等多个系统,这些系统对于客户服务工作开展起到了良好的支撑作用。

在福州水务集团有限公司“FS1368”数字水务战略指引下,为进一步升级和优化客户服务水平,对客户服务相关的数据资源进一步集成和整合,充分发掘利用数据资产价值,为福州水务的客户服务工作人员提供更便捷的工具用于支撑服务工作,在进一步提升服务于响应速度和质量的同时,实现更进一步的精准服务和主动服务,为福州市民提供更好的用水服务体验。

2. 项目简介

福州水务数据资源规划建立了数据资源的统一标准体系,描绘了数字化企业的数据流的基础来源,保证数据的来源唯一性;对所涉及的数据进行准确的定义,包括该数据的各种属性的描述。通过对业务管理层、决策分析层和基础工作层等信息数据需求的分析,确定出数据在各层次的具体表现、交换方式、数据部署状况,从而在此基础上制定出企业数据规划框架设计和实施策略。福州水务大数据中心即以此为标准进行建设。

大数据中心平台覆盖全链路的数据集成、数据模型、数据资产、数据质量、数据开发、数据运维、数据共享服务等不同阶段的数据开发场景。并将原来通过人工经验+人工约定的数据模型搭建改为系统化的规范方式,实现从模型的基础配置到在线设计的规范化过程,使得无论从数据库、表和字段层面上,形成系统化的命名规范。定时监控规则运行、即时生成校验报告,辅助定位数据质量的问题根源,实现数据高可信、高可用的目标。

项目目标

通过的统一数据汇聚和标准管理的能力、统一维护并对外提供服务的模式,盘活融通数据资产、激活数据服务能力,促进“产业数据化、数据产业化”的正循环效应,从而实现“统一标准规范、统一数据存储、统一数据资产、统一技术平台、统一数据服务、百花齐放应用”的效果。

(1)实现公司海量数据的集约化管理

建立基于Hadoop大数据中心,实现为各个应用提供包括离线计算、实时计算、多维分析、统一资源管理及分布式文件系统服务。实现对“原、制、供、排、污”全业务链的生产数据和业务数据,进行集成和整合,构建“人”,“水”,“厂”全方位的水务行业数据资产,并提供多维度数据资产的感知、分析、监控的能力;可构建面向水务基础设施数字化管理、管养精细化、调度智能化、服务扁平化等应用场景的水务数据服务总线,实现企业级的数据服务发布和共享,支撑技术中心管理人员,长期高效的运营数据服务能力,提高企业整体数据运营能力和工作效率。

(2)实现公司运营管理的全面降本增效

实现企业全面大数据治理,实现跨系统、跨部门自动化数据流转,实现生产、管网输配、营销客服等业务统一全面数据共享和业务整合,全面提升系统自动化协同和闭环能力,建立公司统一数据标准体系,依托数据全面整合,整体分析公司运营管理各个节点和问题环节,实现制度、流程的优化和简化,全面提升公司工作效率,降低人耗、物耗和流程内耗;实现应用系统数据和其他业务领域数据全面打通和共享,全面提升数据实时性、精准性、共享能力。例如:1、营收客服数据能够为水厂生产、精细化调度提供精准水量预测;2、为全面漏损分析、水质分析提供数据支撑;3、为产销差分析提供优化分析模型的数据服务;4、可以通过热线电话分布区域信息和管网GIS信息,实现水质等问题精准定位等业务。从而实现生产体系、管网输配、二次供水与营销客服系统全面的数据打通、业务协同,提升整体运营效率,提升整体运营管理水平。

3提升公司大数据管理和大数据应用能力

建设全面覆盖公司生产、管网输配、二次供水、营销客服体系的大数据中心和大数据应用平台,实现大数据标准体系建设,实现水务多领域数据融合,单一来源数据价值挖掘空间狭窄,更多数据价值创造将依赖多源数据融合,建设大数据中心为基础的统一的数据标准体系,从而实现数据全面共享,标准化交换和价值挖掘,提升公司综合运营管理能力。通过大数据标准化数据模型,实现各个业务系统数据全面共享,沉淀数据资产和共性能力,以平台+应用的建设模式,最终实现数据资源集约化利用,提升公司数据管理能力。

4提升公司全面对外数据服务能力

随着智慧城市、数字化城市的发展,政府机构、社会公众、工商企业对水务公共事业基础设施、生产运营、营销客服的数据共享、服务能力共享的诉求日益增强,公司需要建立基于数据中台的标准大数据服务,对外提供规范统一、安全稳定、高效灵活的数据服务;构建数据服务能力平台,为政府、社会机构提供高效率、智能化大数据应用服务;通过平台数据集成和计算查询优势、对外提供高效和标准化的数据服务,而不是通过传统的应用系统开发提供定制化接口,从而全面降低对业务系统的依赖和局限性,全面降低公司对外服务运维成本。通过标准化、高效率、易维护的数据服务平台的统一服务接口,为智慧市政、智慧社区等领域的应用建设提供全面的大数据技术支撑。

二、项目实施概况

1. 项目总体架构主要内容

本项目提出了一种基于Hadoop分布式并行计算技术的总体架构。该架构涵盖了离线数仓和实时数仓,提供了数据批处理与流处理的计算能力,为不同业务场景提供了一个数据计算支撑平台。图1给出了大数据中心的总体技术架构图。

1  大数据中心总体技术架构

Hadoop作为大数据管理平台一个核心应用,大数据管理平台建设为了更好的满足应用需求和结合Hadoop的性能、功能,采用Hadoop的HDFS作为分布式大数量存储的核心。大数据中心平台通过对Hadoop的定制来满足实际应用的需求,通过开发分布式计算程序来提供和支持云计算和大数据的分析挖掘。

在该系统中,整体分为数据采集层、模型计算层、数据服务层和管理运维层等四个层次。覆盖了水务行业水厂、管网、二供、营收、客服等全业务数据采集、计算与共享等方面。

3. 具体应用场景应用模式

应用场景

(1)建立统一数据汇聚中心。将主题数据进行梳理,通过采集、清洗、转换工作,汇聚至大数据中心进行存储,打破了数据孤岛现状,并建立数据存储标准,为后续数据开发、数据共享、数据应用提供数据支撑。

(2)建立服务总线。大数据中心建立数据服务总线,打通并建立统一的业务系统与异构系统数据共享通道,将大数据中心自身数据以服务形式进行封装输出外,也将业务系统自有接口进行注册转发,以此建立数据服务市场,将企业内所有数据服务统一发布,各类异构系统可浏览市场,并按需申请服务。解决对接通道太多、数据服务无法监控、重复接出、对业务系统造成压力、无法管理等多种问题。

(3)综合业务平台。该平台主要面向坐席客服人员,将营收、报装、表务、工单、热线、短信等日常坐席人员所使用的系统进行数据整合,提供汇聚上述系统关键用户信息的综合查询页面。通过综合业务平台,可直观的展示用户画像,通过简易搜索条件,如用户手机号、客户编号等快捷查询相关用户的基础信息、缴费记录、欠缴信息、抄表信息、短信发送记录、报装记录、热线服务工单、热线录音等所有关联数据。同时该平台也可作为企业客户信息关系查询渠道,为营管、客服等相关部门提供业务辅助。

(4)提供报表工具。大数据中心提供了自定义报表工具,该工具不受限于报表的格式、统计维度,且能随时变更报表样式,快速制作报表。业务部门只需要提供报表内容的统计逻辑,由信息管理部门利用大数据中心开发平台制作出相关数据指标,业务部门即可自己将数据指标拖拽至表格区,自由定义所需要的报表样式,极大的缩短了报表制作时长,降低报表制作门槛。

应用情况

外部业务应用概况

目前大数据中心支撑了网上营业厅、微信公众号、产销差系统、财务系统的数据服务。这种模式,相比传统数据服务开发效率提高50%以上,彻底解放即时开发所带来的人力消耗,数据灵活复用有助于提高数据开放共享能力,推动数据资产服务化,让开发者集中精力关注创新应用的业务需求。

以网上营业厅为例,在对接大数据中心之前,是需要分别与原营业收费系统对接账单查询接口,与工单系统对接工单申报接口,与微信公众号对接公共信息发布接口等等,这些接口只能单独服务于网上营业厅,其它第三方平台无法直接复用。

而大数据中心作为网上营业厅与营收、报装、工单、表务、短信平台等业务系统数据交换的唯一通道,几乎支撑了网上营业厅所有功能的运行,极大的提升了接口复用性,能够通过接口访问权限,为任意第三方平台提供必要的接口服务。同时,也极大的简化了数据流结构,通过大数据中心的监控能迅速定位出故障发生位置,便于后期数据管理与监控。

内部可视化应用情况

包括1个综合业务平台、2个驾驶舱、2个大屏、3个数据挖掘主题(改善每月抄表情况、优化水表管理、改善工单处理状况),共计88项指标和19张报表,覆盖了水表、用户档案、抄表、计费、工单、报装、话务和收费等业务,极大提升了营销数据的使用价值,为基层业务人员日常工作提供了切切实实的便利。

例如:营管部每月要统计连续0吨用户清单,以便筛选出异常用户,安排人员现场核实处理,减少企业水量、水费损失。此项工作,据工作人员反馈,每次需要花费将近1周的时间,从原营收系统中各个位置统计、导出,然后再作筛选,工作量大,并且容易出错。而大数据中心提供的“连续0吨用户清单”报表,可以自定义查询固定时间段内连续XX月0吨用户清单,经业务人员核对,数据准确、使用便利,从根本上协助业务人员释放了工作压力,极大的提高了工作效率。

图例1:业务报表工具

综合业务查询平台汇聚了营收系统、报装系统、工单系统、表务系统、热线系统和短信平台的相关数据,平台会根据每个用水户的用水行为,自动建立用户画像,同时也支持通过一个平台,一次操作,查询出6个系统的业务数据。综合业务查询平台为客户服务中心业务人员提供了统一、便捷、快速的服务平台,当坐席接到用户来电时,即可通过来电号码定位用户,为坐席人员提供用户基本信息、用水信息、缴费信息、工单信息、历史短信、历史来电情况、停水情况等等全方位的数据,极大的缩短了服务时长,提高了便民服务体验。目前该平台已在“客服热线中心”进行试运行,该平台的数据呈现方式得到了业务人员和相关领导的认可。

系统相关截图如下:

图例2:综合业务查询平台

图例3:营销驾驶舱

 

图例4:客服驾驶舱

 

 

图例5:营销报表

图例6:客服报表

5. 其他亮点

1.全链路基础营销体系数据工厂,支撑大数据中心多样性需求。数据平台覆盖全链路数据集成、数据模型、数据资产、数据质量、数据开发、数据运维、数据共享服务等不同阶段的数据开发场景,全面支持大数据中心建设过程中的多样性需求,开发过程无需切换多个工具

2.规范化数据模型开发,实现数据资产可视化。将原来通过人工经验+人工约定的数据模型搭建改为系统化的规范方式,实现从模型的基础配置、到在线设计的规范化过程,使得无论从数据库、表和字段层面上,形成系统化的命名规范。可实现数据资产元数据可更新、可维护,支持多级类目管理,确保数据资产分门别类,便于后续的查找和维护。

3.通过全流程监控打造数据治理闭环机制。基于各行业实战经验,平台内置多种校验规则,满足大多数场景下的数据质量检验需求,定时监控规则运行、即时查看校验报告,辅助定位数据质量的问题根源,为数据高可用性保驾护航。最终实现对数据质量问题实时监测,事前准备、事中监测、事后报告,让数据达到高可信、高可用的目标。

4.零代码生成API,数据服务调用全流程监控。数据获取无需编码,通过在线配置简易、快速创建API,并通过在API市场上架,实现对于数据服务的统一化管理,提高数据应用效率,挖掘数据共享价值。根据数据服务调用情况进行实时监管,后台安全可控。

三、下一步实施计划

虽然大数据中心(一期)重点是营销客服专题,但这并不意味着大数据中心只支持营销客服板块数据的汇聚、开发与服务,根据数字水务规划,在大数据中心的目标就要做成一个支持多元接入的能力平台。所以,后续水务集团中排水、温泉、污水、工程等等不同业务类型,不同数据存储方式,均能通过大数据中心进行数据的二次开发和共享。

 

四、项目创新点和实施效果

1. 项目先进性及创新点

(1)先进性

1)异构数据存储、冗余存储和PB级别的计算能力

支持多数据,包括结构化数据、半结构化(JSON/BSON,XML形式存储)、非结构化数据,例如纯文本、图片或者图层数据的高效存储以及读取。

数据分片冗余存储多份以上。

通过使用MPP技术,在高负载下可保持高性能,每机架每小时可处理高达10T的数据。

2)基于SQL的快速批处理

支持通过SQL语言对数据进行高效批量统计的能力。同时利用全局/辅助索引进行SQL执行加速,可以满足高速的OLAP数据分析应用需求和高速的SQL离线批处理。

3)低延时高并发查询

支持多种索引,包括全局索引(GlobalIndex)、局部索引(LocalIndex)、高维索引(High-DimensionalIndex)以及全文索引(Full-TextIndex)等;

支持通过SQL进行复杂条件毫秒级高并发查询,满足在线存储和在线业务分析系统(OLAP)的低延时需求。

4)高级机器学习功能

内嵌Apache MADLib 机器学习库,提供大量机器学习算法,支持R、线性代数和机器学习功能。

5)数据高度压缩

采用了业内领先的压缩技术,提高性能的同时,显著地减少存储数据所需的空间。客户可以将所用空间减少3-10倍,并提高有效的I/O性能。

6)动态扩容

便捷的小规模或大规模扩展,同时避免高成本的设备或SMP服务器升级。

7)本次技术选型相对Hadoop、Hive、Spark等常规大数据平台技术的优势

  性能:在6台8核16G的服务器上对30亿条记录做统计分析查询,Hadoop+Spark花费的时间接近120秒,GP用时1秒;

 索引支持:GP支持持二叉搜索树、哈希、位图、GiST和GIN,从而能够实现多种索引功能,提供给数据架构师实施优化设计所必需的工具。

 事务支持:同时支持OLAP和OLTP,Hadoop等不支持数据库事务;

 数据加载速度:高性能的并行数据装载器可以在所有节点上同步执行操作,装载速度超过4.5TB/小时;

易用性:完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好;

 数据压缩:GP可以对冷数据进行压缩,压缩后减少的磁盘空间10倍以上,并提高有效的I/O性能。

8)报表引擎优势

提供报表设计器,支持多维度报表结构设计,支持多层嵌套的表头信息,支持多数据源

(2)创新点

1)集成kettle到大数据中心

集成kettle到大数据中心,统一由大数据中心进行etl逻辑编撰和作业调度,使用kettle剥离数据存储到ODS层,降低近半数据量存储。

2)实现了API统一管理

研发了水务数据底座技术,建立了API(数据服务接口)库,很方便的实现了与第三方软件产品及数据对接。

3)整合空间数据和业务数据

通过分析、抽取、整合GIS系统与其它业务系统的基础数据,从而提升了业务数据可视化的能力。

4)提供了数据仓库建设标准

借助多年的水行业业务经验,课题建设了标准的DW层和DM数据数据结构,便于以“USB口”的形式,直接接入任何同类型产品的ODS层数据,减少了对接难度和时间。

5)提供了常用指标的标准算法逻辑

基于“营销”和“生产”体系,形成了标准的指标算法逻辑,由于该算法从标准的DW层和DM层获取数据,所以可提升各类指标算法的复用性。

6)大数据中心建设及挖掘数据价值

基于数据分析挖掘,实现水务业务从被动服务到主动服务的转变。

2. 实施效果

(1)大数据中心在网上营业厅的应用

大数据中心共为网上营业厅提供98个接口,其中13个接口直接从大数据中心的数据仓库中获取用户、账单等数据, 85个接口为各关联业务系统接口,在大数据中心注册、转发和管理。接口日均访问量超万次,接口调用成功率99.98%,接口平均调用时长约0.6秒,其中账单类的接口调用时长在1.2秒左右,其它接口大多数在1秒以内。

通过接口服务支撑模式,极大的减少了网上营业厅在系统后端的开发投入,大数据中心直接承载了多个业务后端逻辑的调研、梳理、开发及服务,包括:应收列表、营收明细、缴费信息、水表信息、用户代扣信息、系统收费方式、年度账单用水总量、年度账单用户信用等级、年度账单年缴费类型、年度账单加价费用、查询客户编号、查询用户画像等。

(2)大数据中心在水务智慧大脑的应用

大数据中心为福州水务智慧大脑提供5个接口,其中4个接口直接从大数据中心的数据仓库中获取用户、工单、停水等数据,为集团总览板块、供水总览板块和营销客服板块提供数据支撑。1个接口在大数据中心注册、转发和管理。接口每日访问量合计20次以上,接口调用成功率100%,接口平均调用时长约0.5秒。

福州智慧大脑综合大屏的数据不仅仅来源于大数据中心,如果将其接入数据来源分为大数据中心与非大数据中心,非大数据中心的数据接入比较繁琐,信息工程师需要开展数据情况调研与业务计算逻辑、指标数据开发、结果校验、服务封装等整个过程,信息工程师往往对接一个指标数据需要花费两周,甚至更久,而来源大数据中心的数据则可直接进行服务调用,前期的所有工作由大数据中心直接接管,甚至后期数据维护、监控管理都不需要参与,水务智慧大脑平台只管使用即可,大大缩短了水务智慧大脑的建设周期,减轻了后端管理的压力。

(3)大数据中心在产销差分析系统的应用

大数据中心为产销差分析系统提供了8个接口,系统每日从大数据中心接口中获取抄表数据与用户表信息数据,主要用于计算三级分区的供水量、一二三级分区的售水量、监控表与户表对应关系,得到产销差的计算结果。接口每日调用频率700次以上,接口调用成功率100%,接口平均调用时长约0.7秒。

在大数据中心提供支撑之前,产销差系统为获取用户信息与水量开账信息则需要每日多次请求营业收费数据库,这将增加营业收费数据库的负担,影响营业收费系统的日常运行效率。此外获取到的水量信息还需要进行合并同一户水表的每月多次开账记录等特殊化处理,才能接入产销差系统正常使用,不仅繁琐,且时效性极低,通过大数据中心接口即可避免这一操作,实现数据标准化规范化输出至其他应用系统。

(4)大数据中心在水力模型业务的应用

大数据中心为供水水力模型系统提供了7个服务接口,涉及用户信息更新、抄表、用户状态、区域水量等方面,以往水力模型需要直接对接营收系统汇总的“表卡信息表”、“客户信息表”与“营业账子表”,但由于该表按月份分表、分库存储的,如果涉及跨月查询统计时,非常繁琐,需要对历史表进行组合、筛选和计算,将会降低查询效率、增加接口维护难度,水力模型很难做到精准的在线计算。

在与大数据中心对接后,通过大数据中心对分历史数据的处理计算机制,提供API服务为水力模型高频输出和更新用户、抄表和分区等营收数据,支撑模型的爆管处置和方案模拟的计算结果,提高水力模型系统在在线计算时的精准度。接口累计访问量已近万次,接口调用成功率100%,接口平均调用时长约0.4秒。

(5)大数据中心在停水区域划定及消息推送业务的应用

传统的停水发布在操作上较为繁琐,需要大量线下协调对接,容易出错和遗漏,特别在营管部做好停水计划时,需要通过邮件发送给客服部,客服部再打开短信发送平台,将邮件内容复制进去修改发送。在信息精准度上也没有办法把控,如发送微信停水信息,不论是否受计划停水影响的用户全员普发,导致关注“福州水务”公众号的群众每天收到无关停水信息,久而久之造成用户对停水消息麻木对待,真当自己小区停水时可能也不会关注到,偏离了微信停水推送的初衷。

针对上述情况,大数据中心团队联合营管与客服部,将大数据中心能力与GIS平台能力相结合,通过GIS圈定停水区域,将停水信息精准的推送到受影响用户的手机和微信上,整个过程流畅、便捷、精准。如:营管部打开“停水区域划定”应用,在GIS上圈定停水区域,系统将自动分析出受影响的小区名称、受影响小区数量、受影响用户数量等关键信息,并与大数据中心建立数据通讯,得到受影响的重点用户、小区用户、散户等详细信息。客服部可即时收到营管部提交的计划停水方案,并可进行二次修正,并结合从大数据中心自动获取到的用户手机号、微信ID,一键将停水信息精准发送到用户的手机和微信上,真正做到谁受影响就发送给谁。除计划性停水外,大数据中心还提供了爆管影响分析等抢修性停水主题的发布。

(6)大数据中心在数据挖掘与分析中的应用

传统大数据中心建设的目标较多的都只放在出大屏与报表上,关注点不够深入,没有充分发挥大数据中心应有的价值。本次项目建设就突破了大数据中心传统定位,探索性的开展数据挖掘分析工作。通过分析原始的业务数据,关联各个业务系统的数据逻辑,从中提炼出有价值的数据,直观暴露出已存在的各类管理问题、数据问题、业务操作规范问题及系统功能设计问题,将有助于管理层针对性制定相应的管理措施,对症下药,及时堵漏、补缺,从而提高工作效率、改善工作环境、提升工作质量和客户满意度。本次尝试性的对工单、水表、抄表情况开展了探索分析,样例时间为2020年12月数据。

如在水表分析方面:25*****339,该用户为施工用水,2020年7月水表就已上线,但是当年均无水量记录,原因是没去抄表,直到2021年2月才第一次抄表,第一次抄表水量就达3091吨(据观察,实际后续每月用水为400吨左右);21*****223,该用户已于2012年12月就已拆迁,但是水表状态一直为正常,经核查,有大量此类未更新水表状态的记录存在;10*****776,该用户为某物业公司,水表状态正常,但是已连续12个月以上抄表水量为0吨;10*****055,该用户为DN40大口径用户,2014年水表就已失踪了,但是水表状态正常,2019年还有缴费记录(转账缴费),应核核查该用户具体用水情况。

(7)大数据中心在服务能力支撑的应用

大数据中心目前已不断的发挥着自己的作用,在提供大数据业务支撑能力之外,也间接的对与大数据中心无关的业务提供了支撑。如水司建立的库管系统,根据开发要求,需要与水务财务系统进行对接,达到资产数量与金额账务同步的目的。但在对接过程中心,库管系统的开发模式不支持财务系统提供的服务接口类型,导致对接工作无法进行。大数据中心了解情况后主动充当“中介”角色,将财务系统服务接口注册至大数据中心,并将其转换成库管系统所能支持的接口类型,使得对账功能得以顺利进行。截至目前,做为通道功能已支撑了上述系统38403次的交互工作。