0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探索运营商大数据AI能力层的构建方案

h1654155972.5890 来源:cc 2019-02-26 15:30 次阅读

信运营商积累了大量的优质数据,介绍了构建大数据AI能力层的一种方案,大数据AI能力层能够帮助运营商更好地利用流量红利和数据红利。对外通过AI有效提升运营商客户服务水平与市场营销效果,同时拓宽运营商的服务类型和业务范围;对内使用 AI推进网路虚拟化和云技术,提高自动化水平,降低资本和运营支出。

前言

经过多年的高速发展,电信运营商目前已经积累了大量的数据,其中包括行业综合数据、用户使用交互信息、用户消费数据、设备日志记录等结构化数据,与文本、音视频、图片等非结构化数据。AI 人工智能经过数十年的发展,很多算法已经非常成熟稳定,能够广泛应用到生产、生活的各个方面。2016年 AlphaGo 事件以后,AI 受到了全世界的瞩目,以谷歌、FaceBook、微软、阿里巴巴、百度等为代表的互联网企业在近几年也利用AI在各个行业积极布局。

目前我国电信产业已无法从人口红利模式中继续获取高速发展,转而逐渐重视流量红利和数据红利。运营商走在信息网络的最前沿,能获取用户最真实、最核心的数据,同时一直为用户提供全面的ICT服务。对外,AI的使用能够有效提升运营商客户服务水平与市场营销效果,同时能够拓宽运营商的服务类型和业务范围;对内,AI 能够帮助运营商推进网路虚拟化和云技术,达到提高自动化水平,降低资本和运营支出的效果。

1

AI能力层相关技术

1.1 人工智能

人工智能(AI),也称机器智能、智能模拟等,它是计算机科学、控制论、信息论、神经生理学、心理学、语言学等多种学科互相渗透而发展起来的一门综合性学科。人工智能是用来研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的科学。目前已在知识处理、模式识别、自然语言处理、博弈、自动定理证明、自动程序设计、专家系统、知识库、智能机器人等多个领域取得举世瞩目的成果,并形成了多元化的发展方向。

1.2 Python

Python是一门解释性的、面向对象的、动态语义特征的高层语言。它的高层次的内建数据结构,以及动态类型和动态绑定,使得它非常适合于快速应用开发。Python 的简单而易于阅读的语法强调了可读性,因此降低了程序维护的费用。Python 支持模块和包,并鼓励程序模块化和代码重用。Python的解释器和标准扩展库的源码和二进制格式在各个主要平台上都可以免费得到、免费分发。

1.3 Docker技术

Docker 是一个开源的容器引擎,可以方便地对容器进行管理。其对镜像的打包封装,以及引入的DockerRegistry对镜像的统一管理,构建了方便快捷的“Build,Ship and Run”流程,它可以统一整个开发、测试和部署的环境和流程,极大地减少运维成本。另外,得益于容器技术带来的轻量级虚拟化,以及 Docker在分层镜像应用上的创新,Docker在磁盘占用、性能和效率方面相较于传统的虚拟化都有非常明显的提高。因为 Docker是基于容器技术的轻量级虚拟化,相对于传统的虚拟化技术,省去了 Hypervisor层的开销,而且其虚拟化技术是基于内核的 Cgroup 和 Namespace 技术,处理逻辑与内核深度融合,所以在很多方面,它的性能与物理机非常接近。

1.4 TensorFlow

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,是用来制作 AlphaGo 的一个开源的深度学习系统,其命名来源于本身的运行原理。张量(Tensor)意味着N维数组,流(Flow)意味着基于数据流图的计算,TensorFlow 为张量从流图的一端流动到另一端的计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow可被用于语音识别或图像识别等多项机器深度学习领域,对2011年开发的深度学习基础架构DistBelief进行了各方面的改进,它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。TensorFlow完全开源,任何人都可以用。

2

大数据AI能力层构建方案

2.1 运营商大数据现状

从数据规模来看,截至 2018 年 6 月,中国 4G 用户数已突破 11亿,移动用户已近 15亿,基于如此庞大的用户数,无论是用户信息、消费记录还是设备日志数据均体量庞大且保持快速增长。江苏联通天玑数据中心目前每日入库数据超过 600 亿行,每日集群各任务使用数据量超过100 TB。

从数据质量来看,运营商数据都是基于真实用户使用记录以及设备运行记录,具备真实性和完整性,是非常优质的数据。江苏联通天玑数据中心作为O域综合数据中心,目前接入了移动网核心网信令数据、移动网 MR 信令数据、移动网性能数据、客服类数据、固网信令数据、固网认证数据、设备告警数据、部分 B 域数据等多种数据源,全部为用户、设备日常产生的真实数据。

从数据使用来看,运营商数据使用者类型各异,需求类型众多。有些数据分析如位置营销数据需要实时输出分析结果,有些数据如核心网信令统计数据则需要非实时的大数据量运算;有些数据使用者需要使用集群的计算资源与数据资源,有些数据使用者需要使用自有计算框架,有些使用者需要使用专用AI计算设备。

2.2 大数据AI能力层构建

结合运营商大数据特点与数据使用现状,采用单一数据源、松耦合、高异构的原则构建江苏联通天玑数据中心 AI能力层。天玑数据中心 Hadoop集群提供唯一数据源,软件上搭建 Docker 集群Python 计算节点、TensorFlow 节点等多种计算平台,硬件上部署了 Hadoop 集群服务器、单节点高性能计算服务器、GPU 加速AI服务器等,各平台之间既相互独立又能够互通数据、互相调用计算资源。

图1示出的是天玑数据中心分层架构。

▲图1 天玑数据中心分层架构

2.2.1 Docker集群

在运营商大数据使用场景中,经常会有临时的大数据量分析任务,如重大节假日保障、重要会议保障、自然灾害临时保障等数据分析场景,这些任务开启时通常需要临时调度大量计算资源,但场景结束后这些计算资源就完全闲置下来。大数据分析算法通常具有非常复杂的架构,很多数据使用者需要在多台节点上重复部署大量依赖环境,浪费了很多时间、精力。

针对以上使用场景,部署了 Docker 集群。Docker集群所具备的快速部署、快速调度的特点非常适用于重保数据分析场景,任务开启时可以临时开启大批量Docker容器参与计算,任务结束后 Docker容器即可关闭,无需冗杂的资源释放、清理工作。Docker容器能将完整的程序运行环境进行一次封装、多处调用,节省了大量计算环境部署的时间。

2.2.2 Python计算节点

Python用于机器学习开发环境,具有如下优点。

a)Python是解释语言,程序写起来非常方便。写程序方便对做机器学习的人很重要。因为经常需要对模型进行各种各样的修改,这在编译语言里很可能是牵一发而动全身的事情,Python 里通常可以用很少的时间实现。

b)Python的开发生态成熟,有很多有用的库可以用。Python具备NumPy、SciPy、NLTK、os(自带)等丰富的API库,极大地方便了算法开发者,使其将精力专注于算法的设计上来。Python灵活的语法还使得包括文本操作、list/dict comprehension等非常实用的功能非常容易高效实现(编写和运行效率都高),配合lambda等使用更是方便。

c)Python 的效率很高。解释语言的发展已经大大超过许多人的想象。很多比如 list comprehension 的语法都是贴近内核实现的。除了JIT之外,还有Cython可以大幅增加运行效率。最后,得益于 Python 对 C 的接口,很多像 gnumpy、theano 这样高效、Python 接口友好的库可以加速程序的运行。

此外,Python 还具备数据存储方便、数据获取方便、数据运算方便、输出结果方便、和其他语言交互方便、调用GPU加速方便、云系统支持方便等种种优点。

2.2.3 TensorFlow环境

TensorFlow可用于语音识别或图像识别等多项机器深度学习领域,并且TensorFlow完全开源,任何人都可以用。

TensorFlow 表达了高层次的机器学习计算,大幅简化了第一代系统,并且具备更好的灵活性和可延展性。TensorFlow 一大亮点是支持异构设备分布式计算,它能够在各个平台上自动运行模型,从手机、单个CPU/GPU 到成百上千 GPU 卡组成的分布式系统。从目前的文档看,TensorFlow 支持 CNN、RNN 和 LSTM 算法,这都是目前在 Image、Speech 和 NLP 最流行的深度神经网络模型。

在江苏联通MR共享层项目中,针对MR定位分析算法,TensorFlow 框架的加入提升了 30% 的运算速度与10%的数据准确性。

2.3 各AI计算平台协作

天玑数据中心AI能力层采用松耦合架构,各AI计算平台皆可独立运行,但各平台如果全部独立运行无法发挥大数据优势,平台之间需要相互协作才能将各自优势最大化。

图2示出的是各AI能力层相互协作结构。天玑数据中心AI能力层建设原则为:所有数据存储在 Hadoop 平台中,各 AI 计算平台都需要通过接口机连接到 Hadoop 平台,进行身份验证和数据读取,然后才能进行数据分析,数据分析结果可输出也可写入Hadoop集群。

▲图2 各AI能力层相互协作结构

Docker 平台本身是一个容器调度框架,可以在容器中封装 Python、TensorFlow 等计算环境,Docker 集群中有一台 Hadoop 接口机,作为权限认证、数据读取的中间环节,Docker集群可以通过接口机从Hadoop集群中读取数据,然后进行数据处理、分析。

Python节点安装 Hadoop代理,本身可以作为集群权限认证、读取数据的节点,可以将数据读取后进行分析。但是 Python 语言本身性能有限,并且无法进行并行计算,数据量增加到一定程度就无法很好地完成任务。可使用PySpark框架来通过Python调用Hadoop的计算资源。为了不破坏 Spark 已有的运行时架构,Spark 在外围包装一层 Python API,借助 Py4j 实现 Python和Java的交互,进而实现通过Python编写Spark应用程序,其运行时架构如图3所示。

▲图3 PySpark架构

3

AI能力层应用案例

公司提出了推动 2G 用户迁转 4G 的要求,需要通过对天玑数据中心相关数据进行挖掘,智能推荐2G迁转4G目标用户群。本系统共计分为2个模型。

3.1 2G转4G潜在客户识别模型

在用户画像的基础上,分别筛选历史完成2G迁转4G 的用户历史消费数据,通过机器学习算法,提取出这些用户的特征,并以此来识别当前登网 2G 用户中,具备这些特征的消费者,将之识别为高推荐值的用户。

3.1.1 模型input参数

通过用户画像,主要输入无量纲字段带入模型中计算。引入无量纲字段具有如下优点。

a)避免了归一化的问题。

b)后续若要引入集成模型,进一步提高模型准确度,不需要额外的数据处理工作。

c)适用于BP神经网络模型。

导入模型的数据实例见表1。研究 2018 年 1—6 月用户的情况,若 1 月份为 2G用户,6 月份为 4G 用户,则选择该用户 1 月份的数据,并设置为正例。若1月份为2G用户,6月份仍为2G用户,则选择该用户1月份的数据,并设置为反例。

▲表1 导入模型数据实例

3.1.2 模型的设置

模型采用 xgboost,在构建模型阶段,要特别注意数据不平衡的问题。从历史数据看,反例样本数据量为正例样本数据量的 5~7 倍,远远高于正例样本的数据量。为了消除样本不平衡的问题,可采用如下方法。

a)在调参中设置样本不平衡参数,进行纠偏。

b)选取部分反例样本,舍弃多余样本,达到正反例平衡。

c)增加正例样本的数目,可以通过复制部分正例,或者通过算法增加虚拟的正例样本数目。

d)切割反例样本 n份,每份反例样本均与正例进行模型计算,计算结果进行投票统计或者求取平均值。本模型采用第4种方法。

模型示意图如图4所示。

▲图4 2G转4G潜在客户识别模型示意图

3.1.3 模型训练环境

通过PySpark组件,直接调用Hadoop集群Spark组件,使用Hadoop集群的计算资源和数据资源进行模型训练。

3.2 潜在换机预测模型

选取入网时长超过9个月的现网存量用户,与前8个月关联,保留存量用户。根据用户历史数据,预测下个月是否会换手机。

3.2.1 输入数据清洗

选取入网时长超过9个月的现网存量用户,与前8个月关联,保留存量用户,并筛选出手机用户,手机IMEI号为正常字符的用户。选取字段表中相应字段,再与终端表中的 mzie_type、is_dual、mz_type 字段进行关联。最终得到700万条数据。

数据字段表见表2。

▲表2 输入数据字段表

3.2.2 数据建模

针对换机预测课题,构建基于 xgboost 算法模型,将筛选的 700 万条数据分批导入模型进行训练,给用户打上换机可能性的标签。市场操作时,可以调整可能性阈值,来筛选换机可能性较大的用户,精确营销。

模型示意图如图5所示。

▲ 图5 潜在换机预测模型示意图

3.2.3 模型训练环境

通过Hadoop集群Hive数据仓库读取相关数据,读取到 Python 计算节点,使用相关硬件加速接口调用GPU进行计算加速。

3.3 2G迁转4G用户数据挖掘模型效果

以 IMEI号为标识,挖掘用户近 9个月的终端更换情况,并统计这9个月用户更换手机次数。预测月前3个月账单、流量、通话的增长、减少情况。用户年龄、性别、入网时长、NPS 评分等信息。将数据送入 xgboost算法进行训练,得到换机预测算法模型。再将需要预测月份的数据送入模型,得到该月用户换手机的可能性指标。筛选可能性大于某一阈值的用户名单,系统直接推送给相关市场部门,进行精准营销。本次以沭阳的4个营业厅作为潜在换机客户营销试点。一个星期的时间,共拨通 106户,其中成功办理 14户,拨通办理成功率为13.2%。相较于非精准营销的普通营销方式,每月到营业厅办理中国联通合约机,占每月中国联通用户换手机总数的2%这个比例,有了500%以上的提升,达到了精准营销的目的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26485

    浏览量

    264118
  • 大数据
    +关注

    关注

    64

    文章

    8660

    浏览量

    136611

原文标题:运营商大数据AI能力层的构建方案探索

文章出处:【微信号:C114-weixin,微信公众号:C114通信网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美国主流运营商指南:美国运营商认证如何选择?

    不管在中国还是在美国,无线通信市场的竞争都相当激烈。中国主流主要是电信、移动、联通三大运营商,而在美国市场也由几家知名的主要运营商主导。如果您的产品有出口美国市场销售的需求,且产品本身带有通信功能
    的头像 发表于 04-23 17:07 101次阅读
    美国主流<b class='flag-5'>运营商</b>指南:美国<b class='flag-5'>运营商</b>认证如何选择?

    爱立信发布基于AI的意图驱动运营方案

    日前,爱立信宣布:在其托管服务交付平台——爱立信运营引擎(Ericsson Operations Engine)中,嵌入了基于AI赋能的意图驱动运营方案,为消费者和企业用户提供差异化优
    的头像 发表于 02-21 09:15 952次阅读

    第四大运营商,攻击前三大运营商

    1&1称其委托Aetha Consulting开展的研究发现德国前三大移动运营商相比欧洲其他有四家移动运营商的国家的排名前三的运营商的频谱持有量,平均多出38 MHz的低频段频率,总计多出了几乎120 MHz。
    的头像 发表于 01-30 16:00 301次阅读

    Get职场新知识:做分析,用大数据分析工具

    、多维动态分析,业务人随时按需分析,更灵活,更高效。 3、指标计算能力极强,能很好地完成计算组合多变、计算量极大的财务分析指标计算。 现在登录奥威BI SaaS平台,即可享受在线连接系统,下载方案,执行方案后立得百张BI报表的极
    发表于 12-05 09:36

    数通365案例 | 华为安全助力联通云盾ToB服务能力建设,打造国内首个企业运营商端网协同抗D方案

    联通云盾是中国联通于2017年推出的专业安全品牌,为银行、互联网等头部客户及广大中小企业提供运营商级优质安全服务。联通云盾DDoS防护产品基于运营商骨干网络,提供包括网络攻击监测、攻击防护、攻击溯源
    的头像 发表于 12-01 18:10 276次阅读
    数通365案例 | 华为安全助力联通云盾ToB服务<b class='flag-5'>能力</b>建设,打造国内首个企业<b class='flag-5'>运营商</b>端网协同抗D<b class='flag-5'>方案</b>

    【爱芯派 Pro 开发板试用体验】智能数猪项目概述

    同步。如本地无有线网络条件,可通过4G/NB运营商网络传输,如无运营商信号,可执行本地算法、数据缓存,有网续传,或存储介质导出。
    发表于 11-13 09:40

    达梦数据库在三大运营商云市场全面上线

    武汉2023年10月30日 /美通社/ -- 达梦数据库在中国移动、中国联通、中国电信 云市场上线。移动云、联通云、天翼云云市场是运营商面向云计算、大数据市场,构筑算力引擎的重要云服务平台
    的头像 发表于 10-31 09:14 629次阅读

    UBBF 2023 | 华为提出“品智联接”五大能力,携手运营商共赢数智时代

    ”的主题演讲,提出了品智联接的五大能力。他认为,面向数智化时代,运营商需要品智联接,拥抱新机遇。 华为运营商BG Marketing与 解决方案销售部总裁刘康发表主题演讲 泛在千兆
    的头像 发表于 10-13 23:55 266次阅读
    UBBF 2023 | 华为提出“品智联接”五大<b class='flag-5'>能力</b>,携手<b class='flag-5'>运营商</b>共赢数智时代

    曙光生态环境大数据解决方案助力我国生态环境“大数据”建设

    相通、数据不规范等难题。通过构建智慧高效的生态环境大数据体系成为推动我国生态环境保护的重要支撑。 为全面提升生态环境系统化、科学化、精细化管理水平,曙光推出生态环境大数据解决
    的头像 发表于 10-11 15:51 351次阅读

    AI智能呼叫中心

    智能呼叫中心通过深度学习和大数据分析,能够准确识别、分析和记录用户的个人信息、历史记录和偏好,从而为用户提供更加个性化的服务。例如,在用户拨打电话进入呼叫中心时,AI智能呼叫中心可自动弹出用户的个人资料
    发表于 09-20 17:53

    运营商的数字化转型趋势浅谈

    同时,因为运营商所承担的业务形态、使命和作用,运营商的另一重身份是成为社会数字化转型的推动力,帮助自己的客户实现数字化转型。运营商的二元身份,在推动数字化转型的过程中所创造出来新的商业机会是别的行业所不具备的
    的头像 发表于 09-07 16:29 531次阅读

    数据分析与探索(2)#大数据

    大数据
    未来加油dz
    发布于 :2023年07月18日 13:14:01

    数据分析与探索(1)#大数据

    大数据
    未来加油dz
    发布于 :2023年07月18日 13:13:14

    电商数据分析攻略,让你轻松搞定数据分析!

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为一种普遍行为,拥有一套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是一种
    发表于 06-27 09:22

    电信运营商要主动转型成为数字化方案的提供商

    以中国移动为例,作为数字基础设施提供商,中国移动总结出一套综合解决方案。该方案利用5G﹢AI、物联网、云计算、大数据和边缘计算等技术赋予智能化能力
    的头像 发表于 06-01 17:04 549次阅读