导师说 | 万钰萱:大数据:万物分析的大数据,是算法还是算计?
时间 2020-03-14 15:00:00 ~ 2020-03-14 16:00:00
地点 线上活动
时间 2020-03-14 15:00:00 ~ 2020-03-14 16:00:00
地点 线上活动
【导语】人工智能、大数据、物联网、区块链作为当今信息化发展的新兴技术,离我们的生活越来越近。随着大数据的火热,越来越多的小伙伴开始对大数据产生了兴趣。但是大数据到底是什么?
本期由优投空间、优投学院等联合举办的线上"导师说"公益直播。
专门邀请了北京金山云网络技术有限公司解决方案架构师万钰萱老师,在3月14日下午15:00—16:00,进行了线上直播课程,主题为:“万物分析的大数据,是算法还是算计?”,为学员进行分享并在线答疑解惑,受到一致好评。
本文整理了万钰萱老师的部分分享精华,了解详细内容,推荐收看完整回放。
导师介绍
万钰萱
北京金山云网络技术有限公司解决方案架构师
01
大数据发展概况
随着科技的发展,每个企业,包括政府,我们的数据越来越多,数据是对于信息的一个积累。当数据越来越多的时候,就会出现“杂”的现象。数据主要有以下三个特点:
•
大数据不仅局限于结构型数据,也包括非结构型数据,比如:文字,录音,录像,视频,记录等。
•
大数据是时间敏感的,必须快速识别和快速响应才能适应业务需求。
•
大数据的特点就是巨大。公司充斥着各种数据,经常是TB级, 甚至是PB级的信息量。
例如气象局会储存十年前,甚至二十年前的天气气象数据,这些数据可以有效的利用起来,通过观察近十年或近五年的气象变化来推测未来的天气环境变化。随着存储的数据越来越多,磁盘就不够用了,如何调整存储结构,包括提取数据时的带宽,查询数据时的计算和代换能力以及传感器采集的能力,都会产生一系列的问题。
信息过载世界中的高价值信息提炼产生新的价值
在各式各样数据存储的数据库中,我们如何提取有价值的信息呢?在前面提到,文字、录音、录像、视频、记录等都可以是大数据的信息,这些信息是否有价值,可能在短时间内是看不到的,当通过一次次的积累,可能在某一个领域就会体现出它的价值。
比如以最早使用大数据的购物行业来说,通过对大数据信息的分析,可以根据消费年龄、区域喜好去做区域性的产品推广,带动当地对电商的扶持。
我们要学会从大数据中提炼有价值的信息。
技术向前发展,迭代更新速度加快。
随着技术的发展,技术的演变,会出现便于我们处理数据的知识和技术。我们怎么去采集数据?怎么去做数据的存储,怎么对数据进行计算和处理?甚至生成知识图谱,这些都是衍生出来的知识和技术。
数据是未来企业的核心资源
数字其实就是数据,是数据在量化后得到数字的这样一个阶段,所以会有数字经济。如何将这些数字变成企业有价值的资产?企业需要提取和产品相关的一些应用,比如能想到的在很多领域里面,去帮助他们做工业互联网,智能制造等方面。
传统经济模式下,企业向客户出售产品或服务,以直接赚取金钱为目的。互联网经济下,企业尽可能多地发展用户,不以直接从用户处赚取金钱为目的, 希望通过后向收费或者发掘用户终身价值等方式赚取利润。而数据将是未来企业的重要资产,企业通过数据创造新的商业模式,或直接通过数据售卖以及利用数据提供增值服务获得巨大利润。数据有可能成为未来核心竞争力与收入的重要来源。
近年大数据的投资趋势
从整个大数据的市场数据我们可以看到,未来五年,由于政策支持以及多方技术融合,中国大数据市场将保持稳定增长。IDC机构预测,2019年中国大数据市场总体收益将达到96亿美元,2019年~2023年预测期内的复合年均增长率为23.5%,增速高于全球平均水平。国内大数据在互联网,金融,电信行业落地效果显著。
对于云计算的厂商来说,如果大数据的增长率较高的话,是需要投入很多的精力去做,尤其是创新型的企业,对市场技术方向的把控要有前瞻性的分析,这样才能不落后。如果能在自己的行业先前走一步,就意味着可能会占领高地,对企业转型、拓展业务都是有优势的。
大数据未来发展的几个方向
• 开源:
基于社区的开源技术成熟,商业化及服务也逐渐跟上,成为企业解决方案中的中流砥柱。
• 云化:
弹性、低成本、高性能的云是大数据落地的好伙伴,分布式的思想也会贯穿应用及架构设计的始终。
• 人工智能:
机器学习、数据挖掘 、自然语言理解、模式识别等技术,已渗透到了大数据的各个程序中,成为重要组成。
• 实时分析:
数据价值也成为大数据的核心,实时的分析数据的价值已经成为企业核心竞争力。
数据处理能力增长带来深度技术变革
02
企业大数据的机遇
大数据的机遇
• 政府利用PB级数据建 设智慧城市系统。
• 警务数据分析帮助建立全国300个城市的人员关系网。
• 基础设施建设几分钟内10PB的数据分析能力来避免停电。
• 证券交易所将2PB数据 的查询时间从26小时缩 减到2分钟。
• 电信网络数据流分析使 硬件成本降低90%。
• 医院病理数据分析为疾病检测争取到生死攸关的24小时。
这些都将成为企业大数据的机遇。原先处理的方式,只能靠巡检发现哪里有问题再去解决,现在运用大数据,通过在线自动巡检,发现参数有问题就会及时解决,提高了很多效率,降低了人工成本。
大数据的特点
• 有效的处理日益增长的数据
• 应对数据日益增长的速度
• 综合分析覆盖面 越来越宽的种类
技术创新贯穿行业始终
技术本身是贯穿于大数据行业。我们经常提到的物联网、VR虚拟技术,这些都是用作于对数据的采集;云计算和区块链,提供云资源、存储以及数据化处理的功能;移动互联可以做的是让数据快速的应用,移动互联是非常便捷的,包括现在的很多应用都是用移动的APP来实现;智能化和认知技术,主要是对数据进行服务,对数据进行可视化、智能化、便于搜索、对知识的互联互通,包括共享等。
大数据产品定位
做大数据的产品,首先定位用户如何利用大数据去解决业务能力上的问题,大数据应该怎么存储,怎么利用计算能力解决用户的问题,而且要具备一定的开发能力。
面向企业云、行业云、公有云等不同应用场景,提供统一、云化、高效、 安全的一站式大数据智能服务。
• 企业传统IT场景:
解决用户大数据应用基础存 储计算能力,解决业务快速 开发能力
• 企业云场景:
将云搬到客户家里,云化弹 性资源,统一数据管理,提 效数据业务开发,释放数据 价值
• 行业云场景:
帮助用户自建公有云产品 平台,对外输出大数据产 品与服务
• 公有云场景:
云端业务数据分析、云外数据快 速上云,云端数据快速迁移、集 约资源管理,提效业务开发,开放数据价值
大数据对各行业的机遇--商业价值
银行/金融
解决的问题:
• 贷款、保险、发卡等多业务线数据集成分析、市场评估
• 新产品风险评估
• 股票等投资组合趋势分析
商业价值:
• 增加市场份额
• 提升客户忠诚度
• 降低金融风险
医疗
解决的问题:
• 共享电子病历及医疗记录,帮助快速诊断
• 穿戴式设备远程医疗
商业价值:
• 改善诊疗质量
• 加快诊疗速度
制造/高科 技
解决的问题:
• 产品故障、失效总和分析
• 专利记录检索
• 智能设备全球定位、位置服务
商业价值:
• 优化产品设计、制造
• 降低维修成本
• 加快问题解决
能源
解决的问题:
• 勘探、钻井等传感器阵列数据集中分析
商业价值:
• 降低工程事故风险
• 优化勘探过程
互联网
解决的问题:
• 在线广告投放
• 商品评分、排名
• 社交网络自动匹配
商业价值:
• 提升网络用户忠诚度
• 改善社交网络体验
• 向目标客户提供针对性的商品
政府
解决的问题:
• 智慧城市信息网络集成
• 天气、地理、水电煤等公共数据流收集、研究
• 公共安全信息集中处理、智能分析
商业价值:
• 更好的对外提供公共服务
• 舆情分析
• 准确预判安全威胁
零售
解决的问题:
• 基于用户位置信息的精确促销
• 社交网络购买行为分析
商业价值:
• 促进客户购买热情
• 顺应客户购买行为习惯
大数据相关技术储备
首先数据采集分析,然后对数据进行处理,处理好的数据进行存储、计算,最后应用。
大数据PAAS推到前台 ——覆盖数据生产到消费的全流程
技术人才储备战略
•
•
•
•
03
大数据应用场景及案例
大数据产品介绍-金山云智
01 基础大数据平台:提供大数据底层分布式存储计算能力。
• 产品:KDE、KMR、KDW
02 大数据开发平台:满足私有云特性,企业级多租户管理、多租户下统一 数据管理,支持一站式数据采集、集成、批/流/实时 开发、调度。
• 产品:数据采集、数据集成、离线开发、实时开发、图 开发、智能调度
03 数据湖管理和分析平台:提供统一的多源异构数据源管理能力,提供快速 进行数据探索分析查询能力。
• 产品:数据湖管理、数据湖分析
04 数据中台服务套件:结合大数据开发平台,提供数据资产管理、数据服务、 服务市场等中台治理管理平台。
• 产品:数据资产管理、数据服务开发、数据服务管理
05 大数据云平台:提供完善的多租户隔离、运营管理、运维平台, 帮助客户快速构建满足业务输出的云能力。
• 产品:公有云输出能力,包含01-04产品
06 公有云产品:覆盖基础大数据平台、一站式大数据开发、测试、生产 环境,在端云提供数据开发、中台套件、数据湖分析等 综合能力,帮助用户快速处理分析和应用云端数据。
应用场景
数据仓库建设
【场景】
将公司内部各个系统中分散的数据进行统一,形成一个统一的数据仓库系统,进而为公司决策和产品改进提供数据支持。
【挑战】
各个业务系统中的数据分散,如何汇总?
汇集的数据质量口径不一,无法使用?
数据周期性运行依赖复杂,任务众多,如何在规定时间内完成调度?
【方案】
1.数据集成:使用数据同步能力,快速简易的实现多种不同源数据的增量/全量同步, 将数据进行快速汇集 数据同步过程中,同步进行数据规范性转换,数据默认值设置,质量检核等,确保汇总数据有用可用。
2. 离线数据开发支持多种类型开发脚本,保证数据仓库分层。
3. 智能调度 支持多种复杂任务依赖,满足各类周期性调度需求。
自助实时报表
【场景】
业务组同事经常需要紧急制作一张报表,不希望排期,能够自助完成,并且报表最好能够准实时,不希望是T+1。
【挑战】
数据从哪里来?
哪些是我需要的数据?
只会简单SQL可以进行实时数据开发吗?
【方案】
1.数据采集:将业务系统数据实时采集到消息队列中。
2. 流数据开发:对接数据采集消息队列,使用SQL的方式快速进行流式数据的开发,实时将流式数据计算结果sink到多种类型目标库 。
3.分析与可视化 :对接多种类型目标库,进行多维度的数据展示,生成可视化报表。
数据分析探查
【场景】
业务数据较多,且存储数据库各异,如何在不进行数据迁移的情况下进行跨源的数据探查,定位到我需要的数据 。
【挑战】
跨源数据如何探查?
跨源关联是否可行?
探查数据是否可共享?
【方案】
1.数据服务:提供了跨源异构数据之间的关联分析,快速从各个业务系统 中定位需要数据集 。
API功能将数据结果已API的方式实现数据共享。
协作模型指导
【场景】
业务系统打造自己的数据集市后,如何共享给其他业务或 者前线系统使用,既要避免重复建设,又能保证数据安全。
【挑战】
如何有效的建设数据模型和管理数据模型?
如何快速探查到现有仓库数据能否满足我的要求?
数据的共享发布如何确保数据需求方申请的便易性和数据 所有方数据的安全性?
【方案】
1.数据管理 :统一的元数据托管服务,确保模型的可维护。
表级别和字段级别的的数据搜索,支持现有数据探查,找到需要的表。
数据申请与审批的流程化,既确保了数据的安全性,又缩短数据申请周期。
WPS案例
WPS是国内第一大正版化的办公软件,WPS的维护、存储和整个运行的数据是非常大的。
业务简述:
• wps是知名的办公软件提供商
• 旗下拥有wps office,wps mail,金山词霸等多款明星产品
• 拥有PB级别的存量数据和每天TB级别的增量数据
• 离线数据使用KS3存储,使用SPARK和Hive进行计算分析
需求痛点:
• 存量和增量数据庞大,数据存储成本高
• 业务增长迅速,大数据分析集群需要频繁扩容
• 数据分析业务不稳定,故障频繁
• 集群运维成本高
• 缺乏专业的大数据调优专家
WPS大数据处理方案
WPS有两种处理方案,一种是离线数据处理方案,部署在客户的一个现场。另一种是公有云实时处理方案,就是实时办公,这些都是通过对底层数据的搜集和处理,来维护系统,保证客户正常使用,即使出了故障,也保证数据不丢失。
04
Q&A环节
学员:金山云和腾讯云、百度云、阿里云、华为云不一样的地方有哪些?
万钰萱老师:云其实是分为三大梯队,第一梯队是互联网梯队,或者叫公有云梯队,像阿里、腾讯、金山。硬件厂商、设备厂商是另一个梯队,像华为、华三是硬件厂商起家,连带做他们的云,第三个梯队运营商梯队,比如移动、电信等。
百度云是属于云公司,但不是专门做云的公司,是属于技术互联网的公司。公有云的厂商是有大量的公有云机房,基础设施能力、运维能力都是很多小厂商没有办法比拟的。公有云厂商可以做直播类,直播最重要的是做流量的清洗,大厂商能做是因为有流量清洗的机房,有特别大的带宽将流量引入清晰机房里。
梯队不一样,就体现在能力不一样。
学员:请问金山云上有哪些游戏应用服务吗?
万钰萱老师:金山云目前是国内最大的视频云和游戏云的厂商,目前游戏应用服务非常多,给很多游戏厂商提供服务。游戏本身对网络和存储要求非常高,这块基本都在公有云上实行,应用方面把人工智能加进去,像对游戏画面用人工智能去看装备的状态,还有对游戏界面很多图形图像进行处理。
时间:2020-03-14 15:00:00 2020-03-14 16:00:00
地点:线上活动