数据分析领域的几点观察

CDO首席数据官    发布于:2021-09-22 浏览 32

数据,是人工智能的基础;海量数据,为智能的提升提供了可能。与此同时,人工智能也为大数据高阶发展,提供助力。

在过去的两年,数据分析领域发了诸多变化。近期阅读了很多资料,尝试从行业、产品、技术等角度,谈谈自己的几点观察。供各位参考!

1. 行业趋势

数据分析行业近期发展,较之前有些显著的变化。下面是2019年12月10日的数据资产管理大会上,信通院发布的大数据产品能力评测结果。通过对比近几批次的评测结果,可对当前行业的变化有所发现。说明下其背景情况,中国信息通讯研究院(简称:信通院),会定期组织国内外数据库、大数据厂商针对数据领域的一些典型业务场景进行产品评估测试,拟在建立行业标准、促进生态发展等方面有所指引。

我将其总结为如下几个关键词:

  • 规模化

    随着大数据行业发展,越来越多的企业产品具备大规模部署应用能力。这也说明经过多年积累,大数据基础能力已逐步成熟。作为技术底座,未来的数据应用将有很好的底层支撑来满足日益增长的数据类需求。

  • 多元化

    从近几年的测试产品来看,从初期的单一批处理平台,到批处理平台、分析型数据库、流式处理平台、时序数据库等。随着业务场景的多元化,底层技术平台也呈现多元化趋势。这也侧面印证了数据应用正在更多场景下落地。

  • 成熟度

    在评测过程中,分为基础能力类和性能类。基础能力,更多是强调从功能层面满足需求。从提交评测的厂商产品来看,都以高通过率通过测试。这说明了多年积累后,功能性问题已经得到很好的解决。当然,这也会带来更高的要求。如何做到差异化,提升产品价值是摆在各厂商面前的核心问题。这点,后面还会谈到。

  • 高性能

    作为更高的技术制高点,在满足基础能力之后,如何提供更大规模、更大处理能力的产品,是后续的要点。近些年来,已经有更多的厂商参与到性能测试中来,不断地刷新测试规模。其背后蕴含的处理能力,业务大规模数据业务的使用,做好了铺垫。

2. 产品趋势

 

  • Hadoop生态衰退

    Hadoop生态,正面临越来越多的问题。一方面,来自于技术本身的冲击。Spark、Flink、ES甚至MongoDB、ClickHouse等,都在蚕食着传统Hadoop的市场。其各自的产品,尤其鲜明的特点,在某些领域非常适合。正如logo所显示的,Hadoop这头大象似乎转身乏力。另一方面,其生态环境也发生了变化。Hadoop领域免费午餐恐消失,大型技术公司普遍采用开源与自研两条腿走路的方式,应对不确定性。即使在商业化领域,两大巨头合并后的下滑,也为可能的商业模式蒙上阴影。

  • 分析型数据库的春天

    曾几何时,分析型数据库被打入冷宫。在原有单体数据库发展达到瓶颈点后,分布式分析型数据库扩展有限的情况下,大数据平台成为当时不二的选择。但经过多年的使用,大数据平台的各种弊端也逐步暴露出来。其复杂、多元、非标准、不统一的技术体系,对大多数公司来说门槛很高。但随着近些年来的发展,分布式分析型数据库正悄然间成熟起来。上图显示的H3C、华为、阿里云的产品,正不断突破规模的限制,其具备的处理能力已可以满足绝大多数企业客户的需求。这一领域的玩家不断增多,并以其友好的SQL接口,简易的入手难度,占据数据分析市场。可以说,分布式分析型数据库的春天来了。

  • 开源与自研结合

    从各产品发展来看,PG生态占据了大半壁江山。这主要是其完备的企业级特性和友好的开源协议所致。即使是自研部分,也尽量采用兼容开源的外部协议。在兼容开源的基础上,充分享受生态红利。而基于标准,也有利于互通互荣。

  • 数据管理渐成热点

    随着数据平台产品,在功能上逐步成熟完备、在性能上也不断突破。在下一阶段的产品发展中,数据管理逐渐成为热点。企业客户,已不再满足低层次的功能需求,而是提出了更高的要求。即原有能力,仅仅是满足的数据存储、计算的诉求,后续在挖掘数据价值、提供数据服务等方面提出要求。其强调更好的集成能力,集成包括数据质量、数据标准、数据模型、数据安全等诸多功能于统一平台;二是通过元数据、数据模型,来打通数据的全面管理;三是提供多样化的数据服务,进而将数据作为资产进行运营。上图,是DAMA组织的数据治理架构图,其功能域可见一二。

3. 技术趋势

  • 算力:异构计算,统一接口

    除了传统的结构化数据外,半/非结构化数据正不断被企业挖掘,进而计算产生价值。通过统一平台,提供多种异构计算能力,正成为对数据底层平台的基本要求。用户可按照统一的方式,去访问各类数据。

  • 流批:流批一体,相互融合

    流式、批量处理需求,原为截然不同的两类场景,但现在正趋于融合。传统上的批处理,通过mini batch类方式提供近似流式的处理能力;或直接通过流式接口访问数据。流式处理平台,也通过其独有的计算方式,对加速批处理等场景,发挥更大的作用。

  • TA:事务与分析融合,HTAP渐热

    单一数据源,不同业务场景,混合负载类型的处理,正成为一种趋势。用户不在需要将数据搬来搬去,可通过一个平台完成。这颇具吸引力,当然也要看到,目前这一趋势还在发展中,尚没有较为成熟的处理方案。部分厂商正在布局中。其实现原理,其实还是一个平台、两套存储、两个引擎方式实现,只不过存储对用户透明而已。

  • 模块:一站式数据能力复用平台

    如前所说,真正为用户带来价值的是业务的提升。如何更好的使用数据,仅仅依靠存储+计算的基础能力是不够的,用户更为关心的是综合平台,可以一站式的方式使用好数据。

  • 云数:满足构建云原生数据产品能力

    满足用户构建云原生产品的能力,其基础平台首先要满足云原生能力。即可提供弹性的存储、计算能力和完备的上下游云生态。基于这两点,用户才可以快速地构建自己的云原生产品能力。

  • 数智:人工智能与大数据融合

    数据,是人工智能的基础;海量数据,为智能的提升提供了可能。与此同时,人工智能也为大数据高阶发展,提供助力。例如:通过人工智能对数据治理领域的很多问题,提供更好的算法辅助等等。

本文内容转载自“CDO首席数据官”(ID:EA_Practice),作者 韩锋频道  。

收藏此文章 点赞此文章

评论 (0)

暂无用户回复

评论此篇文章

登录后可回复
/1000

CDO首席数据官

文章: 1篇

专注数据领域的研究与实践,不断提升数据认知能力,分享数据思维、数据知识、数据实践的成长经验。( 微信号: EA_Practice)