重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
移动互联网和大数据日益发展,沉淀的数据越来越多,数据的质量、使用效率、数据安全等等各类的问题迎面而来。为了让数据发挥最大的价值,数据治理作为数智化战略的一项必要举措,列入了大多数企业的战略行动计划,业界也有“数字转型、治理先行”的说法。但是谈到数据治理,业界有一个普遍的共识,那就是 “数据治理说起来容易,做起来难”。怎么通过数据治理解决这些难题?数据治理究竟难在哪里?华为作为典型的非云原生企业是如何应对的呢?
网站建设哪家好,找成都创新互联公司!专注于网页设计、网站建设、微信开发、成都微信小程序、集团企业网站建设等服务项目。为回馈新老客户创新互联还提供了沧源免费建站欢迎大家使用!
2018到2021年间全球8300家标杆企业中,全面拥抱数字技术的前10%企业相比后25%企业营收增速超过5倍。数字化转型浪潮下,数据资产将成为关键生产要素支撑未来数据产业化升级,是未来政企实现跨越式发展的必然选择。
根据华为在政企行业多年的深入耕耘和自身转型的实践,我们发现,优质高效的数据底座,是保障政企运营效率持续提升和业务创新升级的重要基石。我们深知打破数据孤岛、确保数据准确、促进数据共享、保障数据隐私与安全,是政企数据治理的关键。当前很多企业数据体系建设呈现出“烟囱化”的趋势,为政企数据治理带来了四大挑战:
l 进不来 :数据来源复杂,集成难;
l 质量差 :数据质量要求高,规则校验多,落地难;
l 出不去 :数据烟囱林立,业务和数据匹配难,共享难;
l 不放心 :数据安全、交互风险高。
早期的华为是典型的非数字原生企业。从2007年开始,我们通过两个阶段的持续变革,系统地完成了数据管理体系建设,实现业务感知和ROADS体验的数字化转型:
l 阶段一(2007-2017) :设立数据管理专业组织,建立数据管理框架,发布数据管理政策,通过统一信息架构与标准、有效的数据质量改进机制,提升数据质量,实现数据全流程贯通,业务运作效率整体提升。
l 阶段二(2017-至今): 建设数据底座,汇聚和联接全域数据,实现数据业务可视、随需共享、敏捷自助、安全透明的目标,支撑准确决策和数据创新,构筑差异化竞争力。
华为经过十多年的实践,我们总结出 “4层保障”和“2个抓手”(信息架构、数据质量) ,实现清洁数据,充分释放数据价值的核心手段。
4层保障包括:
l 政策保障: 从目的、适用范围、管理原则、问责等方面进行政策制定,公司层面需统一遵从,确保业务与IT共同参与数据治理。
l 流程保障: 建立数据管理流程,重大决议由企业变革指导委员会决策,通过变革管理体系和流程运营体系落地。
l 组织保障: 按领域任命数据管理Owner和团队,建立实体化数据管理组织承接数据管理改进目标。
l IT落地保障: 建设承载面向“联接共享”的数据底座和数据服务融合的统一IT平台,完成数据全流程流转与价值变现。
2个抓手是指:
l 信息架构: 构建面向“业务交易”的信息架构,描述业务运作和管理决策所需要的各类数据及其关系,保障企业内统一“数据语言”。
l 数据质量: 建立数据质量管理框架和运作机制,例行开展公司级数据质量评估,由企业数据管理组织定期发布报告,牵引各业务领域持续改进。
上述的4层保障和2个抓手,构成了企业数据战略资产综合治理体系,能够确保关键数据资产的有清晰的业务管理责任,IT落地有稳定清晰的原则依据,作业人员有规范的流程指导。遇到争议时,有裁决和升级处理机制,治理过程有充足的人力、组织、预算保障。只有建立起有效的数据治理环境,数据的质量和安全才能得到保障,数据的价值才能真正发挥。
作为华为数字化转型的底座,华为云沉淀了大量的实践经验和方案能力,并通过华为云Stack来赋能政企,加速各行各业的数字化转型。在数据治理领域,华为云Stack为政企提供数据湖治理中心服务(DGC)来帮助企业客户快速构建数据运营能力。DGC是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务、数据可视化等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座。下面我们就来一起看看DGC是怎样应对我们前面提到的挑战:
l 进的来:简单高效的物理和逻辑数据集成保障数据全面入湖
非数字原生企业发展普遍有较长的 历史 ,随着不同阶段的发展需求,业务系统间存在大量复杂的集成和嵌套,数据来源多样,数据形成孤岛难以集中共享。
数据集成:简单易用的多源异构数据批量和实时接入
DGC能够提供活易用的可视化配置与迁移任务编排,将数据迁移和集成的效率提升数十倍。除主流关系型数据库支持外,还支持对象存储、NoSQL等40余种同/异构数据源及三方大数据平台批量迁移入湖。 DGC物理入湖与HetuEngine跨湖跨仓协同的逻辑入湖 作为两种重要数据集成方式协同互补,满足数据联接和用户数据消费不同场景需求,支撑客户数据湖从离线走向实时,构建物理分散、逻辑统一的逻辑数据湖。
l 理的清:从源端架构到平台工具端到端数据质量保障
企业级信息架构:结构化的方式实施有效的治理
企业在运转过程中,需要定义业务流程中涉及的人、事、物资源,实施有效的数据治理,确保各类数据在企业业务单元间高效、准确地传递,上下游流程快速执行和运作。企业长期存在信息架构与IT开发实施“两张皮”的现象,数据人员和IT人员缺乏统一协同,企业数据架构混乱,信息架构资产和产品实现逻辑割裂,数据模型资产缺失。
平台工具和服务:一体化开发设计,端到端专业服务,有机联动保障数据质量
结合华为数据治理专家团队与项目实践经验,DGC规范设计实现了一体化设计和开发,不仅确保了元数据验证、发布和注册的一致性,而且实现了产品数据模型管理和资产可视,同时辅以专业的数据治理服务团队、成熟项目管理机制和丰富的实践经验,支撑企业构建高质量的清洁数据架构和能力。在政务大数据中心通过DGC一体化平台和专业服务,完成多个委办局全量数据接入,落地数据分层架构模型设计,完成基础库与主题库的建设,实现委办局数据全流程生命周期设计与落地,涵盖数据架构和模型设计、数据标准设计、数据模型物化、数据质量稽核作业等,助力领导决策支持、宏观经济云图和惠民APP示范应用系统上线。
l 出得去:通过数据服务和数据地图实现数据自助消费
数据底座建设的目标是便捷地支撑数据消费,确保用户安全可靠地获取数据,并通过灵活的数据分析等方式,按需快捷的消费数据。
数据服务:服务化方式供应数据
通过服务化方式对外提供,用户不再直接集成数据,而是通过聚合应用模型可视化构建,涵盖API发布、管理、运维、售卖的全生命周期管理,作为业务的“可消费产品”的关键要素之一,解决了数据的可供应性。
数据地图:从查询到分析到使用一站式自助
以数据搜索为核心,综合反映数据的来源、数量、质量、分布、标准、流向、关联关系,满足多用户、多场景的数据消费需求,解决了数据“可搜索/可获取性”的难点问题。消费方获取数据后,还支持从数据查询到拖拽式分析的端到端的一站式自助作业,帮助数据消费者结合自身需要获取分析结果,满足业务运营中数据实时可视化需求。
l 用的安:从模型、制度到平台多维度打造立体化数据安全体系
安全能力模型评估:系统化安全管理抓手
数据安全能力成熟度模型是数据安全建设中的系统化框架,围绕数据全生命周期,结合业务的需求以及监管法规的要求,持续不断的提升组织整体的数据安全能力,提升数据安全水平和行业竞争力,确保数据生产要素安全流通和数字经济 健康 发展。在多个项目中,华为通过安全评估、安全加固等专业服务,助力客户高分通过等保评估,实现数据安全流通。
从制度到工具和服务:统一安全治理框架落地
数据安全治理需要从决策层到技术层,从管理制度到工具支撑和服务体系,自上而下形成贯穿整个组织架构的完整链条。企业组织内的各个层级之间需要对数据安全治理的目标达成共识,确保采取合理和适当的措施;DGC数据安全定义数据密级、认证数据源、对数据动静态脱敏及添加水印等方式以最有效的方式保护数字资产。
企业数字化转型逐步进入深水区,如何提升海量数据治理的效率和准确率,如何将专家经验固化传递都面临巨大的挑战。人工智能与数据治理深度融合将会开启数据治理的新阶段,通过AI加速企业数据生产要素的变现、进一步释放数据价值。
l 智能数据资产编目
基于AI的智能数据编目系统具备数据的学习、理解和推理能力,帮助团队实现数据自主、简化数据 探索 、实现重要数据资产智能编目推荐。
l 智能数据标准推荐/去重
通过机器学习技术,自动扫描元数据信息,提炼关键数据项,智能识别新增数据标准、冗余存量数据标准去重,提高智能化程度。
l 智能重复/异常数据检测
智能重复/异常数据检测技术,将数据根据相似读音、相似数据类型分组,通过模型计算相似度得分,超出规定阈值时,自动异常检测和识别。
l 智能主外键识别
通过筛选候选主外键时构造特征向量,并调用分类器智能判别该元数据是否为主外键,提升数据模型质量,进而优化和简化后续资产梳理和对外提供数据服务。
数据是物理世界、数字世界和认知世界相互联接转换的纽带,大规模数据交互将构成庞大的政企数据生态。政企数字化转型不能一蹴而就,数据治理亦非一朝一夕之功,治理的数据规模日趋庞大,类型千变万化,手段也更智能丰富,需要我们共同携手从制度、流程、技术、生态多维度一起努力,构建数据智能新世界。
五大商业分析技术趋势及使用方式(1)
目前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度。例如,随着越来越多的公司开始不得不面对海量数据以及考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现。提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以帮助他们运营业务。
在采访中,首席信息官们总结出了5大影响他们进行分析的IT趋势。它们分别为:大数据的增长、快速处理技术、IT商品的成本下降、移动设备的普及和社交媒体的增长。
1. 大数据
大数据指非常庞大的数据集,尤其是那些没有被整齐的组织起来无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境与监视传感器的数据都使得公司的数据变得比以往越来越复杂。
尽管并不是每个公司都需要处理大型、非结构型数据集的技术。Verisk Analytics公司首席信息官Perry Rotella认为所有的首席信息官都应当关注大数据分析工具。Verisk帮助金融公司评估风险,与保险公司共同防范保险诈骗,其在2010年的营收超过了10亿美元。
Rotella认为,技术领导者对此应当采取的态度是,数据越多越好,欢迎数据的大幅增长。Rotella的工作是预先寻找事物间的联系与模型。
HMS公司首席信息官Cynthia Nustad认为,大数据呈现为一种“爆炸性”增长趋势。HMS公司的业务包括帮助控制联邦医疗保险(Medicare)和医疗补助(Medicaid)项目成本和私有云服务。其客户包括40多个州的健康与人类服务项目和130多个医疗补助管理计划。HMS通过阻止错误支付在2010年帮助其客户挽回了18亿美元的损失,节约了数十亿美元。Nustad称:“我们正在收集并追踪大量素材,包括结构性与非结构性数据,因为你并不是总是知道你将在其中寻找什么东西。”
大数据技术中谈论最多的一项技术是Hadoop。该技术为开源分布式数据处理平台,最初是为编辑网络搜索索引等任务开发的。Hadoop为多个“非关系型(NoSQL)”技术(其包括CouchDB 和 MongoDB)中的一种,其通过特殊的方式组织网络级数据。
Hadoop可将数据的子集合分配给成百上千台服务器的处理,每台服务器汇报的结果都将被一个主作业调度程序整理,因此其具有处理拍字节级数据的能力。Hadoop既能够用于分析前的数据准备,也能够作为一种分析工具。没有数千台空闲服务器的公司可以从亚马逊等云厂商那里购买Hadoop实例的按需访问。
Nustad称,尽管并不是为了其大型的联邦医疗保险和医疗补助索赔数据库,但是HMS正在探索NoSQL技术的使用。其包括了结构性数据,并且能够被传统的数据仓库技术所处理。她称,在回答什么样的关系型技术是经实践证明最好用的解决方案时,从传统关系型数据库管理出发是并不明智。不过,Nustad认为Hadoop正在防止欺诈与浪费分析上发挥着重要作用,并且具备分析以各种格式上报的病人看病记录的潜力。
在采访中,那些体验过Hadoop的受访首席信息官们,包括Rotella和Shopzilla 公司首席信息官Jody Mulkey在内都在将数据服务作为公司一项业务的公司中任职。
Mulkey称:“我们正在使用Hadoop做那些以往使用数据仓库做的事情。更重要的是,我们获得了以前从未用过的切实有用的分析技术。”例如,作为一家比较购买网站,Shopzilla每天会积累数太字节的数据。他称:“以前,我们必须要对数据进行采样并对数据进行归类。在处理海量数据时,这一工作量非常繁重。”自从采用了Hadoop,Shopzilla能够分析原始数据,跳过许多中间环节。
Good Samaritan医院是一家位于印第安纳州西南的社区医院,其处于另一种类型。该医院的首席信息官Chuck Christian称:“我们并没有我认为是大数据的东西。”尽管如此,管理规定要求促使其存储整如庞大的电子医疗记录等全新的数据类型。他称,这无疑要求他们要能够从数据中收集医疗保健品质信息。不过,这可能将在地区或国家医疗保健协会中实现,而不是在他们这种单个医院中实现。因此,Christian未必会对这种新技术进行投资。
Island One Resorts公司首席信息官John Ternent称,其所面临的分析挑战取决于大数据中的“大”还是“数据”。不过,目前他正在谨慎地考虑在云上使用Hadoop实例,以作为一种经济的方式分析复杂的抵押贷款组合。目前公司正在管理着佛罗里达州内的8处分时度假村。他称:“这种解决方案有可能解决我们目前正遇到的实际问题。”
2.商业分析速度加快
肯塔基大学首席信息官Vince Kellen认为,大数据技术只是快速分析这一大趋势中的一个元素。他称:“我们期待的是一种更为先进的海量数据分析方法。”与更为快速地分析数据相比,数据的大小并不重要,“因为你想让这一过程快速完成”。
由于目前的计算能够在内存中处理更多的数据,因此与在硬盘中搜索数据相比,其计算出结果的速度要更快。即使你仅处理数G数据,但情况依然与此。
尽管经过数十年的发展,通过缓存频繁访问的数据,数据库性能提升了许多。在加载整个大型数据集至服务器或服务器集群的内存时,这一技术变得更加实用,此时硬盘只是作为备份。由于从旋转的磁盘中检索数据是一个机械过程,因此与在内存中处理数据相比,其速度要慢许多。
Rotella称,他现在几秒中进行的分析在五年前需要花上一个晚上。Rotella的公司主要是对大型数据集进行前瞻性分析,这经常涉及查询、寻找模型、下次查询前的调整。在分析速度方面,查询完成时间非常重要。他称:“以前,运行时间比建模时间要长,但是现在建模时间要比运行时间长。”
列式数据库服务器改变了关系型数据库的传统行与列结构,解决了另一些性能需求。查询仅访问有用的列,而不是读取整个记录和选取可选列,这极大地提高了组织或测量关键列的应用的性能。
Ternent警告称,列式数据库的性能优势需要配合正确的应用和查询设计。他称:“为了进行区别,你必须以适当的方式问它适当的问题。”此此同时,他还指出,列式数据库实际上仅对处理超过500G字节数据的应用有意义。他称:“在让列式数据库发挥作用之前,你必须收集一规模的数据,因为它依赖一定水平的重复提升效率。”
保险与金融服务巨头John Hancock公司的首席信息官Allan Hackney称,为了提高分析性能,硬件也需要进行提升,如增加GPU芯片,其与游戏系统中用到的图形处理器相同。他称:“可视化需用到的计算方法与统计分析中用到的计算方法非常相似。与普通的PC和服务器处理器相比,图形处理器的计算速度要快数百倍。我们的分析人员非常喜欢这一设备。”
以上是小编为大家分享的关于五大商业分析技术趋势及使用方式(1)的相关内容,更多信息可以关注环球青藤分享更多干货
大数据时代:五大商业分析技术趋势
目前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度。例如,随着越来越多的公司开始不得不面对海量数据以及 考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现。提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以 帮助他们运营业务。
在采访中,首席信息官们总结出了5大影响他们进行分析的IT趋势。它们分别为:大数据的增长、快速处理技术、IT商品的成本下降、移动设备的普及和社交媒体的增长。
1.大数据
大数据指非常庞大的数据集,尤其是那些没有被整齐的组织起来无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境与监视传感器的数据都使得公司的数据变得比以往越来越复杂。
尽管并不是每个公司都需要处理大型、非结构型数据集的技术。VeriskAnalytics公司首席信息官PerryRotella认为所有的首席信息 官都应当关注大数据分析工具。Verisk帮助金融公司评估风险,与保险公司共同防范保险诈骗,其在2010年的营收超过了10亿美元。
Rotella认为,技术领导者对此应当采取的态度是,数据越多越好,欢迎数据的大幅增长。Rotella的工作是预先寻找事物间的联系与模型。
HMS公司首席信息官CynthiaNustad认为,大数据呈现为一种“爆炸性”增长趋势。HMS公司的业务包括帮助控制联邦医疗保险 (Medicare)和医疗补助(Medicaid)项目成本和私有云服务。其客户包括40多个州的健康与人类服务项目和130多个医疗补助管理计划。 HMS通过阻止错误支付在2010年帮助其客户挽回了18亿美元的损失,节约了数十亿美元。Nustad称:“我们正在收集并追踪大量素材,包括结构性与 非结构性数据,因为你并不是总是知道你将在其中寻找什么东西。”
大数据技术中谈论最多的一项技术是Hadoop。该技术为开源分布式数据处理平台,最初是为编辑网络搜索索引等任务开发的。Hadoop为多个“非关系型(NoSQL)”技术(其包括CouchDB和MongoDB)中的一种,其通过特殊的方式组织网络级数据。
Hadoop可将数据的子集合分配给成百上千台服务器的处理,每台服务器汇报的结果都将被一个主作业调度程序整理,因此其具有处理拍字节级数据的能力。 Hadoop既能够用于分析前的数据准备,也能够作为一种分析工具。没有数千台空闲服务器的公司可以从亚马逊等云厂商那里购买Hadoop实例的按需访 问。
Nustad称,尽管并不是为了其大型的联邦医疗保险和医疗补助索赔数据库,但是HMS正在探索NoSQL技术的使用。其包括了结构性数据,并且能够被 传统的数据仓库技术所处理。她称,在回答什么样的关系型技术是经实践证明最好用的解决方案时,从传统关系型数据库管理出发是并不明智。不过,Nustad 认为Hadoop正在防止欺诈与浪费分析上发挥着重要作用,并且具备分析以各种格式上报的病人看病记录的潜力。
在采访中,那些体验过Hadoop的受访首席信息官们,包括Rotella和Shopzilla公司首席信息官JodyMulkey在内都在将数据服务作为公司一项业务的公司中任职。
Mulkey称:“我们正在使用Hadoop做那些以往使用数据仓库做的事情。更重要的是,我们获得了以前从未用过的切实有用的分析技术。”例如,作为 一家比较购买网站,Shopzilla每天会积累数太字节的数据。他称:“以前,我们必须要对数据进行采样并对数据进行归类。在处理海量数据时,这一工作 量非常繁重。”自从采用了Hadoop,Shopzilla能够分析原始数据,跳过许多中间环节。
GoodSamaritan医院是一家位于印第安纳州西南的社区医院,其处于另一种类型。该医院的首席信息官ChuckChristian称:“我们并 没有我认为是大数据的东西。”尽管如此,管理规定要求促使其存储整如庞大的电子医疗记录等全新的数据类型。他称,这无疑要求他们要能够从数据中收集医疗保 健品质信息。不过,这可能将在地区或国家医疗保健协会中实现,而不是在他们这种单个医院中实现。因此,Christian未必会对这种新技术进行投资。
IslandOneResorts公司首席信息官JohnTernent称,其所面临的分析挑战取决于大数据中的“大”还是“数据”。不过,目前他正在 谨慎地考虑在云上使用Hadoop实例,以作为一种经济的方式分析复杂的抵押贷款组合。目前公司正在管理着佛罗里达州内的8处分时度假村。他称:“这种解 决方案有可能解决我们目前正遇到的实际问题。”
2.商业分析速度加快
肯塔基大学首席信息官VinceKellen认为,大数据技术只是快速分析这一大趋势中的一个元素。他称:“我们期待的是一种更为先进的海量数据分析方法。”与更为快速地分析数据相比,数据的大小并不重要,“因为你想让这一过程快速完成”。
由于目前的计算能够在内存中处理更多的数据,因此与在硬盘中搜索数据相比,其计算出结果的速度要更快。即使你仅处理数G数据,但情况依然与此。
尽管经过数十年的发展,通过缓存频繁访问的数据,数据库性能提升了许多。在加载整个大型数据集至服务器或服务器集群的内存时,这一技术变得更加实用,此时硬盘只是作为备份。由于从旋转的磁盘中检索数据是一个机械过程,因此与在内存中处理数据相比,其速度要慢许多。
Rotella称,他现在几秒中进行的分析在五年前需要花上一个晚上。Rotella的公司主要是对大型数据集进行前瞻性分析,这经常涉及查询、寻找模 型、下次查询前的调整。在分析速度方面,查询完成时间非常重要。他称:“以前,运行时间比建模时间要长,但是现在建模时间要比运行时间长。”
列式数据库服务器改变了关系型数据库的传统行与列结构,解决了另一些性能需求。查询仅访问有用的列,而不是读取整个记录和选取可选列,这极大地提高了组织或测量关键列的应用的性能。
Ternent警告称,列式数据库的性能优势需要配合正确的应用和查询设计。他称:“为了进行区别,你必须以适当的方式问它适当的问题。”此此同时,他 还指出,列式数据库实际上仅对处理超过500G字节数据的应用有意义。他称:“在让列式数据库发挥作用之前,你必须收集一规模的数据,因为它依赖一定水平 的重复提升效率。”
保险与金融服务巨头JohnHancock公司的首席信息官AllanHackney称,为了提高分析性能,硬件也需要进行提升,如增加GPU芯片,其 与游戏系统中用到的图形处理器相同。他称:“可视化需用到的计算方法与统计分析中用到的计算方法非常相似。与普通的PC和服务器处理器相比,图形处理器的 计算速度要快数百倍。我们的分析人员非常喜欢这一设备。”
3.技术成本下降
随着计算能力的增长,分析技术开始从内存与存储价格的下降中获益。同时,随着开源软件逐渐成为商业产品的备选产品,竞争压力也导致商业产品价格进一步下降。
Ternent为开源软件的支持者。在加入IslandOne公司之前,Ternent为开源商业智能公司Pentaho的工程副总裁。他称:“对于我来说,开源决定着涉足领域。因为像IslandOne这样的中等规模公司能够用开源应用R替代SAS进行统计分析。”
以前开源工具仅拥有基本的报告功能,但是现在它们能够提供最为先进的预测分析。他称:“目前开源参与者能够横跨整个连续统一体,这意味着任何人都能够使用它们。”
HMS公司的Nustad认为,计算成本的变化正在改变着一些基础性架构的选择。例如,创建数据仓库的一个传统因素是让数据一起进入拥有强大计算能力的 服务器中以处理它们。当计算能力不足时,从操作系统中分离分析工作负载可以避免日常工作负载的性能出现下降。Nustad称,目前这已经不再是一个合适的 选择了。
她称:“随着硬件与存储越来越便宜,你能够让这些操作系统处理一个商业智能层。”通过重定数据格式和将数据装载至仓库中,直接建立在操作应用上的分析能够更为迅速地提供答案。
Hackney观察认为,尽管性价比趋势有利于管理成本,但是这些潜在的节约优势将被日益增长的能力需求所抵消。尽管JohnHancock每台设备的存储成本在今年下降了2至3%,但是消耗却增长了20%。
4.移动设备的普及
与所有的应用一样,商业智能正日益移动化。对于Nustad来说,移动商业智能具有优先权,因为每个人都希望Nustad能够随时随地亲自访问关于她的 公司是否达到了服务级协议的报告。她还希望为公司的客户提供数据的移动访问,帮助客户监控和管理医疗保健开销。她称:“这是一个客户非常喜欢的功能。在五 年前,客户不需要这一功能,但是现在他们需要这一功能了。”
对于首席信息官来说,要迎合这一趋势更多的是为智能手机、平板电脑和触摸屏设备创建适用的用户界面,而不是更为复杂的分析能力。或许是出于这方面的原因,Kellen认为这相对容易。他称:“对于我来说,这只是小事情。”
Rotella并不认为这很简单。他称:“移动计算影响着每一个人。许多人开始使用iPad工作,同时其它的移动设备正在呈现爆炸式增长。这一趋势正在 加速并改变我们与公司内部计算资源交互的方式。”例如,Verisk已经开发了能够让理赔人在现场快速进行分析的产品,因此他们能够进行重置成本评估。他 称:“这种方式对我们的分析产生了影响,同时也让每一个需要它的人随手就能使用。”
Rotella称:“引发这种挑战的因素在于技术的更新速度。两年前,我们没有iPad,而现在许多人都在使用iPad。随着多种操作系统的出现,我们正力争搞清楚其是如何影响我们的研发的,这样一来我们就不必一而再、再而三的编写这些应用。”
IslandOne的Ternent指出,另一方面,为每一种移动平台创建原生应用的需求可能正在消退,因为目前手机和平板电脑上的浏览器拥有了更为强 大的功能。Ternent称:“如果我能够使用一款专门针对移动设备的基于web的应用,那么我并不能肯定我将会对定制的移动设备应用进行投资。”
5.社交媒体的加入
随着脸谱、推特等社交媒体的兴起,越来越多的公司希望分析这些由网站产生的数据。新推出的分析应用支持人类语言处理、情感分析和网络分析等统计技术,这些并不是典型商业智能工具套件的组成部分。
由于它们都是新的,许多社交媒体分析工具可以作用服务获得。其中一个典型范例是Radian6。Radian6为软件即服务(SaaS)产品,近期已经 被Salesforce.com所收购。Radian6是一种社交媒体仪表盘,为TwITter的留言、脸谱上的帖子、博客与讨论版上的帖子与评论中提及 的特定术语以正负数显示,尤其是为商标名提供生动的直观推断。当营销与客户服务部门购买后,这类工具不再对IT部门有很严重的依赖性。目前,肯塔基大学的 Kellen仍然相信他需要对它们高度关注。他称:“我的工作是识别这些技术,根据竞争力评估哪些算法适合公司,然后开始培训合适的人员。”
与其他公司一样,大学也对监督他们大学的声誉十分感兴趣。与此同时,Kellen表示,他可能还将寻找机会以开发专门用于解决学校所关注问题的应用,如 监督学生入学率等问题。例如,监控学生在社交媒体上的帖子能够有帮于学校与管理人员尽早了解学生在大学里遇到的麻烦。Kellen称,目前戴尔已经做了这 些工作,其产品支持公司探测人们关于故障笔记本电脑的推文。他称,IT开发人员还应当寻找一些办法将社交媒体分析得出的报警信息推送至应用中,以便于公司 对相关事件快速做出反应。
Hackney称:“我们没有诀窍,也没有工具处理和挖掘海量社交媒体帖子的价值。不过,一旦你收集了数据,你需要有能力获取公司事件的充足信息,以将 它们关联起来。”虽然Hackney称JohnHancock在这一领域内的努力还处于“起步阶段”,但是他认为IT部门将在公司数据的社交分析服务所提 供的数据关联中发挥重要作用。例如,如果社交媒体数据显示公司在中西部地区的社会评论越来越负面,那么他将希望看一下如果公司在该地区就价格或策略进行调 整是否会扭转这一负面发展趋势。
Hackney称,发现这类关联的意义在于让公司领导相信对社交媒体的投资具有高回报。他称:“在我所从事的行业中,每个人都是精算师,每个人都在计算,他们不会将任何东西建立在想当然之上。”
以上是小编为大家分享的关于大数据时代:五大商业分析技术趋势的相关内容,更多信息可以关注环球青藤分享更多干货
目录
- 数据库分类维度:关系型/非关系型、交易型/分析型
- NoSQL数据库的进一步分类
- OLTP市场规模:关系型数据库仍占营收大头
- 数据库市场份额:云服务和新兴厂商主导NoSQL
- 开源数据库 vs. 商业数据库
- 数据库三大阵营:传统厂商和云服务提供商
最近由于时间原因我写东西少了,在公众号上也转载过几篇搞数据库朋友的大作。按说我算是外行,没资格在这个领域品头论足,而当我看到下面这份报告时立即产生了学习的兴趣,同时也想就能看懂的部分写点心得体会分享给大家。
可能本文比较适合普及性阅读,让数据库领域资深的朋友见笑了:)
数据库分类维度:关系型/非关系型、交易型/分析型
首先是分类维度,上图中的纵轴分类为Relational Database(关系型数据库,RDBMS)和Nonrelational Database (非关系型数据库,NoSQL),横轴的分类为Operational(交易型,即OLTP)和Analytical(分析型,即OLAP)。
按照习惯我们先看关系型数据库,左上角的交易型类别中包括大家熟悉的商业数据库Oracle、MS SQL Server、DB2、Infomix,也包括开源领域流行的MySQL(MariaDB是它的一个分支)、PostgreSQL,还有云上面比较常见的SQL Azure和Amazon Aurora等。
比较有意思的是,SAP HANA正好位于交易型和分析型的中间分界处,不要忘了SAP还收购了Sybase,尽管后者今天不够风光了,而早年微软的SQL Server都是来源于Sybase。Sybase的ASE数据库和分析型Sybase IQ还是存在的。
右上角的分析型产品中包括几款知名的列式数据仓库Pivotal Greenplum、Teradata和IBM Netezza(已宣布停止支持),来自互联网巨头的Google Big Query和Amazon RedShift。至于Oracle Exadata一体机,它上面运行的也是Oracle数据库,其最初设计用途是OLAP,而在后来发展中也可以良好兼顾OLTP,算是一个跨界产品吧。
再来看非关系型数据库,左下角的交易型产品中,有几个我看着熟悉的MongoDB、Redis、Amazon DynamoDB和DocumentDB等;右下角的分析型产品包括著名的Hadoop分支Cloudera、Hortonworks(这2家已并购),Bigtable(来自Google,Hadoop中的HBase是它的开源实现)、Elasticsearch等。
显然非关系型数据库的分类要更加复杂,产品在应用中的差异化也比传统关系型数据库更大。Willian Blair很负责任地对它们给出了进一步的分类。
NoSQL数据库的进一步分类
上面这个图表应该说很清晰了。非关系型数据库可以分为Document-based Store(基于文档的存储)、Key-Value Store(键值存储)、Graph-based(图数据库)、Time Series(时序数据库),以及Wide Cloumn-based Store(宽列式存储)。
我们再来看下每个细分类别中的产品:
文档存储 :MongoDB、Amazon DocumentDB、Azure Cosmos DB等
Key-Value存储 :Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike等
图数据库 :Neo4j等
时序数据库 :InfluxDB等
WideCloumn :DataStax、Cassandra、Apache HBase和Bigtable等
多模型数据库 :支持上面不只一种类别特性的NoSQL,比如MongoDB、Redis Labs、Amazon DynamoDB和Azure Cosmos DB等。
OLTP市场规模:关系型数据库仍占营收大头
上面这个基于IDC数据的交易型数据库市场份额共有3个分类,其中深蓝色部分的关系型数据库(RDBMS,在这里不统计数据挖掘/分析型数据库)占据80%以上的市场。
Dynamic Database(DDMS,动态数据库管理系统,同样不统计Hadoop)就是我们前面聊的非关系型数据库。这部分市场显得小(但发展势头看好),我觉得与互联网等大公司多采用开源+自研,而不买商业产品有关。
而遵循IDC的统计分类,在上图灰色部分的“非关系型数据库市场”其实另有定义,参见下面这段文字:
数据库市场份额:云服务和新兴厂商主导NoSQL
请注意,这里的关系型数据库统计又包含了分析型产品。Oracle营收份额42%仍居第一,随后排名依次为微软、IBM、SAP和Teradata。
代表非关系型数据库的DDMS分类中(这里同样加入Hadoop等),云服务和新兴厂商成为了主导,微软应该是因为云SQL Server的基础而小幅领先于AWS,这2家一共占据超过50%的市场,接下来的排名是Google、Cloudera和Hortonworks(二者加起来13%)。
上面是IDC传统分类中的“非关系型数据库”,在这里IBM和CA等应该主要是针对大型机的产品,InterSystems有一款在国内医疗HIS系统中应用的Caché数据库(以前也是运行在Power小机上比较多)。我就知道这些,余下的就不瞎写了。
开源数据库 vs. 商业数据库
按照流行度来看,开源数据库从2013年到现在一直呈现增长,已经快要追上商业数据库了。
商业产品在关系型数据库的占比仍然高达60.5%,而上表中从这列往左的分类都是开源占优:
Wide Cloumn:开源占比81.8%;
时序数据库:开源占比80.7%;
文档存储:开源占比80.0%;
Key-Value存储:开源占比72.2%;
图数据库:开源占比68.4%;
搜索引擎:开源占比65.3%
按照开源License的授权模式,上面这个三角形越往下管的越宽松。比如MySQL属于GPL,在互联网行业用户较多;而PostgreSQL属于BSD授权,国内有不少数据库公司的产品就是基于Postgre哦。
数据库三大阵营:传统厂商和云服务提供商
前面在讨论市场份额时,我提到过交易型数据库的4个巨头仍然是Oracle、微软、IBM和SAP,在这里William Blair将他们归为第一阵营。
随着云平台的不断兴起,AWS、Azure和GCP(Google Cloud Platform)组成了另一个阵营,在国外分析师的眼里还没有BAT,就像有的朋友所说,国内互联网巨头更多是自身业务导向的,在本土发展公有云还有些优势,短时间内将技术输出到国外的难度应该还比较大。(当然我并不认为国内缺优秀的DBA和研发人才)
第三个阵容就是规模小一些,但比较专注的数据库玩家。
接下来我再带大家简单过一下这前两个阵容,看看具体的数据库产品都有哪些。
甲骨文的产品,我相对熟悉一些的有Oracle Database、MySQL以及Exadata一体机。
IBM DB2也是一个庞大的家族,除了传统针对小型机、x86(好像用的人不多)、z/OS大型机和for i的版本之外,如今也有了针对云和数据挖掘的产品。记得抱枕大师对Informix的技术比较推崇,可惜这个产品发展似乎不太理想。
微软除了看家的SQL Server之外,在Azure云上还能提供MySQL、PostgreSQL和MariaDB开源数据库。应该说他们是传统软件License+PaaS服务两条腿走路的。
如今人们一提起SAP的数据库就想起HANA,之前从Sybase收购来的ASE(Adaptive Server Enterprise)和IQ似乎没有之前发展好了。
在云服务提供商数据库的3巨头中,微软有SQL Server的先天优势,甚至把它移植到了Linux拥抱开源平台。关系型数据库的创新方面值得一提的是Amazon Aurora和Google Spanner(也有非关系型特性),至于它们具体好在哪里我就不装内行了:)
非关系型数据库则是Amazon全面开花,这与其云计算业务发展早并且占据优势有关。Google当年的三篇经典论文对业界影响深远,Yahoo基于此开源的Hadoop有一段时间几乎是大数据的代名词。HBase和Hive如今已不再是人们讨论的热点,而Bigtable和BigQuery似乎仍然以服务Google自身业务为主,毕竟GCP的规模比AWS要小多了。
最后这张DB-Engines的排行榜,相信许多朋友都不陌生,今年3月已经不是最新的数据,在这里列出只是给大家一个参考。该排行榜几乎在每次更新时,都会有国内数据库专家撰写点评。
以上是我周末的学习笔记,班门弄斧,希望对大家有帮助。
参考资料《Database Software Market:The Long-Awaited Shake-up》
扩展阅读:《 数据库存储:互相最想知道的事 》
尊重知识,转载时请保留全文。感谢您的阅读和支持!
全球最具影响力的大数据企业排行榜
目前全球大数据企业主要分为两大阵营。一部分属于单纯以大数据技术为核心的新兴企业,希望为市场带来创新方案并推动技术发展。另有一些原本打理数据库/数据仓储业务的老牌厂商,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。下面我们就一起来看今天的十五家大数据企业名单,其中十家早已名满天下、另外五家则属初来乍到。
1、IBM
根据Wikibon发布的报告,作为2012年大数据业务营收成绩最好的公司,IBM过去一年从大数据相关产品及服务中获得了13亿美元收益。其具体产品包括服务器与存储硬件、数据库软件、分析应用程序以及相关服务等。在IBM围绕大数据开发出的产品中,DB2、Informix与InfoSphere数据库平台、Cognos与SPSS分析应用可谓最为知名。IBM同时也为Hadoop开源数据分析平台提供支持。
2、惠普
惠普在2012年获得的大数据营收名列第二,总值为6.64亿美元。这家供应商还提供与之相关的硬件、软件以及服务,其最为知名的方案当数Vertica分析平台。
3、Teradata
Teradata在2012年获得全球第三大大数据厂商头衔,其营收总额达4.35亿美元。Teradata凭借自家硬件平台、数据库以及分析软件而声名远播。它同时针对零售及运输行业推出了专门的分析工具。
4、甲骨文
尽管在大家眼中,甲骨文一直以其冠绝群雄的数据库产品闻名,但事实上他们也是大数据领域的主要竞逐者之一。其甲骨文大数据设备将英特尔服务器、Cloudera Hadoop发行版以及甲骨文的NoSQL数据库结合到了一起。2012年甲骨文名列大数据企业榜单第五位,营收总额为4.15亿美元。
5、SAP
SAP推出了一系列分析工具,但其中知名度最高的当数其HANA内存内数据库。2012年该公司在大数据企业竞争中位居第六,营收总额为3.68亿美元。
6、EMC
EMC一方面帮助客户保存并分析大数据,另外也充当着大数据分析智囊“营销科学实验室”的所在地——这家实验室专门分析营销类数据。EMC推出的最新爆炸性消息是与VMware及通用电气一道支持Pivotal公司。Pivotal将对Hadoop与EMC的Greenplum数据库与HAWQ查询工具进行整合。EMC在2012年的大数据企业排行榜中位列第七,营收总额为3.36亿美元。
7、Amazon
Amazon向来以企业云平台闻名于世,但同时也推出过一系列大数据产品,其中包括基于Hadoop的Elastic MapReduce、DynamoDB大数据数据库以及能够与Amazon Web Services顺利协作的Redshift规模化并行数据仓储方案。
8、微软
微软的大数据发展战略可谓雄心勃勃,包括与Hortonworks建立合作关系、建立一家大数据新兴企业以及推出基于Hortonworks数据平台的HDInsights工具。微软的SQL Server数据库也颇具知名度,且于2012年的大数据企业比拼之中位列第九,营收总额为1.96亿美元。
9、谷歌
谷歌公司推出的大数据产品包括BigQuery——一款基于云的大数据分析平台。该公司在过去一年中拿下3600万美元大数据营收。
10、VMware
VMware向来以云计算及虚拟化解决方案著称,不过近来也开始逐步踏入大数据领域。今年六月虚拟巨头公布的VMware vSphere大数据扩展版就很说明问题,这套方案使得vSphere能够控制Hadoop部署并帮助企业用户简化大数据项目启动流程。VMware在过去一年中获得3200万美元大数据营收,几乎与谷歌公司持平。
11、业界新生代:Cloudera
相信目前已经没人敢在列举顶级大数据供应商时漏掉Cloudera。这家新兴企业获得1.41亿美元风险投资,支持阵营中甚至包括谷歌、Facebook、甲骨文以及雅虎等在大数据领域赫赫有名的老将。该公司于2008年首次为企业客户带来Apache Hadoop平台。
12、Hortonworks
Hortonworks是另一家Hadoop供应商,并在2011年从雅虎公司分离出来之后获得超过7000万美元的风险投资支持。它在发展中将矛头直指Cloudera,这位年轻选手背后则站着微软、Rackspace、红帽、Teradata等多家战略合作伙伴。
13、Splunk
根据WIkibon的统计,Splunk是目前纯大数据供应商中占据市场份额最大的企业,2012年全年营收总额达1.86亿美元。该公司主要关注机器数据分析业务。
14、10Gen
10Gen最具影响力的得意佳作要数其开源MongoDB——一款业界领先的NoSQL数据库。该公司的战略投资伙伴包括英特尔、红帽以及In-Q-Tel。10Gen去年在纯Hadoop及NoSQL业务企业中名列第三,营收总额为3600万美元。
15、MapR
大家想必听说过MapR推出的NoSQL数据库M7,这家公司与Amazon的云平台及谷歌计算引擎达成了协作关系。去年MapR在纯Hadoop与NoSQL业务企业中位列第四,营收总额为2300万美元。
以上是小编为大家分享的关于全球最具影响力的大数据企业排行榜的相关内容,更多信息可以关注环球青藤分享更多干货