重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
个人不认为nosql在少量数据存储上有啥优势。nosql主要解决的是auto sharding的问题,你不需要sharding,搞啥nosql. 作者:方圆 链接:
成都创新互联公司专业为企业提供元氏网站建设、元氏做网站、元氏网站设计、元氏网站制作等企业网站建设、网页设计与制作、元氏企业网站模板建站服务,10年元氏做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。
而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,例如:
1、High performance - 对数据库高并发读写的需求
web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住,但是应付上万次SQL写数据请求,硬盘IO就已经无法承受了。其实对于普通的BBS网站,往往也存在对高并发写请求的需求。
2、Huge Storage - 对海量数据的高效率存储和访问的需求
对于大型的SNS网站,每天用户产生海量的用户动态,以国外的Friendfeed为例,一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张2.5亿条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的。再例如大型web网站的用户登录系统,例如腾讯,盛大,动辄数以亿计的帐号,关系数据库也很难应付。
3、High Scalability High Availability- 对数据库的高可扩展性和高可用性的需求
在基于web的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,你的数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移,为什么数据库不能通过不断的添加服务器节点来实现扩展呢?
在上面提到的“三高”需求面前,关系数据库遇到了难以克服的障碍,而对于web2.0网站来说,关系数据库的很多主要特性却往往无用武之地,例如:
1、数据库事务一致性需求
很多web实时系统并不要求严格的数据库事务,对读一致性的要求很低,有些场合对写一致性要求也不高。因此数据库事务管理成了数据库高负载下一个沉重的负担。
2、数据库的写实时性和读实时性需求
对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出来这条数据的,但是对于很多web应用来说,并不要求这么高的实时性。
3、对复杂的SQL查询,特别是多表关联查询的需求
任何大数据量的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询,特别是SNS类型的网站,从需求以及产品设计角度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,SQL的功能被极大的弱化了。
因此,关系数据库在这些越来越多的应用场景下显得不那么合适了,为了解决这类问题的非关系数据库应运而生。
NoSQL 是非关系型数据存储的广义定义。它打破了长久以来关系型数据库与ACID理论大一统的局面。NoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。该术语在 2009 年初得到了广泛认同。
当今的应用体系结构需要数据存储在横向伸缩性上能够满足需求。而 NoSQL 存储就是为了实现这个需求。Google 的BigTable与Amazon的Dynamo是非常成功的商业 NoSQL 实现。一些开源的 NoSQL 体系,如Facebook 的Cassandra, Apache 的HBase,也得到了广泛认同。
腾讯云包括云服务器、云数据库、CDN、云安全、万象图片和云点播等产品。
开发者通过接入腾讯云平台,可降低初期创业的成本,能更轻松地应对来自服务器、存储以及带宽的压力。 云服务器
高性能高稳定的云虚拟机,可在云中提供弹性可调节的计算容量,不让计算能束缚您的想象;您可以轻松购买自定义配置的机型,在几分钟内获取到新服务器,并根据您的需要使用镜像进行快速的扩容。
弹性web 服务
弹性Web 引擎(Cloud Elastic Engine)是一种Web 引擎服务,是一体化web 应用运行环境,弹性伸缩,中小开发者的利器。通过提供已部署好php、nginx 等基础web 环境,让您仅需上传自己的代码,即可轻松地完成web 服务的搭建。
负载均衡
腾讯云负载均衡服务,用于将业务流量自动分配到多个云服务器、弹性web 引擎等计算单元的服务,帮您构建海量访问的业务能力,以及实现高水平的业务容错能力。腾讯云提供公网及内外负载均衡,分别处理来自公网和云内的业务流量分发。 云数据库
云数据库(CDB:Cloud Data Base)是腾讯云平台提供的面向互联网应用的数据存储服务。
NoSQL 高速存储
腾讯NoSQL 高速存储,是腾讯自主研发的极高性能、内存级、持久化、分布式的Key-Value存储服务。NoSQL 高速存储以最终落地存储来设计,拥有数据库级别的访问保障和持续服务能力。支持Memcached 协议,能力比Memcached 强(能落地),适用Memcached、TTServer 的地方都适用NoSQL 高速存储。NoSQL 高速存储解决了内存数据可靠性、分布式及一致性上的问题,让海量访问业务的开发变得简单快捷。
对象存储服务(beta)
对象存储服务(COS:Cloud Object Service),是腾讯云平台提供的对象存储服务。COS 为开发者提供安全、稳定、高效、实惠的对象存储服务,开发者可以将任意动态、静态生成的数据,存放到COS 上,再通过HTTP 的方式进行访问。COS 的文件访问接口提供全国范围内的动态加速,使开发者无需关注网络不同所带来的体验问题。
CDN
CDN(Content Delivery Network)即内容分发网络。腾讯CDN 服务的目标与一般意义上的CDN 服务是一样的,旨在将开发者网站中提供给终端用户的内容(包括网页对象—文本、图片、脚本,可下载的对象—多媒体文件、软件、文档,等等),发布到多个数据中心的多台服务器上,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。 云监控
腾讯云监控是面向腾讯云客户的一款监控服务,能够对客户购买的云资源以及基于腾讯云构建的应用系统进行实时监测。开发人员或者系统管理员可以通过腾讯云监控收集各种性能指标,了解其系统运行的相关信息,并做出实时响应,保证自己的服务正常运行。
腾讯云监控提供了可靠,灵活的监控解决方案,当您首次购买云服务后,不需要任何设置,就可以获得基础监控指标,同时,也可以通过简单的步骤后,获取到更多的个性化指标。除了丰富的监控指标视图以外,腾讯云监控还提供个性化的告警服务,客户可以对任意监控指标自定义告警策略。通过短信,邮件,微信等方式,实时推送故障告警。
腾讯云监控也是一个开放式的监控平台,支持用户上报个性化的指标,提供多个维度,多种粒度的实时数据统计以及告警分析。并提供开放式的API,让客户通过接口也能够获取到监控数据。
云安全
腾讯公司安全团队在处理各种安全问题的过程中积累了丰富的技术和经验,腾讯云安全将这些宝贵的安全技术和经验打造成优秀的安全服务产品,为开发商提供业界领先的安全服务。腾讯云安全能够帮助开发商免受各种攻击行为的干扰和影响,让客户专注于自己创新业务的发展,极大的降低了客户在基础环境安全和业务安全上的投入和成本。
云拨测
云拨测依托腾讯专有的服务质量监测网络,利用分布于全球的服务质量监测点,对用户的网站,域名,后台接口等进行周期性监控, 并提供实时告警, 性能和可用性视图展示,智能分析等服务。 TOD 大数据处理
TOD 是腾讯云为用户提供的一套完整的、开箱即用的云端大数据处理解决方案。开发者可以在线创建数据仓库,编写、调试和运行SQL 脚本,调用MR程序,完成对海量数据的各种处理。另外开发者还可以将编写的数据处理脚本定义成周期性执行的任务,通过可视化界面拖拽定义任务间依赖关系,实现复杂的数据处理工作流。主要应用于海量数据统计、数据挖掘等领域。已经为微信、QQ 空间、广点通、腾讯游戏、财付通、QQ 网购等关键业务的提供了数据分析服务。
腾讯云分析
腾讯云分析是一款专业的移动应用统计分析工具,支持主流智能手机平台。开发者可以方便地通过嵌入统计SDK,实现对移动应用的全面监测,实时掌握产品表现,准确洞察用户行为。不仅仅是记录,移动APP 统计还分析每个环节,利用数据透过现象看本质。腾讯云分析还同时提供业内市场排名趋势、竞品排名监控等情报信息,让您在应用开发运营过程中,知己知彼,百战百胜。
腾讯云搜
腾讯云搜(Tencent Cloud Search)是腾讯公司基于在搜索领域多年的技术积累,对公司内部各大垂直搜索业务搜索需求进行高度抽象, 把搜索引擎组件化、平台化、服务化,最终形成成熟的搜索对外开放能力,为广大移动应用开发者和网站站长推出的一站式结构化数据搜索托管服务。 移动加速
移动加速服务是腾讯云针对终端应用提供的访问加速服务,通过加速机房、优化路由算法、动态数据压缩等多重措施提升移动应用的访问速度和用户体验,并为客户提供了加速效果展示、趋势对比、异常告警等运营工具随时了解加速效果。
应用加固
应用加固服务是腾讯云依托多年终端安全经验,提供的一项终端应用安全加固服务。具有操作简单、多渠道监控、防反编译防篡改防植入、零影响的特点,帮助用户保护应用版权和收入。
腾讯云安全认证
腾讯云安全认证是腾讯云提供的免费安全认证服务,通过申请审核的用户将获得权威的腾讯云认证展示,让您的业务获得腾讯亿万用户的认可。免费安全服务,权威认证展示,腾讯云已为2.6万网站、应用保驾护航。
信鸽推送
信鸽(XG Push)是一款专业的免费移动App 推送平台,支持百亿级的通知/ 消息推送,秒级触达移动用户,现已全面支持Android 和iOS 两大主流平台。开发者可以方便地通过嵌入SDK,通过API 调用或者Web 端可视化操作,实现对特定用户推送,大幅提升用户活跃度,有效唤醒沉睡用户,并实时查看推送效果。
域名备案
腾讯云备案服务,帮助您将网站在工信部系统中进行登记,获得备案证书悬挂在网站底部。目前支持企业、个人、政府机关、事业单位、社会团体备案。
云API
云API 是构建云开放生态重要的一环。腾讯云提供的计算、数据、运营运维等基础能力,包括云服务器、云数据库、CDN 和对象存储服务等,以及腾讯云分析(MTA)、腾讯云推送(信鸽)等大数据运营服务等,都将以标准的开放API 的形式提供给广大企业和开发者使用,方便开发者集成和二次开发。
万象图片
万象图片是将QQ空间相册积累的十年图片经验开放给开发者,提供专业一体化的图片解决方案,涵盖图片上传、下载、存储、图像处理。
维纳斯
维纳斯(Wireless Network Service)专业的移动网络接入服务,使用腾讯骨干网络,全国400个节点,连通成功率99.9%。
云点播
腾讯云一站式视频点播服务,汇聚腾讯强大视频处理能力。从灵活上传到快速转码,从便捷发布到自定义播放器开发,为客户提供专业可靠的完整视频服务。
大数据时代数据管理方式研究
1数据管理技术的回顾
数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展,数据管理所处的环境也越来越复杂,目前广泛流行的数据库技术开始暴露出许多弱点,面临着许多新的挑战。
1.1 人工管理阶段
20 世纪 50 年代中期,计算机主要用于科学计算。当时没有磁盘等直接存取设备,只有纸带、卡片、磁带等外存,也没有操作系统和管理数据的专门软件。该阶段管理的数据不保存、由应用程序管理数据、数据不共享和数据不具有独立性等特点。
1.2 文件系统阶段
20 世纪 50 年代后期到 60 年代中期,随着计算机硬件和软件的发展,磁盘、磁鼓等直接存取设备开始普及,这一时期的数据处理系统是把计算机中的数据组织成相互独立的被命名的数据文件,并可按文件的名字来进行访问,对文件中的记录进行存取的数据管理技术。数据可以长期保存在计算机外存上,可以对数据进行反复处理,并支持文件的查询、修改、插入和删除等操作。其数据面向特定的应用程序,因此,数据共享性、独立性差,且冗余度大,管理和维护的代价也很大。
1.3数据库阶段
20 世纪 60 年代后期以来,计算机性能得到进一步提高,更重要的是出现了大容量磁盘,存储容量大大增加且价格下降。在此基础上,才有可能克服文件系统管理数据时的不足,而满足和解决实际应用中多个用户、多个应用程序共享数据的要求,从而使数据能为尽可能多的应用程序服务,这就出现了数据库这样的数据管理技术。数据库的特点是数据不再只针对某一个特定的应用,而是面向全组织,具有整体的结构性,共享性高,冗余度减小,具有一定的程序与数据之间的独立性,并且对数据进行统一的控制。
2大数据时代的数据管理技术
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据有 3 个 V,一是大量化(Volume),数据量是持续快速增加的,从 TB级别,跃升到 PB 级别;二是多样化(Variety),数据类型多样化,结构化数据已被视为小菜一碟,图片、音频、视频等非结构化数据正以传统结构化数据增长的两倍速快速创建;三是快速化 (Velocity),数据生成速度快,也就需要快速的处理能力,因此,产生了“1 秒定律”,就是说一般要在秒级时间范围内给出分析结果,时间太长就失去价值了,这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。
2.1 关系型数据库(RDBMS)
20 世纪 70 年代初,IBM 工程师 Codd 发表了著名的论文“A Relational Model of Data for Large Shared DataBanks”,标志着关系数据库时代来临。关系数据库的理论基础是关系模型,是借助于集合代数等数学概念和方法来处理数据库中的数据,现实世界中的实体以及实体之间的联系非常容易用关系模型来表示。容易理解的模型、容易掌握的查询语言、高效的优化器、成熟的技术和产品,使得关系数据库占据了数据库市场的绝对的统治地位。随着互联网 web2.0 网站的兴起,半结构化和非结构化数据的大量涌现,传统的关系数据库在应付 web2.0 网站特别是超大规模和高并发的 SNS(全称 Social Networking Services,即社会性网络服务) 类型的 web2.0 纯动态网站已经显得力不从心,暴露了很多难以克服的问题。
2.2 noSQL数据库
顺应时代发展的需要产生了 noSQL数据库技术,其主要特点是采用与关系模型不同的数据模型,当前热门的 noSQL数据库系统可以说是蓬勃发展、异军突起,很多公司都热情追捧之,如:由 Google 公司提出的 Big Table 和 MapReduce 以及 IBM 公司提出的 Lotus Notes 等。不管是那个公司的 noSQL数据库都围绕着大数据的 3 个 V,目的就是解决大数据的 3个 V 问题。因此,在设计 noSQL 时往往考虑以下几个原则,首先,采用横向扩展的方式,通过并行处理技术对数据进行划分并进行并行处理,以获得高速的读写速度;其次,解决数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合的问题;再次,放松对数据的 ACID 一致性约束,允许数据暂时出现不一致的情况,接受最终一致性;最后,对各个分区数据进行备份(一般是 3 份),应对节点失败的状况等。
对数据的应用可以分为分析型应用和操作型应用,分析型应用主要是指对大量数据进行分类、聚集、汇总,最后获得数据量相对小的分析结果;操作型应用主要是指对数据进行增加、删除、修改和查询以及简单的汇总操作,涉及的数据量一般比较少,事务执行时间一般比较短。目前数据库可分为关系数据库和 noSQL数据库,根据数据应用的要求,再结合目前数据库的种类,所以目前数据库管理方式主要有以下 4 类。
(1)面向操作型的关系数据库技术。
首先,传统数据库厂商提供的基于行存储的关系数据库系统,如 DB2、Oracle、SQL Server 等,以其高度的一致性、精确性、系统可恢复性,在事务处理方面仍然是核心引擎。其次,面向实时计算的内存数据库系统,如 Hana、Timesten、Altibase 等通过把对数据并发控制、查询和恢复等操作控制在内存内部进行,所以获得了非常高的性能,在很多特定领域如电信、证券、网管等得到普遍应用。另外,以 VoltDB、Clustrix 和NuoDB 为代表的 new SQL 宣称能够在保持 ACDI 特性的同时提高了事务处理性能 50 倍 ~60 倍。
(2)面向分析型的关系数据库技术。
首先,TeraData 是数据仓库领域的领头羊,Teradata 在整体上是按 Shared Nothing 架构体系进行组织的,定位就是大型数据仓库系统,支持较高的扩展性。其次,面向分析型应用,列存储数据库的研究形成了另一个重要的潮流。列存储数据库以其高效的压缩、更高的 I/O 效率等特点,在分析型应用领域获得了比行存储数据库高得多的性能。如:MonetDB 和 Vertica是一个典型的基于列存储技术的数据库系统。
(3)面向操作型的 noSQL 技术。
有些操作型应用不受 ACID 高度一致性约束,但对大数据处理需要处理的数据量非常大,对速度性能要求也非常高,这样就必须依靠大规模集群的并行处理能力来实现数据处理,弱一致性或最终一致性就可以了。这时,操作型 noSQL数据库的优点就可以发挥的淋漓尽致了。如,Hbase 一天就可以有超过 200 亿个到达硬盘的读写操作,实现对大数据的处理。另外,noSQL数据库是一个数据模型灵活、支持多样数据类型,如对图数据建模、存储和分析,其性能、扩展性是关系数据库无法比拟的。
(4)面向分析型的 noSQL 技术。
面向分析型应用的 noSQL 技术主要依赖于Hadoop 分布式计算平台,Hadoop 是一个分布式计算平台,以 HDFS 和 Map Reduce 为用户提供系统底层细节透明的分布式基础架构。《Hadoop 经典实践染技巧》传统的数据库厂商 Microsoft,Oracle,SAS,IBM 等纷纷转向 Hadoop 的研究,如微软公司关闭 Dryad 系统,全力投入 Map Reduce 的研发,Oracle 在 2011 年下半年发布 Big Plan 战略计划,全面进军大数据处理领域,IBM 则早已捷足先登“,沃森(Watson)”计算机就是基于 Hadoop 技术开发的产物,同时 IBM 发布了 BigInsights 计划,基于 Hadoop,Netezza 和 SPSS(统计分析、数据挖掘软件)等技术和产品构建大数据分析处理的技术框架。同时也涌现出一批新公司来研究Hadoop 技术,如 Cloudera、MapRKarmashpere 等。
3数据管理方式的展望
通过以上分析,可以看出关系数据库的 ACID 强调数据一致性通常指关联数据之间的逻辑关系是否正确和完整,而对于很多互联网应用来说,对这一致性和隔离性的要求可以降低,而可用性的要求则更为明显,此时就可以采用 noSQL 的两种弱一致性的理论 BASE 和 CAP.关系数据库和 noSQL数据库并不是想到对立的矛盾体,而是可以相互补充的,根据不同需求使用不同的技术,甚至二者可以共同存在,互不影响。最近几年,以 Spanner 为代表新型数据库的出现,给数据库领域注入新鲜血液,这就是融合了一致性和可用性的 newSQL,这种新型思维方式或许会是未来大数据处理方式的发展方向。
4 结束语
随着云计算、物联网等的发展,数据呈现爆炸式的增长,人们正被数据洪流所包围,大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利,但与此同时也给传统的数据管理方式带来了极大的挑战。
像MongoDB, Cassandra, HBase, DynamoDB, 和
Riak这些NoSQL缺乏传统的原子事务机制,所谓原子事务机制是可以保证一系列写操作要么全部完成,要么全部不会完成,不会发生只完成一系列中一两个
写操作;因为数据库不提供这种事务机制支持,开发者需要自己编写代码来确保一系列写操作的事务机制,比较复杂和测试。
这些NoSQL数据库不提供事务机制原因在于其分布式特点,一系列写操作中访问的数据可能位于不同的分区服务器,这样的事务就变成分布式事务,在分
布式事务中实现原子性需要彼此协调,而协调是耗费时间的,每台机器在一个大事务过程中必须依次确认,这就需要一种协议确保一个事务中没有任何一台机器写操
作失败。
这种协调是昂贵的,会增加延迟时间,关键问题是,当协调没有完成时,其他操作是不能读取事务中写操作结果的,这是因为事务的all-or-
nothing原理导致,万一协调过程发现某个写操作不能完成,那么需要将其他写操作成功的进行回滚。针对分布式事务的分布式协调对整体数据库性能有严重
影响,不只是吞吐量还包括延迟时间,这样大部分NoSQL数据库因为性能问题就选择不提供分布式事务。
MongoDB, Riak, HBase, 和 Cassandra提供基于单一键的事务,这是因为所有信息都和一个键key有关,这个键是存储在单个服务器上,这样基于单键的事务不会带来复杂的分布式协调。
那么看来扩展性性能和分布式事务是一对矛盾,总要有取舍?实际上是不完全是,现在完全有可能提供高扩展的性能同时提供分布式原子事务。
FIT是这样一个在分布式系统提供原子事务的策略,在fairness公平性, isolation隔离性, 和throughput吞吐量(简称FIT)可以权衡。
一个支持分布式事务的可伸缩分布式系统能够完成这三个属性中两个,公平是事务之间不会相互影响造成延迟;隔离性提供一种幻觉好像整个数据库只有它自
己一个事务,隔离性保证当任何同时发生的事务发生冲突时,能够保证彼此能看到彼此的写操作结果,因此减轻了程序员为避免事务读写冲突的强逻辑推理要求;吞
吐量是指每单元时间数据库能够并发处理多少事务。
FIT是如下进行权衡:
保证公平性fairness 和隔离性isolation, 但是牺牲吞吐量
保证公平性fairness和吞吐量, 牺牲隔离性isolation
保证隔离性isolation和吞吐量throughput, 但是牺牲公平性fairness.
牺牲公平性:放弃公平性,数据库能有更多机会降低分布式事务的成本,主要成本是分布式协调带来的,也就是说,不需要在每个事务过程内对每个机器都依
次确认事务完成,这样排队式的确认commit事务是很浪费时间的,放弃公平性,意味着可以在事务外面进行协调,这样就只是增加了协调时间,不会增加互相
冲突事务因为彼此冲突而不能运行所耽搁的时间,当系统不需要公平性时,需要根据事务的优先级或延迟等标准进行指定先后执行顺序,这样就能够获得很好的吞吐
量。
G-Store是一种放弃公平性的 Isolation-Throughput
的分布式key-value存储,支持多键事务(multi-key transactions),MongoDB 和
HBase在键key在同样分区上也支持多键事务,但是不支持跨分区的事务。
总之:传统分布式事务性能不佳的原因是确保原子性(分布式协调)和隔离性同时重叠,创建一个高吞吐量分布式事务的关键是分离这两种关注,这种分离原
子性和隔离性的视角将导致两种类型的系统,第一种选择是弱隔离性能让冲突事务并行执行和确认提交;第二个选择重新排序原子性和隔离性机制保证它们不会某个
时间重叠,这是一种放弃公平的事务执行,所谓放弃公平就是不再同时照顾原子性和隔离性了,有所倾斜,放弃高标准道德要求就会带来高自由高效率。