重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
分层抽样也叫按比例抽样,根本样本在总体中所占的比例进行抽样
“专业、务实、高效、创新、把客户的事当成自己的事”是我们每一个人一直以来坚持追求的企业文化。 创新互联是您可以信赖的网站建设服务商、专业的互联网服务提供商! 专注于成都做网站、网站制作、软件开发、设计服务业务。我们始终坚持以客户需求为导向,结合用户体验与视觉传达,提供有针对性的项目解决方案,提供专业性的建议,创新互联建站将不断地超越自我,追逐市场,引领市场!
是的。
一:什么是数据挖掘
__数据挖掘是指从大量的数据中通过一些算法寻找隐藏于其中重要实用信息的过程。这些算法包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。在商务管理,股市分析,公司重要信息决策,以及科学研究方面都有十分重要的意义。
__数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术,从大量数据中寻找其肉眼难以发现的规律,和大数据联系密切。如今,数据挖掘已经应用在很多行业里,对人们的生产生活以及未来大数据时代起到了重要影响。
二:数据挖掘的基本任务
__数据挖掘的基本任务就是主要要解决的问题。数据挖掘的基本任务包括分类与预测、聚类分析、关联规则、奇异值检测和智能推荐等。通过完成这些任务,发现数据的潜在价值,指导商业和科研决策,给科学研究带来指导以及给商业带来新价值。下面就分别来认识一下常见的基本任务。
1.分类与预测
__是一种用标号的进行学习的方式,这种编号是类编号。这种类标号若是离散的,属于分类问题;若是连续的,属于预测问题,或者称为回归问题。从广义上来说,不管是分类,还是回归,都可以看做是一种预测,差异就是预测的结果是离散的还是连续的。
2.聚类分析
__就是“物以类聚,人以群分”在原始数据集中的运用,其目的是把原始数据聚成几类,从而使得类内相似度高,类间差异性大。
3.关联规则
__数据挖掘可以用来发现规则,关联规则属于一种非常重要的规则,即通过数据挖掘方法,发现事务数据背后所隐含的某一种或者多种关联,从而利用这些关联来指导商业决策和行为。
4.奇异值检测
__根据一定准则识别或者检测出数据集中的异常值,所谓异常值就是和数据集中的绝大多数据表现不一致。
5.智能推荐
__这是数据挖掘一个很活跃的研究和应用领域,在各大电商网站中都会有各种形式推荐,比方说同类用户所购买的产品,与你所购买产品相关联的产品等。
三:数据挖掘流程
__我们由上面的章节知道了数据挖掘的定义和基本任务,本节我们来学习一下数据挖掘的流程,来讲述数据挖掘是如何进行的。
1.定义挖掘目标
__该步骤是分析要挖掘的目标,定义问题的范围,可以划分为下面的目标:
__(1)针对具体业务的数据挖掘应用需求,首先要分析是哪方面的问题。
__(2)分析完问题后,该问题如果解决后可以实现什么样的效果,达到怎样的目标。
__(3)详细地列出用户对于该问题的所有需求。
__(4)挖掘可以用到那些数据集。究竟怎样的挖掘方向比较合理。
__(5)综合上面的要求,制定挖掘计划。
2.数据取样
__在明确了数据挖掘的目标后,接下来就需要在业务数据集中抽取和挖掘目标相关的数据样本子集。这就是数据取样操作。那么数据取样时需要注意哪些方面呢?
__第一是抽取的数据要和挖掘目标紧密相关,并且能够很好地说明用户的需求。
__第二是要可靠,质量要有所保证,从大范围数据到小范围数据,都不要忘记检查数据的质量,这是因为如果原始的数据有误,在之后的过程中,可能难以探索规律,即使探索出规律,也有可能是错误的。
__第三个方面是要有效,要注意数据的完整,但是有时候可能要抽取的数据量比较大,这个时候也许有的数据是根本没有用的,可以通过筛选进行处理。通过对数据的精选,不仅能减少数据处理量,节省系统资源,还能够让我们要寻找的数据可以更加地显现出来。
__而衡量数据取样质量的标准如下:
__(1)确定取样的数据集后,要保证数据资料完整无缺,各项数据指标完整。
__(2)数据集要满足可靠性和有效性。
__(3)每一项的数据都准确无误,反映的都是正常状态下的水平。
__(4)数据集合部分能显现出规律性。
__(5)数据集合要能满足用户的需求。
数据取样的方法有多种多样的,常见的方式如下:
__(1)随机取样:就是按照随机的方法进行取样,数据集中的每一个元素被抽取的概率是一样的。可以按照每一个特定的百分比进行取样,比如按照5%,10%,20%等每个百分比内随机抽取n个数据。
__(2)等距取样:和随机取样有些类似,但是不同的是等距取样是按照一定百分比的比例进行等距取样,比如有100个数据,按照10%的比例进行等距取样就是抽取10,20,30,40,50,60,70,80,90,100这10个数据。
__(3)分层取样:在这种抽样的操作中,首先将样本总体分为若干子集。在每个层次中的值都有相同的被选用的概率,但是可以对每一层设置不同的概率,分别代表不同层次的水平。是为了未来更好地拟合层次数据,综合后得到更好的精度。比如100个数据分为5层,在1-20,20-30,30-40,40-50等每一层抽取的个数不同,分别代表每一层。
__(4)分类取样:分类抽样是依据某种属性的取值来选择数据子集,按照某种类别(规则)进行选择,比如按照客户名称,同学姓名,地址区域,企业类别进行分类。
__(5)从起始位置取样:就是从输入数据集的起始处开始抽样,抽取一定的百分比数据。
__(6)从结束位置取样:就是从输入数据集的最后处反向抽样,抽取一定的百分比数据。
range()函数的用法如下:
(1)range(stop)
创建一个(0,stop)之间的整数序列,步长为1。
(2)range(start,stop)
创建一个(start,stop)之间的整数序列,步长为1。
(3)range(start,stop,step)
创建一个[start,stop)之间的整数序列,步长为step。
参数介绍:
start:表示从返回序列的起始编号,默认情况下从0开始。
stop:表示生成最多但不包括此数字的数字。
step:指的是序列中每个数字之间的差异,默认值为1。
range()是Python的内置函数,在用户需要执行特定次数的操作时使用它,表示循环的意思。内置函数range()可用于以列表的形式生成数字序列。在range()函数中最常见用法是使用for和while循环迭代序列类型(List,string等)。
简单的来说,range()函数允许用户在给定范围内生成一系列数字。根据用户传递给函数的参数数量,用户可以决定该系列数字的开始和结束位置以及一个数字与下一个数字之间的差异有多大。
对于一个样本序列 ,经验累积分布函数 (Empirical Cumulative Distribution Function)可被定义为
其中 是一个指示函数,如果 ,指示函数取值为1,否则取值为0,因此 能反映在样本中小于 的元素数量占比。
根据格利文科定理(Glivenko–Cantelli Theorem),如果一个样本满足独立同分布(IID),那么其经验累积分布函数 会趋近于真实的累积分布函数 。
首先定义一个类,命名为ECDF:
我们采用均匀分布(Uniform)进行验证,导入 uniform 包,然后进行两轮抽样,第一轮抽取10次,第二轮抽取1000次,比较输出的结果。
输出结果为:
而我们知道,在真实的0到1均匀分布中, 时, ,从模拟结果可以看出,样本量越大,最终的经验累积分布函数值也越接近于真实的累积分布函数值,因此格利文科定理得以证明。