破解北京pk10冠亚和值 1比0.95刷流水教程 pk10稳赚技巧方案 北京pk10怎么研究走势 北京pk赛车一天多少期 北京pk赛车历史记录 全天北京pk10赛车计划 北京pk10冠军单双技巧 北京pk两期免费计划 北京pk10冠军公式大全 pk10高手单期人工计划 北京pk10免费人工计划 pk10一天赚300好搞吗 北京pk10杀3码公式 app软件购买北京pk10 北京pk10每天开多少期 北京pk10精准一期计划 北京pk拾全天精准计划 二分pk10怎么玩 pk10怎么引诱别人玩 北京赛車pk10网站 北京pk2期计划在线网站 pk10前三跨度怎么算 赌场最怕什么样的赌法 北京pk赛车彩票官网 怎样控制自己每天赢500 北京pk10正规彩票网站 北京pk10前五1码计划 一无所有怎么白手起家 北京pk10去一尾图解

数据分析领域常提到的数据预处理,说的到底是什么?

时间:2019-03-01   来源:尚学堂   阅读:161

数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点,当然了,这四个大步骤在做数据预处理时未必都要执?#23567;?/p>

数据分析领域常提到的数据预处理,说的到底是什么?

在做数据分析时,我想许多数据分析师会像《R语言实战第二版》的作者卡巴科弗那样发出感叹:“数据分析师在数据预处理上花费了60%的时间……”。是的,我们所知道的建模,评估模型等数据分析工作所花费的时间?#23545;?#27809;有数据预处理的多。这件事虽然麻烦多事但却“功在千秋?#20445;?#22914;果在做数据分析时前期的数据预处理做的很好,那后面的步骤会说话的话,相信我,它们一定会?#34892;?#20320;的,这就跟减肥一样,过程艰难,但?#24605;?#21019;造101的杨超越不也下定决心唱出一句:“燃烧我的卡路里,你是最棒的”嘛。

数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点,当然了,这四个大步骤在做数据预处理时未必都要执?#23567;?/p>

数据清洗

数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在?#38382;?#19978;和内容上的脏:?#38382;?#19978;的脏如缺失值、带有特殊符号的;内容上的脏如异常值。

缺失值

缺失值包括缺失值的识别和缺失值的处理。

在R里缺失值的识别使用函数is.na()判别,函数complete.cases()识别样本数据是否完整。

缺失值处理常用的方法有删除、替换和插补。

1、删除法 :删除法根据删除的不同角度又可以分为删除观测样本和变量,删除观测样本(行删除法),在R里na.omit()函数可以删除所含缺失值的行,这就相当于减少样本量来换取信息的完整度,但当变量有?#27927;?#32570;失并且对研究目标影响不大时,可考虑删除变量R里使用语句mydata[,-p]来完成,mydata表示所删数据集的名?#37073;琾是该删除变量的列数,-表示删除。

2、替换法 :替换法顾名思义对缺失?#21040;?#34892;替换,根据变量的不同又有不同的替换规则,缺失值的所在变量是数值型用该变量下其他数的均值来替换缺失值;变量为非数值变量时则用该变量下其他观测值的?#24418;?#25968;或众数替换。

3、插补法 :插补法分为回归插补和多重插补?#25442;?#24402;插补指的是将插补的变量当作因变量y,其他变量看错自变量,利?#27809;?#24402;模型进行拟合,在R里使用lm()回归函数对缺失?#21040;?#34892;插补;多重插补是指从一个包含缺失值的数据集中生成一组完整的数据,多次进行,产生缺失值的一个随机样本,在R里mice()包可?#36234;?#34892;多重插补。

异常值

异常值跟缺失值一样包括异常值的识别和异常值的处理。

异常值的识别通常用单变量散点图或箱形图来处理,在R里dotchart()是绘?#39057;?#21464;量散点图的函数,boxplot()函数绘制箱现图;在图形?#26657;言?#31163;正常范围的点当作异常值。

异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(?#20204;?#21518;两个观测值的均值修正该异常值)、不处理。在进行异常值处理时要先复习异常值出现的可能原因,再判断异常值是否应该舍弃。

数据分析领域常提到的数据预处理,说的到底是什么?

数据集成

所谓数据集成就是将多个数据源合并放到一个数据存储?#26657;?#24403;然如果所分析的数据原本就在一个数据存储里就不需要数据的集成了(多合一)。

数据集成的实现是将两个数据框以关键字为依据,在R里用merge()函数实?#37073;?#35821;句为merge(dataframe1, dataframe2,by=”关键字“?#20445;?#40664;?#20064;?#21319;序排?#23567;?/p>

在进行数据集成时可能会出现如下问题:1 同名异义,数据源A?#24515;?#23646;性名字和数据源B?#24515;?#23646;性名字相同,但所表示的实体不一样,不能作为关键?#37073;? 异名同义,即两个数据源某个属性名字不一样但所代表的实体一样,可作为关键?#37073;? 数据集成往往造成数据冗余,可能是同一属性多次出?#37073;?#20063;可能是属性名字不一致导致的重复,对于重复属性一个先做相关分析检测,如果有再将其删除。

数据变换

数据变换就是转化成适当的?#38382;劍?#26469;满足软件或分析理论的需要。

简单函数变换

简单函数变换用来将不具有正态分布的数据变成有正态分布的数据,常用的有平方、开方、取对数、差分等;如在时间序列里常对数据对数或差分运算将非平稳序列转化成平稳序?#23567;?/p>

规范化

规范化就是剔除掉变量量纲上的影响,?#28909;?#30452;接比较身高和体重的差异,单位的不同和取值范围的不同让这件事不能直接比较。

1 最小-最大规范化:也叫离差标准化,对数据进行线性变换,将其范围变成[0,1]

2 零-均值规范化:也叫标准差标准化,处理后的数据均值等于0,标准差为1

3 小数定标规范化:移动属性值的小数位数,将属性值?#25104;?#21040;[-1,1]

连续属性离散化

将连续属性变量转化成分类属性,就是连续属性离散化,特别是某些分类算法要求数据是分类属性,如ID3算法。

常用的离散化方法有如下几种。

1 等宽法:将属性的值域分成具有相同宽度的区间,类似?#35889;?#39057;率分布表

2 等频法:将相同的记录放到每个区间

3 一维聚类:两个步骤,首先将连续属性的值用聚类算法,然后将聚类得到的集合合并到一个连续性值并做同一标记

数据分析领域常提到的数据预处理,说的到底是什么?

数据规约

数据规约能够降低无效错误的数据?#36234;?#27169;的影响、缩减时间、降低存储数据的空间。

属性规约

属性规约是寻找最小的属性子集并?#33539;?#23376;集概率分布接近原来数据的概率分布。

1 合并属性:将一些旧的属?#38498;?#24182;一个新的属性

2 逐步向前选择,从一个空属性集开始,每次在原来属性集合选一个当前最优属性添加到当前子集?#26657;?#19968;直到无法选择最优属性或满足一个约束值为止

3 逐步先后选择,从一个空属性集开始,每次在原来属性集合选一个当前最差属性并剔除当前子集?#26657;?#19968;直到无法选择最差属性或满足一个约束值为止

4 决策树归纳:没有出现在这个决策树上的属?#28304;映?#22987;集?#29616;?#21024;除,获得一个较优的属性子集

5?主成份分析:用较少的变量去解释原始数据中大部分变量(用相关性高的变量转化成彼此相互独立或不相关的变量)

数值规约

通过减少数据量,包括有参数和无参数方法,有参数如线性回归和多元回归,无参数法如直方图、抽样等。

相关资讯

  • 北京校区
  • 山西校区
  • 郑州校区
  • 武汉校区
  • 四川校区
  • 长沙校区
  • 深圳校区
  • 上海校区
  • 广州校区
  • 保定招生办

北京海淀区校区(总部):北京市海淀区西三旗街道建?#26576;?#35199;?#20998;?#33150;建华商务大厦东侧二层尚学堂
北京京南校区:北京亦庄经?#27599;?#21457;区科创十四街6号院1号楼 赛蒂国际工业园
咨询电话:400-009-1906 / 010-56233821
面授课程: JavaEE培训大数据就业班培训大数据云计算周末班培训零基础大数据连读班培训大数据云计算高手班培训人工智能周末班培训人工智能+Python全栈培训H5+PHP全栈工程师培训

山西学区地址:山西省晋中市榆次区大学城大学生活广场万科商业A1座702

郑州学区地址?#27721;幽系?#23376;商务产业园6号楼4层407
咨询电话:0371-55177956

武汉学区地址?#27721;?#21271;省武汉?#34218;?#22799;区江夏大道26号 宏信悦?#21364;?#19994;园4楼
咨询电话:027-87989193

四川学区地址:成都市高新区锦晖西一街99号布鲁明顿大厦2栋1003室
咨询电话:028-65176856 / 13880900114

网址:http://www.cssxt.com/
咨询电话:0731-83072091

深圳校区地址:深圳市宝安区航城街道航城大道航城创新创业园A4栋210(固戍地铁站C出口)
咨询电话:0755-23061965 / 18898413781

上海尚学堂?#23665;?#26657;区地址:上海市?#23665;?#21306;荣乐东路2369弄45号绿地伯顿大厦2层
咨询电话:021-67690939

广州校区地址:广州市天河区元岗横路31号慧通产业广场B区B1栋6楼尚学堂(地铁3号线或6号线到“天河客运站”D出口,右拐直走约800米)
咨询电话:020-2989 6995

保定招生办公室

地址?#27721;?#21271;省保定市竞秀区朝阳?#27927;?#34903;777号鸿悦国际1101室

电话:15132423123

Copyright 2006-2019 北京尚学?#27599;?#25216;有限公司  京ICP备13018289号-19  京公网安备11010802015183  
媒体联系:18610174079 ?#35780;?#24072;  
pk10单双最好方法