数据预处理的作用(数据预处理的作用和方法)
本文目录一览:
在数据挖掘时为什么要进行数据预处理
数据中包含很多噪声数据,需要去除不相关的数据,比如如分析无关的字段
了解数据质量,有些数据质量不足以直接使用,如包含过多的缺失值,需要进行缺失值处理
数据字段不能够直接使用,需要派生新的字段,以更好的进行进一步的数据挖掘
数据分散,需要将数据进行整合,例如追加表(增加行),或者合并表(增加列)
通过数据的预处理能够很好的对数据有初步的认识和理解。
数据的预处理有哪些作用
数据预处理数据预处理的作用的作用是数据清理编辑、数据集成编辑、数据变换编辑、数据归约编辑。
数据预处理可以提高数据质量吗?
数据预处理当然就是为了提高数据质量。
数据如果能满足其应用要求,那么它是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
不正确、不完整和不一致的数据是现实世界大型数据库和数据仓库的共同特点。
导致不正确的数据可能有多种原因:收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这称为被掩盖的缺失数据。错误也可能在数据传输中出现。这可能是由于技术的限制。不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段(如日期)的格式不一致而导致。
不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可以得到的。其它数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其它记录不一致的数据可能已经被删除。此外,历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺失值的元组,可能需要推导出来。
所以,我们在运用大数据前,首先就是要进行大数据处理。才能真正有效的的提高数据质量。
数据预处理在数据挖掘中所处的地位和作用
数据预处理所处数据预处理的作用的地位是很高的,因为只有把数据处理后,才能够进行分析,才能够提取有用的值,起作用就是为数据预处理的作用了便于数据的提取及价值的获取
数据预处理主要针对哪些数据
数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说,数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点。当然了,这四个大步骤在做数据预处理时未必都要执行。
一、数据清洗
数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏。
形式上的脏,如:缺失值、带有特殊符号的;
内容上的脏,如:异常值。
缺失值包括缺失值的识别和缺失值的处理。
在R里缺失值的识别使用函数is.na()判别,函数complete.cases()识别样本数据是否完整。
缺失值处理常用的方法有:删除、替换和插补。
删除法 :删除法根据删除的不同角度又可以分为删除观测样本和变量,删除观测样本(行删除法),在R里na.omit()函数可以删除所含缺失值的行。这就相当于减少样本量来换取信息的完整度,但当变量有较大缺失并且对研究目标影响不大时,可考虑删除变量R里使用语句mydata[,-p]来完成。mydata表示所删数据集的名字,p是该删除变量的列数,-表示删除。
替换法 :替换法顾名思义对缺失值进行替换,根据变量的不同又有不同的替换规则,缺失值的所在变量是数值型用该变量下其他数的均值来替换缺失值;变量为非数值变量时则用该变量下其他观测值的中位数或众数替换。
插补法 :插补法分为回归插补和多重插补。回归插补指的是将插补的变量当作因变量y,其他变量看错自变量,利用回归模型进行拟合,在R里使用lm()回归函数对缺失值进行插补;多重插补是指从一个包含缺失值的数据集中生成一组完整的数据,多次进行,产生缺失值的一个随机样本,在R里mice()包可以进行多重插补。
异常值跟缺失值一样包括异常值的识别和异常值的处理。
异常值的识别通常用单变量散点图或箱形图来处理,在R里dotchart()是绘制单变量散点图的函数,boxplot()函数绘制箱现图;在图形中,把远离正常范围的点当作异常值。
异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。在进行异常值处理时要先复习异常值出现的可能原因,再判断异常值是否应该舍弃。
为何要进行数据预处理
数据中包含很多噪声数据数据预处理的作用,需要去除不相关数据预处理的作用的数据数据预处理的作用,比如如分析无关的字段数据预处理的作用;
数据预处理的作用了解数据质量,有些数据质量不足以直接使用,如包含过多的缺失值,需要进行缺失值处理;
数据字段不能够直接使用,需要派生新的字段,以更好的进行进一步的数据挖掘;
数据分散,需要将数据进行整合,例如追加表(增加行),或者合并表(增加列),通过数据的预处理能够很好的对数据有初步的认识和理解。
简要阐述数据预处理原理
数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
中文名
数据预处理
外文名
data preprocessing
定义
主要的处理以前对数据进行处理
方法
数据清理,数据集成,数据变换等
目标
格式标准化,异常数据清除
快速
导航
预处理内容
方法
基本介绍
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。 数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。[1]
预处理内容
数据审核
从不同渠道取得的统计数据,在审核的内容和方法上有所不同。[1]
对于原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全。准确性审核主要是包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查和计算检查。逻辑检查主要是审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象,此方法主要适合对定性(品质)数据的审核。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误,主要用于对定量(数值型)数据的审核。[1]
对于通过其他渠道取得的二手资料,除了对其完整性和准确性进行审核外,还应该着重审核数据的适用性和时效性。二手资料可以来自多种渠道,有些数据可能是为特定目的通过专门调查而获得的,或者是已经按照特定目的需要做了加工处理。对于使用者来说,首先应该弄清楚数据的来源、数据的口径以及有关的背景资料,以便确定这些资料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,对于有些时效性较强的问题,如果取得的数据过于滞后,可能失去了研究的意义。一般来说,应尽可能使用最新的统计数据。数据经审核后,确认适合于实际需要,才有必要做进一步的加工整理。[1]
数据审核的内容主要包括以下四个方面:
1.准确性审核。主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。[2]
2.适用性审核。主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。[2]
3.及时性审核。主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。[2]
4.一致性审核。主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性。[2]
数据筛选
对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误地数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查、经济分析、管理决策中是十分重要的。