最佳回答2023-01-28
1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。
2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
3.在数据挖掘之前要对原始数据进行预处理是数据挖掘中使用的数据的原则。
其他回答(2)
阿翰最爱笑
回答时间:2023-01-28
可以降低数据大小,通过归约,可以建立好的样本集,因为脏数据的存在,需要预处理
单位不一致,比如,身高1.7米,体重120斤,那么1.7和120不在一个数量级上,导致1.7的权重被淹没
有时候需要降维,降低运算量,有时需要升维,达到线性可分,这些都是预处理的方面
丹组
回答时间:2023-01-28
数据中包含很多噪声数据,需要去除不相关的数据,比如如分析无关的字段;了解数据质量,有些数据质量不足以直接使用,如包含过多的缺失值,需要进行缺失值处理;数据字段不能够直接使用,需要派生新的字段,以更好的进行进一步的数据挖掘;数据分散,需要将数据进行整合,例如追加表(增加行),或者合并表(增加列),通过数据的预处理能够很好的对数据有初步的认识和理解。
最新问题