-
标准化(0均值,单位方差)
-
0-1缩放(将数值特征缩放到【0,1】) V=(X - min)/(max - min) 针对每一个样本处理(行)
-
绝对值缩放(将数值特征缩放到[-1, 1]) V=V\max 针对每一个特征处理(列)
-
正则化
-
二值化 按照阀值,大于等于该值则为1,否则为0
-
one hot方式 将所有特征展开成一行,存在则为1,否则为0
-
缺失值处理 如果特征缺失,按照规定替换缺失值(平均数,中位数,重数(可以非数值类型))
note: 需要对训练集,测试集和预测集都采用相同的预处理。
特征提取和特征选择不同,前者主要将任意的数据(文本,图像)转化为机器学习能够使用的数值的过程; 而后者主要是说在这些特征之上使用的机器学习技术方案。
如果是文本处理技术中,通俗的讲就是文本向量化。