机器学习常用的调参方法:K折交叉验证(k-fold),附代码实现

国内新闻 浏览(955)

02: 41: 45在线医疗

推介

文本

敏感),但是训练集之外的数据拟合程度通常不尽如人意。因此,我们通常不训练所有数据集,而是划分一部分(这部分不参与训练)来测试训练集产生的参数,并相对客观地判断训练集外的数据。一致程度。这个想法叫做交叉验证

K折交叉验证(k倍)

在机器学习中,数据集A被分为训练集B和测试集C.在样本大小不足的情况下,为了充分利用数据集来测试算法效果,数据集是A随机地将k个分组随机分成k个分组,其中一个用作每次测试集,剩余的k-1个分组被训练为训练集。以这种方式,可以对分类器执行总共k次训练,并且获得k个训练结果。

代码是:

Decision_tree_classifier=DecisionTreeClassifier()

Cv_scores=cross_val_score(decision_tree_classifier,all_inputs,all_classes,cv=10)

cross_val_score参数是all_inputs:功能all_classes:目标cv: k

所以输出cv_scores的结果是:

我们的程序分为10个副本,所以我们现在将有10个测试结果,我们将其可视化,效果是:

Sb.distplot(cv_scores)

Plt.title('平均分为: {}'。格式(np.mean(cv_scores)))

Plt.show()

在我们使用它们来限制决策树之前,我们学到了很多关于DecisionTreeClassifier()的参数。我们现在构建另一个决策树,然后使用k的交叉验证方法来测试决策树。

Decision_tree_classifier=DecisionTreeClassifier(max_depth=1)cv_scores=cross_val_score(decision_tree_classifier,all_inputs,all_classes,cv=10)print(cv_scores)sb.distplot(cv_scores,kde=False)plt.title('average score: {}'。format( Np.mean(cv_scores)))plt.show()

分层KFold使用类似于Kfold,但它是分层抽样,确保训练集在测试集中的每个类别中具有与原始数据集相同的样本比例。

推介

文本

敏感),但是训练集之外的数据拟合程度通常不尽如人意。因此,我们通常不训练所有数据集,而是划分一部分(这部分不参与训练)来测试训练集产生的参数,并相对客观地判断训练集外的数据。一致程度。这个想法叫做交叉验证

K折交叉验证(k倍)

在机器学习中,数据集A被分为训练集B和测试集C.在样本大小不足的情况下,为了充分利用数据集来测试算法效果,数据集是A随机地将k个分组随机分成k个分组,其中一个用作每次测试集,剩余的k-1个分组被训练为训练集。以这种方式,可以对分类器执行总共k次训练,并且获得k个训练结果。

代码是:

Decision_tree_classifier=DecisionTreeClassifier()

Cv_scores=cross_val_score(decision_tree_classifier,all_inputs,all_classes,cv=10)

cross_val_score参数是all_inputs:功能all_classes:目标cv: k

所以输出cv_scores的结果是:

我们的程序分为10个副本,所以我们现在将有10个测试结果,我们将其可视化,效果是:

Sb.distplot(cv_scores)

Plt.title('平均分为: {}'。格式(np.mean(cv_scores)))

Plt.show()

在我们使用它们来限制决策树之前,我们学到了很多关于DecisionTreeClassifier()的参数。我们现在构建另一个决策树,然后使用k的交叉验证方法来测试决策树。

Decision_tree_classifier=DecisionTreeClassifier(max_depth=1)cv_scores=cross_val_score(decision_tree_classifier,all_inputs,all_classes,cv=10)print(cv_scores)sb.distplot(cv_scores,kde=False)plt.title('average score: {}'。format( Np.mean(cv_scores)))plt.show()

分层KFold使用类似于Kfold,但它是分层抽样,确保训练集在测试集中的每个类别中具有与原始数据集相同的样本比例。

http://anzhuo.ckimi.cn