生成数据集
为了方便用户学习机器学习和数据挖掘的方法,机器学习库scikit-learn的数据集模块sklearn.datasets提供了20个样本生成函数,为分类、聚类、回归、主成分分析等各种机器学习方法生成模拟的样本集。
分类、聚类问题样本生成器
make_blobs()方法
sklearn.datasets.make_blobs(n_samples=100, |

center_box表示中心由随机数产生时的随机数产生的上下界random_state表示样本数据的随机数产生方法
sklearn.datasets.make_blobs()函数能够生成指定样本数量、特征数量、类别数量、类别中心、类别样本标准差的分类样本集。
from sklearn.datasets.samples_generator import |
双圆形数据集生成
sklearn.datasets.make_circles(n_samples=100, shuffle=True, noise=None, random_state=None, factor=0.8) |
双圆形数据集生成器生成两个同心圆并叠加噪声的二元分类样本集。
n_samples = 500 |

交错半圆形数据集
sklearn.datasets.make_moons(n_samples=100, shuffle=True, noise=None, random_state=None) |
X, y = datasets.make_moons(n_samples=n_samples, noise=.05) |

分类样本生成器make_classification()方法
用来生成特征间具有相关性、冗余或者未知噪声的样本,用于数据预处理和主成分分析等模型的训练。
sklearn.datasets.make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None) |

用以生成指定样本数量、类别数量、特征数量、冗余特征数量等指标的样本。
from sklearn import datasets |
回归问题样本生成器make_regression()方法
sklearn.datasets.make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None) |

bias表示偏置指标
X, y = datasets.make_regression(n_samples=100, n_features=4, |
访问数据集
访问内部数据集
scikit-learn的datasets模块自带了一些数据集,包括鸢尾花数据集、波士顿房价数据集、红酒数据集、糖尿病数据集、乳腺癌数据集等。用户可以使用形如datasets.load_dataset_name()的命令加载数据集,用于分类、聚类、回归等问题的练习。由于事先不知道数据集的内容,可以通过打印该数据集的对象名字来观察数据集的全部内容,查看其data,target,feature_names等内容,属性,以及数据集的介绍等。
#例5-11 加载scikit-learn自带数据集iris |

本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 小明的博客!