sklearn.feature_extraction.DictVectorizer将字典格式的数据转换为特征

简介:
class  sklearn.feature_extraction. DictVectorizer ( dtype=<class ‘numpy.float64’> separator=’=’ sparse=True , sort=True )
Transforms lists of feature-value mappings to vectors.
This transformer turns lists of mappings (dict-like objects ) of feature names to feature values into Numpy arrays or scipy. sparse matrices(稀疏矩阵) for use with scikit-learn estimators.
When feature values are strings, this transformer will do a binary one-hot (aka one-of-K) coding: one boolean-valued feature is constructed for each of the possible string values that the feature can take on. For instance, a feature “f” that can take on the values “ham” and “spam” will become two features in the output, one signifying “f=ham”, the other “f=spam”.
However, note that this transformer will only do a binary one-hot encoding when feature values are of type string. If categorical features are represented as numeric values such as int, the DictVectorizer can be followed by OneHotEncoder to complete binary one-hot encoding.
Features that do not occur in a sample (mapping) will have a zero value in the resulting array/matrix.
Read more in the  User Guide .
Parameters:
dtype  : callable, optional
The type of feature values. Passed to Numpy array/scipy.sparse matrix constructors as the dtype argument.
separator  : string, optional
Separator string used when constructing new features for one-hot coding.
sparse  : boolean, optional.
Whether transform should produce scipy.sparse matrices. True by default.
sort  : boolean, optional.
Whether  feature_names_  and  vocabulary_  should be sorted when fitting. True by default.


Attributes:
vocabulary_  : dict
A dictionary mapping feature names to feature indices.
feature_names_  : list
A list of length n_features containing the feature names (e.g., “f=ham” and “f=spam”).


目录
相关文章
|
XML 存储 数据格式
【30】yolov5的数据集准备 | 处理Pascal voc格式的数据集
【30】yolov5的数据集准备 | 处理Pascal voc格式的数据集
491 0
【30】yolov5的数据集准备 | 处理Pascal voc格式的数据集
|
机器学习/深度学习 算法 Python
sklearn中的Bunch和dict的区别
sklearn中的Bunch和dict的区别
85 0
torch在构造数据集时,如何将dataloader和next结合,使得next输出的是dataloader已经构造好的数据集
在使用torch.utils.data.DataLoader构造数据集并进行迭代时,可以通过调用iter()函数将DataLoader对象转换为一个可迭代对象,然后再通过调用next()函数取出下一个batch的数据。 例如,假设我们已经定义好了一个MyDataset类来表示自己的数据集,并且使用DataLoader来对其进行批量处理:
718 1
PASCAL VOC数据集分割为小样本数据集代码
PASCAL VOC数据集分割为小样本数据集代码
195 0
|
机器学习/深度学习 数据采集 Python
独热编码(One-Hot Encoding)和 LabelEncoder标签编码 区别 数据预处理:(机器学习) sklearn
独热编码(One-Hot Encoding)和 LabelEncoder标签编码 区别 数据预处理:(机器学习) sklearn
801 0
独热编码(One-Hot Encoding)和 LabelEncoder标签编码 区别 数据预处理:(机器学习) sklearn
|
机器学习/深度学习 自然语言处理 数据处理
基于TF-IDF与逻辑回归模型实现文本实体关系抽取任务
基于TF-IDF与逻辑回归模型实现文本实体关系抽取任务
193 0
基于TF-IDF与逻辑回归模型实现文本实体关系抽取任务
|
机器学习/深度学习 Python
【机器学习技巧】之特征工程:数字编码以及One-hot独热编码的几种方式(sklearn与pandas处理方式)
【机器学习技巧】之特征工程:数字编码以及One-hot独热编码的几种方式(sklearn与pandas处理方式)
【机器学习技巧】之特征工程:数字编码以及One-hot独热编码的几种方式(sklearn与pandas处理方式)
|
数据格式
将icdar2015数据集转换成paddleOCR标注数据格式
将icdar2015数据集转换成paddleOCR标注数据格式
将icdar2015数据集转换成paddleOCR标注数据格式
|
PyTorch 算法框架/工具 数据格式
Pytorch实践中的list、numpy、torch.tensor之间数据格式的相互转换方法
Pytorch实践中的list、numpy、torch.tensor之间数据格式的相互转换方法
565 0
|
机器学习/深度学习 PyTorch 算法框架/工具
np.ndarray与torch.Tensor之间的转化 (图像的区别)
np.ndarray与torch.Tensor之间的转化 (图像的区别)