java字段映射成其他字段

转载

数据侠客行 2024-12-18 06:00:15

文章标签 java字段映射成其他字段人工智能 python 特征提取特征值 文章分类 Java 后端开发

特征提取

字典特征提取

示例：

文本特征提取

示例1（不含中文的语句）

示例2（包含中文的语句）

jieba分词示例

文本特征抽取 TfidfVectorizer

特征提取

将任意数据（如文本或图像）转换为可用于机器学习的数字特征

注：特征值化是为了计算机更好的去理解数据

字典特征提取（特征离散化）
文本特征提取
图像特征提取（涉及深度学习）

特征提取API

sklearn.feature_extraction

字典特征提取

sklearn.feature_extraction.DictVectorizer(sparse=True,...)

DictVectorizer.fit_transform(X) X :字典或者包含字典的迭代器返回值：返回sparse矩阵
DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵返回值：转换之前的数据格式
DictVectorizer.get_feature_names() 返回类别名称

示例：

java字段映射成其他字段_人工智能

最终的输出为一个sparse矩阵（矩阵中为非零值的位置及其值）

java字段映射成其他字段_特征值_02

转换器默认返回的是sparse，只返回矩阵中值为非零的位置和数值，当矩阵为稀疏数组的时候，sparse具有很大的优点，可以节省空间。

但此时的数据较少，我们希望获得如下的矩阵，那么有两个方法。

java字段映射成其他字段_特征值_03

方法一：得到的sparse矩阵调用toarray()即可输出对应的完整矩阵

java字段映射成其他字段_java字段映射成其他字段_04

方法二：只需将实例化转换器的方法中把sparse参数的值设置为False就可以了。

transfer=DictVectorizer(sparse=False)

文本特征提取

返回的矩阵是关于词频的

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
stop_words=[]，是停用词列表，就是说被放进列表里的元素不会被当作特征值进行提取。
注：文本提取的转换器是没有sparse这个参数的，想要把得到的矩阵转为非稀疏矩阵，只有将得到的矩阵调用toarray()方法才可以，不能设置sparse=true