一、字典特征提取
1、导入包
1 | from sklearn.feature_extraction import DictVectorizer |
2、函数编写
1 | def dict_demo(): |
3、运行结果
1 | data_new: |
二、文字特征提取
Countvectorizer提取
统计每个样本特征词出现的个数
1、导入包
1 | from sklearn.feature_extraction.text import CountVectorizer |
2、函数编写
英文分词:
1 | def count_demo(): |
中文 jieba 分词:
1 | def count_Chinese_demo(): |
3、运行结果
1 | data_new: |
TfidfVectorizer提取
用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
1、导入包
1 | from sklearn.feature_extraction.text import TfidfVectorizer |
2、函数编写
1 | def tfidf_demo(): |
3、运行结果
1 | data_new: |
评论