文本分词并画词云.

$git clone git@github.com:guofei9987/Corpus_Python_Demo.git

step1:用jieba分词

url='人民的名义 周梅森.txt'
content=open(url,'rb').read()
import jieba.posseg as pseg
words = pseg.cut(content)#<generator>

step2:做一个简单的词频统计

word_dict={}
taboo_list=['不要','还要']#禁止统计列表
for word, flag in words:
    if flag=='x':#剔除虚词
        continue
    if len(word) in taboo_list:#剔除禁止列表中的词
        continue
    if len(word)==1:#剔除长度为1的词
        continue
    if word in word_dict.keys():
        word_dict[word]+=1
    else:
        word_dict[word]=1

#按照词频从大到小排序
dict1= sorted(word_dict.items(), key=lambda d:d[1], reverse = True)

step3:用wordcloud画图

#下面用wordcloud这个包，画词云图
from wordcloud import WordCloud
wc=WordCloud(font_path='a.ttf')#,max_font_size=40)#这里网上下载一个中文字体，就可以支持中文了
wordcloud=wc.fit_words(dict(dict1))

图片可以保存到本地：

wc.to_file('hh.png')

也可以在屏幕上显示出来：

import matplotlib.pyplot as plt
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

结果

进一步分析

TF-IDF权重策略

有些常见词，比如“有的”，在所有文章中出现概率都比较高。
TF-IDF策略是调整这种偏差的方案

TF(Term Frequency)(词频) \(TF_{ij}=\dfrac{n_{ij}}{\sum\limits_k n_{kj}}\)
- i：第i个Term
- j:第j个文本文件分子是出第i个词在第j个文本文件中出现的次数。
  坟墓是第j个文本文件中，所有词的个数
IDF(Inverse Document Ferquency)(逆向文件频率)
\(IDF_i=\log\dfrac{\mid D\mid}{\mid\{ j:t_i \in d_j\}\mid}\)
- 分母是语料库中文件总数
- 分子是包含第i个词语的文件总数

\(TFIDF_{ij}=TF_{ij} * IDF_{ij}\) 这就排除了高频词

0x00_读论文 11

0x11_算法平台 16

0x12_Pandas与numpy 12

0x13_特征工程 4

0x21_有监督学习 21

0x22_上世纪神经网络 10

0x23_神经网络与TF 17

0x24_NLP 13

0x25_CV 9

0x26_torch 5

0x31_降维 10

0x32_聚类 5

0x33_图模型 9

0x41_统计模型 9

0x42_概率论 7

0x43_时间序列 10

0x44_随机过程 2

0x51_代数与分析 13

0x52_方程 2

0x53_复分析与积分变换 8

0x55_数值计算 7

0x56_最优化 11

0x59_应用数学 10

0x60_启发式算法 8

0x70_可视化 11

0x80_数据结构与算法 21

0xa0_蒙特卡洛方法 6

0xb0_Python语法 19

0xd0_设计模式 7

step1:用jieba分词

step2:做一个简单的词频统计

step3:用wordcloud画图

结果

进一步分析

TF-IDF权重策略