前些天發(fā)現(xiàn)家附近的一個新樓盤有名字了,

那是個什么字我都不認識。。。
現(xiàn)在的小區(qū)是命名越來越隨性了,記憶中那些XX新村,XX花園,現(xiàn)在感覺都不會再出現(xiàn)了,正好最近爬鏈家的時候把深圳所有小區(qū)都存了下來,就來看看這些年在小區(qū)名字上留下了什么印記。
主要工具
- wordcloud 詞云
- jieba 結(jié)巴分詞
先放代碼
import jieba
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import pymongo
from scipy.misc import imread
client = pymongo.MongoClient('localhost',27017)
db = client['bjsz']
list1 = []
for i in db['sz'].find():
list1.append(i['title'])
text = ','.join(list1)
cut_text = ' '.join(jieba.cut(text)) #結(jié)巴分詞,然后空格連接
color_mask = imread('background.jpg') #設(shè)置圖云背景
cloud = WordCloud(
background_color='white', # 設(shè)置背景顏色,默認顏色則為黑色
font_path='C:\Windows\Fonts\msyh.ttf', # 中文圖云必須指定字體,不然全是框框
max_words=1000, # 詞云顯示的最大詞數(shù)
font_step=2, # 字號的步調(diào)
mask=color_mask, #設(shè)置背景圖片
random_state= 15, # 隨機配色方案
min_font_size=5, #最小字號
max_font_size=100, #最大字號
stopwords = {''}, #設(shè)置詞云中不想要顯示的詞
prefer_horizontal=0.1, #設(shè)置詞云中水平顯示的詞的比例
scale= 2 #生成圖片與背景圖片比例,默認為1
)
cloud.generate(cut_text) #對分詞后的文本生成詞云
image_colors = ImageColorGenerator(color_mask) # 從背景圖片獲取顏色
plt.show(cloud.recolor(color_func=image_colors)) # 詞云中詞的顏色按照背景中獲取的顏色
plt.imshow(cloud) # 以圖片的形式顯示詞云
plt.axis('off') # 關(guān)閉坐標軸
plt.show() # 展示圖片
cloud.to_file('cloud.jpg') # 圖片保存
wordcloud根據(jù)文本生成詞云是通過空格分隔不同的詞,而中文不像英文那樣本來中間就有空格,必須要通過結(jié)巴分詞,然后在用空格把詞全連起來。
WordCloud里面有一堆參數(shù)可以設(shè)置,需要注意的是一定要設(shè)置字體,不然出來的中文字全是框框。
這里面有很多地方涉及到背景啊顏色之類的。舉例子說下:
1、
random_state=15
這個值會影響到詞云中詞的配色,詞云中橫向豎向詞的比例等,大概意思就是換一個值就能生成一個新的詞云圖片。


2、
background_color='white'
這個是詞云的背景顏色,默認是黑色。

設(shè)置其他值就能改變背景顏色。

3、
color_mask = imread('background.jpg')
mask=color_mask
mask可以設(shè)置詞云的形狀。其實生成的圖形還是方的,但是通過mask可以讓詞云排列出background.jpg中的圖形。mask會忽略背景圖片中白色的部分,詞的分布都在背景圖片中有顏色的部分。比如如下圖片:

通過設(shè)置以上參數(shù),可以生成這樣的圖片。

4、
image_colors = ImageColorGenerator(color_mask)
plt.show(cloud.recolor(color_func=image_colors))
這兩行可以設(shè)置詞云中詞的顏色,使用背景圖片中詞的顏色,并且可以生成接近背景圖片那樣的效果。

小區(qū)名那些事

花園依舊是命名主力,華府、公館、廣場、國際之類的越來越多,逼格見長。
對比下北京的,

北京在印象中的胡同和大院出現(xiàn)最多,可是都過了2010年了還在用幾號院命名的小區(qū)是什么情況。
最后
上篇文章分析鏈家房源,因為對mongodb和highcharts都不是那么熟,花了好幾天時間摸索,耗費了好多時間,結(jié)果閱讀還是滑鐵盧,哭暈在廁所。。

不過咱還是要屢敗屢戰(zhàn),繼續(xù)前行,畢竟哭完還得繼續(xù)活著。
