關于無監(jiān)督、聚類和主題模型

Some references

1 吳恩達ML

Clustering

image.png

K-Means (usually two steps in each inner loop)

image.png

First step: Cluster assignments steps
Next: move cluster centroid to where close to the average of other dots

image.png

Optimization objective
image.png

distortion function

Random Initialization

隨機選點

容易陷入局部最優(yōu) 所以要多次kmeans

K值較小時random可以更好的最小化畸變函數(shù)而比較好地聚類

Choosing the number of K
更多的時候是自己設置,there isnt always a good answer

elbow并不常用

image.png

2. 北理工ML

主題模型

發(fā)展歷程

image.png

MK矩陣:每個詞w 在 m行文檔K列主題 的分布矩陣
image.png

吉布斯采樣

3. 周志華ML

聚類

  • 聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為一個"簇" (cluster). 聚類過程僅能自動形成簇結構,簇所對應的概念語義需由使用者來把握和命名.
  • 性能度量:聚類結果的"簇內(nèi)相似 度" (intra-cluster similarity)高且"簇間相似度" (inter-cluster similarity)低. 聚類性能度量大致有兩類. 一類是將聚類結果與某個"參考模 型" (reference model)進行比較,稱為"外部指標" (external i丑dex); 另一 類是直接考察聚類結果而不利用任何參考模型,稱為"內(nèi)部指標" (internal index).

Prototype-based clustering

K-means


?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容