Some references
- http://www.52nlp.cn/2012/04
- https://github.com/Computing-Intelligence/References
- http://web.stanford.edu/class/cs224n/
- https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1052316982&courseId=1004570029
1 吳恩達ML
Clustering

image.png
K-Means (usually two steps in each inner loop)

image.png
First step: Cluster assignments steps
Next: move cluster centroid to where close to the average of other dots

image.png
Optimization objective

image.png

distortion function
Random Initialization

隨機選點

容易陷入局部最優(yōu) 所以要多次kmeans

K值較小時random可以更好的最小化畸變函數(shù)而比較好地聚類
Choosing the number of K
更多的時候是自己設置,there isnt always a good answer

elbow并不常用

image.png
2. 北理工ML
主題模型

發(fā)展歷程

image.png
MK矩陣:每個詞w 在 m行文檔K列主題 的分布矩陣

image.png

吉布斯采樣
3. 周志華ML
聚類
- 聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為一個"簇" (cluster). 聚類過程僅能自動形成簇結構,簇所對應的概念語義需由使用者來把握和命名.
- 性能度量:聚類結果的"簇內(nèi)相似 度" (intra-cluster similarity)高且"簇間相似度" (inter-cluster similarity)低. 聚類性能度量大致有兩類. 一類是將聚類結果與某個"參考模 型" (reference model)進行比較,稱為"外部指標" (external i丑dex); 另一 類是直接考察聚類結果而不利用任何參考模型,稱為"內(nèi)部指標" (internal index).
Prototype-based clustering
K-means