AI學習筆記——Autoencoders(自編碼器)

Autoencoder 的基本概念

之前的文章介紹過機器學習中的監(jiān)督學習和非監(jiān)督學習,其中非監(jiān)督學習簡單來說就是學習人類沒有標記過的數(shù)據(jù)。對于沒有標記的數(shù)據(jù)最常見的應(yīng)用就是通過聚類(Clustering)的方式將數(shù)據(jù)進行分類。對于這些數(shù)據(jù)來說通常有非常多的維度或者說Features。如何降低這些數(shù)據(jù)的維度或者說“壓縮”數(shù)據(jù),從而減輕模型學習的負擔,我們就要用到Autoencoder了。

用Autoencoder 給數(shù)據(jù)“壓縮”和降維不僅能夠給機器“減壓”,同時也有利于數(shù)據(jù)的可視化(人類只能看懂三維的數(shù)據(jù))。

Autoencoder 實際上跟普通的神經(jīng)網(wǎng)絡(luò)沒有什么本質(zhì)的區(qū)別,分為輸入層,隱藏層和輸出層。唯一比較特殊的是,輸入層的輸入feature的數(shù)量(也就是神經(jīng)元的數(shù)量)要等于輸出層。同時要保證輸入和輸出相等。

結(jié)構(gòu)大概就是如圖所示


因為輸出要等于輸入,所以中間的每一層都最大程度地保留了原有的數(shù)據(jù)信息,但是由于神經(jīng)元個數(shù)發(fā)生了變化,數(shù)據(jù)的維度也就發(fā)生了變化。比如上圖的中間層(第三層)只有兩個神經(jīng)元,那么這一層輸出的結(jié)果實際上就是二維的數(shù)據(jù)結(jié)構(gòu)。我們就可以用這一層的輸出結(jié)果進行無監(jiān)督學習分類,或者做視覺化的展示。

簡化的Autoencoder

對于Autoencoder從輸入層到最中間層的數(shù)據(jù)處理過程叫做數(shù)據(jù)編碼(Encode)過程,從中間層到輸出層則為解碼(Decode)過程,最后保證輸出等于輸入。

Autoencoder的隱藏層可以是多層也可以是單層,這里我用一個只有一層隱藏層的Autoencoder的實例來介紹Autoencoder.

Autoencoder實例代碼

1、導(dǎo)入需要用到的庫
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
2、創(chuàng)建一個三維的數(shù)據(jù)

這里用sklearn 的一個make_blobs的工具創(chuàng)造有兩個聚集點的三維數(shù)據(jù)

from sklearn.datasets import make_blobs
data = make_blobs(n_samples=100, n_features=3,centers=2,random_state=101)

數(shù)據(jù)長這個樣子



注意data[0]是100x3的數(shù)據(jù)(100個點,3個features(維度))

3. 搭建神經(jīng)網(wǎng)絡(luò)

下面用Tensorflow Layers來搭一個三層的全連接的神經(jīng)網(wǎng)路,輸入層,隱藏層和輸出層的神經(jīng)元個數(shù)分別是3,2,3。

import tensorflow as tf
from tensorflow.contrib.layers import fully_connected

num_inputs = 3  # 3 dimensional input
num_hidden = 2  # 2 dimensional representation 
num_outputs = num_inputs # Must be true for an autoencoder!

learning_rate = 0.01

Placeholder,Layers,Loss Function 和 Optimizer

#Placeholder
X = tf.placeholder(tf.float32, shape=[None, num_inputs])
#Layers
hidden = fully_connected(X, num_hidden, activation_fn=None)
outputs = fully_connected(hidden, num_outputs, activation_fn=None)
#Loss Function
loss = tf.reduce_mean(tf.square(outputs - X))  # MSE
#Optimizer
optimizer = tf.train.AdamOptimizer(learning_rate)
train  = optimizer.minimize( loss)
#Init
init = tf.global_variables_initializer()

4. 訓練神經(jīng)網(wǎng)絡(luò)

num_steps = 1000

with tf.Session() as sess:
    sess.run(init)
    
    for iteration in range(num_steps):
        sess.run(train,feed_dict={X: scaled_data})

        
    # Now ask for the hidden layer output (the 2 dimensional output)
    output_2d = hidden.eval(feed_dict={X: scaled_data})

注意:output_2d就是中間層輸出的結(jié)果,這是一個二維(100x2)的數(shù)據(jù)。

這個數(shù)據(jù)長這個樣子


4.總結(jié)

從上面的例子可以看到,Autoencoder 不是簡單地去掉一個維度,而是通過編碼的過程將數(shù)據(jù)“壓縮”到二維。這些數(shù)據(jù)通過解碼過程可以再次在輸出層輸出三維的數(shù)據(jù),并且保留了元數(shù)據(jù)的兩個積聚點。

上面只是一個非常簡單的將三維數(shù)據(jù)通過Autoencoder降到二維空間,當數(shù)據(jù)的feature 太多的時候,通過Autoencoder 就可以在最大限度保留原數(shù)據(jù)的信息并降低源數(shù)據(jù)的維度。

————
相關(guān)文章
AI學習筆記——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的基本概念
AI學習筆記——神經(jīng)網(wǎng)絡(luò)和深度學習
AI學習筆記——卷積神經(jīng)網(wǎng)絡(luò)1(CNN)
————
首發(fā)steemit

歡迎掃描二維碼關(guān)注我的微信公眾號“tensorflow機器學習”,一起學習,共同進步


image
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 文章主要分為:一、深度學習概念;二、國內(nèi)外研究現(xiàn)狀;三、深度學習模型結(jié)構(gòu);四、深度學習訓練算法;五、深度學習的優(yōu)點...
    艾剪疏閱讀 22,218評論 0 58
  • 五、Deep Learning的基本思想 假設(shè)我們有一個系統(tǒng)S,它有n層(S1,…Sn),它的輸入是I,輸出是O,...
    dma_master閱讀 1,927評論 1 2
  • 平凡的人沒有聰慧的大腦,沒有顯赫的背景,唯一有的只是他們自己,都說努力可以改變?nèi)松?,可大多?shù)努力仍舊失敗,像今年的...
    朝凡閱讀 747評論 0 0
  • 一、目的和預(yù)算 首先,你應(yīng)當考慮如何使用你的新吉他。然后再考慮你可以付出多少錢去買一把吉他?;蛟S是一個有著豐富演奏...
    吉他范兒閱讀 3,673評論 1 27

友情鏈接更多精彩內(nèi)容