環(huán)境工具要求:node >=7,npm,git,pm2
使用git clone rendertron的源代碼,本地編譯代碼
1.克隆源代碼,進(jìn)入源代碼根目錄,下載相關(guān)依賴包
git clone https://github.com/GoogleChrome/rendertron.git
cd rendertron
npm install
依賴包比較多,npm install過程可能很長,需要的話,可以切換國內(nèi)npm源(另行百度)。
需要注意的是,rendertron默認(rèn)啟動(dòng)的端口的3000,如需修改,可以在 rendertron/ 目錄下新建文件 config.json,添加相關(guān)配置(按需添加),下面展示默認(rèn)配置:
{
"datastoreCache": false,
"timeout": 10000,
"port": "3000",
"width": 1000,
"height": 1000
}
每次修改配置后,都需要再次編譯。
2.編譯源代碼
npm run build
編譯成功后,可以測試運(yùn)行一下:
npm run start
可看到輸出內(nèi)容
Listening on port 3000
Ctrl + c停掉程序,接下來使用npm下載pm2管理node程序。
3.使用pm2管理node程序
npm install pm2 -g
啟動(dòng)程序
pm2 start build/rendertron.js
4.部署完畢
這個(gè)時(shí)候,如果需要測試一下是否部署成功,可以訪問
localhost:3000/render/[單頁面應(yīng)用的地址,例如https://www.hongwanyg.com]
查看返回執(zhí)行JavaScript渲染后的頁面內(nèi)容
附上pm2的幾個(gè)命令
# 啟動(dòng)并把程序加入list中
pm2 start [xxx.js]
# 查看程序列表
pm2 list
# 查看單個(gè)程序詳細(xì)信息
pm2 show [name]
# 停止程序
pm2 stop www
# pm2 restart [xxx]
再次運(yùn)行l(wèi)ist中的程序
# 刪除列表中的程序
pm2 delete [xxx]
5.添加nginx配置
由于使用rendertron是為了讓爬蟲蜘蛛能夠獲取到網(wǎng)頁內(nèi)容,所以需要nginx根據(jù)爬蟲的user agent來進(jìn)行重定向,
下面只給出相關(guān)的配置項(xiàng):
假設(shè)
rendertron服務(wù)的地址為:http://192.168.0.109:3000
門戶網(wǎng)站訪問的地址為:https://www.hongwanyg.com
location / {
# ...
if ( $http_user_agent ~* "(Baiduspider|360Spider|Bingbot|Googlebot)"){
# rewrite ^/(.*)$ http://192.168.0.109:3000/render/https://www.hongwanyg.com/$1 last; 錯(cuò)誤的
rewrite ^/(.*)$ /render/https://www.hongwanyg.com/$1 break;
proxy_pass http://192.168.0.109:3000;
}
# ...
}
配置完畢后重啟一下nginx,再使用crul測試訪問一下:
curl -I -A "Baiduspider" https://www.hongwanyg.com
可看到輸出的信息中有:
Location: http://192.168.0.109:3000/render/https://www.hongwanyg.com