記一次HTTP連接重用問題分析

最近新發(fā)現(xiàn)了一個開源項目叫pyroscope:一個開源持續(xù)Profiling平臺。

image.png

之所以關(guān)注到這個開源項目跟我以前的一個想法有一些契合,所以就先照著官方文檔,寫了個樣例試用

package main

import (
    "github.com/gin-gonic/gin"
    "github.com/pyroscope-io/pyroscope/pkg/agent/profiler"
)

func main() {
    profiler.Start(profiler.Config{
        ApplicationName: "backend.purchases",
        ServerAddress:   "http://localhost:4040",
    })

    r := gin.Default()
    r.GET("/ping", func(c *gin.Context) {
        c.JSON(200, gin.H{
            "message": "pong",
        })
    })
    r.Run()
}

先把服務(wù)跑起來再說,結(jié)果卻發(fā)現(xiàn)Agent上送Profiler經(jīng)常會有EOF錯誤,這讓我覺得有點尷尬,看到Issues上有人提了這個問題,在好奇心驅(qū)使下,準(zhǔn)備看看怎么回事

抓包分析

用wireshark抓包看了一下


image.png

發(fā)現(xiàn)竟然是服務(wù)端在先關(guān)閉連接,此時我還未看代碼,直接上此類服務(wù)應(yīng)該用長連接才對,翻看服務(wù)端代碼也是常規(guī)寫法

s := &http.Server{
    Addr:           ctrl.cfg.Server.ApiBindAddr,
    Handler:        mux,
    ReadTimeout:    10 * time.Second,
    WriteTimeout:   10 * time.Second,
    MaxHeaderBytes: 1 << 20,
    ErrorLog:       golog.New(w, "", 0),
}

Agent端了也是默認(rèn)長連接的

&http.Client{
    Transport: &http.Transport{
        MaxConnsPerHost: cfg.UpstreamThreads,
    },
    Timeout: cfg.UpstreamRequestTimeout,
}

所以其實兩端都是支持長連接的,但連接確實是首先由服務(wù)端關(guān)閉的,這不合理啊,回頭再來看抓包信息,Agent發(fā)送了[FIN, ACK]以后,還發(fā)了一次POST請求,正常情況Server端應(yīng)該回一個ACK,不過由于經(jīng)過了[FIN]->[FIN, ACK]此時服務(wù)端已經(jīng)處于FIN_WAIT_1狀態(tài)了,正等對端回ACK和FIN,不過比較巧的是剛好Agent端此時發(fā)關(guān)了一個POST請求,此時服務(wù)端只能收數(shù)據(jù),不能發(fā)送數(shù)據(jù),所以服務(wù)端發(fā)回了一個RST


image.png

原因是什么?

現(xiàn)象分析完了,那為什么會出現(xiàn)這種情況呢?網(wǎng)上看到一些此類問題解決辦法是客戶端處理POST請求直接Close關(guān)掉連接,這個就沒法復(fù)用連接了,而且場景不同,根本不應(yīng)該這么暴力操作,還是要具體問題具體分析的。關(guān)注一個小細(xì)節(jié),在Agent發(fā)起[SYN]建立連接到Server發(fā)起[FIN]關(guān)注連接時間間隔正好是10s,這個時間與Server的讀寫超時時間相同,而Agent的上送Profiler的默認(rèn)時間間隔也是10s,這之間會不會有什么關(guān)系?因為理想情況至少客戶端是應(yīng)該復(fù)用這個連接的,直覺上應(yīng)該是Agent端關(guān)閉連接才對的。果不其然,在server.go中找到了線索:

    // IdleTimeout is the maximum amount of time to wait for the
    // next request when keep-alives are enabled. If IdleTimeout
    // is zero, the value of ReadTimeout is used. If both are
    // zero, there is no timeout.
    IdleTimeout time.Duration

服務(wù)端本意是想復(fù)用連接的,但是并沒有設(shè)置IdleTimeout,但是有設(shè)置ReadTimeout為10s秒,這正好是Agent端上送Profiler的間隔時間,所以很快就破案了,真是好巧不巧的,這個時間點卡的可真準(zhǔn),其實一般情況服務(wù)端這么設(shè)置也沒問題,因為長連接通常適用于并發(fā)調(diào)用,以Agent端的調(diào)用頻率并不高,而且也沒有并發(fā),所以將服務(wù)端IdleTimeout設(shè)置為魔數(shù)30s,就沒有再出現(xiàn)EOF的錯誤,然后我提了PR,很快就合入了主干。

總結(jié)

一開始上網(wǎng)搜解決方案,發(fā)現(xiàn)完全不是那么回事,果然是人云亦云,每個人給出的上下文不一樣,解決方案自然有差別。其實用wireshark抓一下包就能找到線索,大膽猜測,小心求證,數(shù)據(jù)總不會騙人的,源碼也靜待剖析。

參考:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容