Mach-O初探 &編譯與鏈接

Mach-O與連接器的一個作用

Mach-o到底是什么?
Mach-O(Mach Object)是macOS、iOS、iPadOS存儲序和庫的文件格式。對應(yīng)系統(tǒng)通過引用二進制接口(application binary interface,所寫為ABI)來運行該格式的文件。
Mach-O格式用來替代BSD系統(tǒng)的a.out格式。Mach-O文件格式保存了在編譯過程的連接過重產(chǎn)生的機器代碼和數(shù)據(jù),從而為靜態(tài)連接和動態(tài)連接的代碼提供了單一文件格式。
Mach-O 是iOS系統(tǒng)不同運行時期,可執(zhí)行文件類型的統(tǒng)稱。它是一種用于,可執(zhí)行文件、目標(biāo)代碼、動態(tài)庫、內(nèi)核轉(zhuǎn)儲的文件格式。
Mach -O 的三種類型:Executable 、Dylib 、bundle

  • 思考一個問題當(dāng)我們項目點擊運行那一刻發(fā)生了什么系統(tǒng)到底做了什么?
    首先它去加載 ipa包,然后去找到 ipa包里的一個可執(zhí)行文件黑不溜秋的。
截屏2021-01-21 下午9.10.25.png

其可執(zhí)行文件的調(diào)用過程:

  • 1.調(diào)用fork函數(shù),創(chuàng)建一個process
  • 2.調(diào)用execve或其衍生函數(shù),在該進程上加載,執(zhí)行我們的Mach-O文件
    當(dāng)我們調(diào)用時execve(程序加載器),內(nèi)核實際上在執(zhí)行:
  • 1.將文件加載到內(nèi)存
  • 2.開始分析Mach-O中的mach_header,以確認(rèn)它是有效的Mach-O文件

對于上面的我們先不了解過深我們先看它到底是怎樣一種格式我們理解
通過下面命令

objdump --macho --private-headers / 黑不溜秋的地址 

截屏2021-01-21 下午9.26.47.png

可以看到里面他有 mach header 有多個 load command 有多個section ,那他們之間的關(guān)系是怎樣的呢?我們先看下面每個字段的含義。

Mach header :指定文件的目標(biāo)體系結(jié)構(gòu),自我描述信息
  • magic: ,系統(tǒng)加載器通過該字段快速,判斷當(dāng)前文件
  • cputype: 標(biāo)識cpu架構(gòu),比如ARM, X86,i386等等,該字段確保系統(tǒng)可以將合適的二進制文件在當(dāng)前架構(gòu)下運行。
  • cpusubtype: 具體的cpu類型,區(qū)分不同版本的處理器,如arm64,armv7
  • filetype: 說明該mach-o文件類型(可執(zhí)行文件,庫文件,核心轉(zhuǎn)儲文件,內(nèi)核擴展,DYSM文件,動態(tài)庫)。
  • ncmds: loadCommands數(shù)量,每個LoadCommands代表了一種Segment的加載方式 .
  • sizeofcmmds:所有Load commands的總字節(jié)大小
  • flags:標(biāo)識二進制文件支持的功能,主要與系統(tǒng)的加載、連接有關(guān)
  • reserved:保留的字段。
Load commands: 在虛擬內(nèi)存中指定文件的邏輯結(jié)構(gòu)和文件的布局。類似書的目錄
  • load commands 跟在mach_header之后。所有命令的總大小由mach_header中sizeofcmmds字段給出。
  • load command必須有前兩個字段 cmd 和 cmdsize. cmd字段以該命令類型的常量填充。每個命令類型都有專門追對它的結(jié)構(gòu)。cmdsize字段是特定加載命令結(jié)構(gòu)的字節(jié)大小加跟隨它的任何一部分,這是加載命令(即節(jié)結(jié)構(gòu)、字符串等)的須是4字節(jié)的倍數(shù),對于64位架構(gòu)必須是8字節(jié)的倍數(shù)(這些永遠是任何加載命令的最大對齊)。填充的字節(jié)必須為0.
  • 目標(biāo)文件中的所有表也必須遵循這些規(guī)則,以便文件可以進行內(nèi)容映射。否則,這些表的指針在某些機器上無法正常工作或根本無法真長工作。所有padding歸零對象
Raw segment data: 包含在加載命令中定義的段的原始數(shù)據(jù)。主要包含代碼、數(shù)據(jù)、符號表等

因為mach -O里面全部都是二進制的,我們就可以理解為 配置文件+二進制代碼,比如說 為什么我們程序的啟動都是main?就是因為mach- O指定了它的入口函數(shù) 在dyld解析的時候會根據(jù)這個字段來找到入口函數(shù)
通過下面命令 找到 LC_MAIN

objdump --macho --private-headers / 黑不溜秋的地址 | ag 'LC_MAIN' -A  3
截屏2021-01-21 下午9.40.14.png

總結(jié)

Mach-O圖解1
  • 比如通過黃色區(qū)域 _TEXT load Command 就可以找到其_TEXT代碼具體的執(zhí)行二進制的位置。
  • 通過 _DATA Load Command 就可以 找到 _DATA 具體的執(zhí)行位置
  • load Command 就向一本書的目錄. 可以通過目錄 來定位 具體的章節(jié)
Mach-O圖解2

此圖更能形象的描述出 Mach-O 的結(jié)構(gòu),整個 Mach-O 均為二進制文件,它就向一本書,Mach header 就像 書的前言 自描述著,load commands 就像書的目錄 Data 就向是目錄 具體的內(nèi)容。

編譯鏈接過程

截屏2021-02-20 下午1.12.58.png

對于上面的描述有些生硬,我來實操一下


截屏2021-02-20 下午2.12.46.png

看如上代碼只編譯一個mian.m 然后我們通過命令去查看編譯出來的可執(zhí)行文件代碼 段

objdump --macho -d /黑不溜秋的地址。
截屏2021-02-20 下午2.15.23.png
  • 可以看到NSLog變成了一條指令 callq 這個地址
    那在編譯的時候?qū)嶋H干了點什么事情呢?

編譯

  1. 再編譯過程把能變成匯編的盡量變成匯編變成機器碼
  2. 不能變成匯編的給其進行一個歸類。

比如上面的NSLog 可以callq一個地址,向其他的變量就要進行歸類 比如說 數(shù)據(jù),那應(yīng)該放在數(shù)據(jù)段,其他的放在其他地方,比如變成目標(biāo)文件的時候像NSlog在其他的mach-O 中,需要鏈接的時候才能確定一些東西那怎么辦?所以就是,將不能變成機器碼的符號進行一個歸類

下面我們看一下當(dāng)前的重定位符號表 我們先將 main.m 用clang編譯器成 中間代碼.o

$ clang -x objective-c \
> -target x86_64-apple-macos10.15 \
> -fobjc-arc \
> -isysroot /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.15.sdk \
> -c main.m -o main.o
  • -x objective-c :指定編譯語言
  • -target x86_64-apple-macos10.15 :指定編譯架構(gòu)
  • -fobjc-arc : 指定編譯 是arc
  • -isysroot 比如<Foundation/Foundation.h> 系統(tǒng)sdk在哪
  • 輸出。

編譯出中間代碼.o之后 我們在來看一下 當(dāng)前.o 的重定位符號表

objdump --macho --reloc  .o地址
$ objdump --macho --reloc /Users/lh/Desktop/LHObject/symbol/symbol/main.o 
/Users/lh/Desktop/LHObject/symbol/symbol/main.o:
Relocation information (__TEXT,__text) 4 entries
address  pcrel length extern type    scattered symbolnum/value
00000033 True  long   True   BRANCH  False     _NSLog
00000029 True  long   True   SIGNED  False     _static_init_value
0000001f True  long   True   SIGNED4 False     _static_uninit_value
0000000b True  long   False  SIGNED  False     5 (__DATA,__cfstring)
Relocation information (__DATA,__cfstring) 2 entries
address  pcrel length extern type    scattered symbolnum/value
00000010 False quad   False  UNSIGND False     4 (__TEXT,__cstring)
00000000 False quad   True   UNSIGND False     ___CFConstantStringClassReference
Relocation information (__LD,__compact_unwind) 1 entries
address  pcrel length extern type    scattered symbolnum/value
00000000 False quad   False  UNSIGND False     1 (__TEXT,__text)

對應(yīng)上面的我們看一下都代表什么意思


截屏2021-02-20 下午3.42.35.png
  • 從這里我們就能明白,重定位符號表里 的保存的是當(dāng)前文件你用到的符號,使用了的在這里,沒有使用的不在這里。
總結(jié):

程序編譯過程 就是將.m 變成.o 的過程。里面做了通過詞法分析語法分析展開宏啊清除注釋啊,能變成機器碼的盡量變成機器碼。不能變成對符號進行歸類,對于當(dāng)前.m文件用到的符號,放在重定向符號表里。

鏈接:

當(dāng)程序被編譯成一個個中間代碼.o, 接下來就需要進行一個鏈接過程,處理編譯情況。 把多個目標(biāo)文件合并到一起,之后 也就意味著,重定位符號表,包括 其他符號,就被合并到一張表中,最后生成我們的可執(zhí)行文件 exec

Symbol Table
  • symbol Table:用來保存符號
  • StringTable: 用來保存符號的名稱
  • indrect Symbol Table:間接符號表,保存使用外部符號,更準(zhǔn)確一點就是使用的外部動態(tài)庫的符號,是symbolTable的子集(例如: NSLog)
看到這里在回顧一下上面mach -O
截屏2021-02-20 下午4.39.37.png
  • 一樣通過load Command 來找到 符號表的一個具體的位置。
總結(jié):
  • 鏈接過程就是在處理目標(biāo)文件符號的過程。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容