通過上一篇文章iOS平臺FFmpeg開發(fā)(一)初識FFmpeg的學習,我相信你已經(jīng)了解了視音頻的基礎知識,并且把FFmepg編譯成功并成功導入到工程中了。從這一篇文章開始,我們開始真正地使用FFmpeg。
對視頻的解碼,我們需要使用libavformat和libavcodec這兩個庫。libavformat庫主要負責輸入輸出、封裝和解封裝,libavcodec庫主要負責編解碼,所以要使用相應功能之前要先導入頭文件avformat.h和avcodec.h。
初始化
首先我們需要對FFmepg各個庫進行初始化,這個初始化工作在囊個app生命周期只執(zhí)行一次即可,所以你的代碼應該是這樣的:
static dispatch_once_t onceToken;
dispatch_once(&onceToken, ^{
av_register_all();
avformat_network_init();
avcodec_register_all();
});
其中av_register_all()會初始化所有的muxer、demuxer和代碼。muxer代碼音視頻復用器,它會把編碼好的視頻數(shù)據(jù)和音頻數(shù)據(jù)合并到一個封裝格式數(shù)據(jù)(比如mp4)中去,同理demuxer是解封裝。
avformat_network_init()會初始化所有的網(wǎng)絡模塊。
avcodec_register_all()會注冊所有類型的解碼器,如果只用特定格式的解碼器,可以單獨注冊。
文件操作
首先要創(chuàng)建AVFormatContext,用以管理文件的輸入輸出:
_format_context = avformat_alloc_context();
然后是打開輸入,這個輸入可以是本地視頻文件地址,也可以是視頻流地址。如果文件打開失敗,要調(diào)用avformat_free_context()及時釋放掉AVFormatContext。如果打開成功,后面不再需要輸入文件的操作,要調(diào)用avformat_close_input(&_format_context)來關閉輸入。
result = avformat_open_input(&_format_context, self.filePath.UTF8String, NULL, NULL);
if (result < 0) {
NSLog(@"Failed to open input");
if (_format_context) {
avformat_free_context(_format_context);
}
return;
}
接著需要將視音頻流的信息讀取到AVFormatContext,AVFormatContext中有信息,才能進行查找視頻流、音頻流及相應的解碼器的操作:
result = avformat_find_stream_info(_format_context, NULL);
if (result) {
NSLog(@"Failed to find stream info!");
if (_format_context) {
avformat_close_input(&_format_context);
}
return;
}
如果上面的方法成功了,就可以直接打印整個視頻文件的信息了:
av_dump_format(_format_context, 0, _filePath.UTF8String, 0);
至此,對于視頻文件基本信息的讀取操作已經(jīng)完成了。
初始化音/視頻解碼器
接下來需要初始化視音頻的AVCodec(解碼器)和AVCodecContext(解碼器上下文)。注意,這里音頻的AVCodec和AVCodecContext和視頻的是分開的,但是它們的流程是一模一樣的,所以這部分可以單獨抽一個方法出來。
首先根據(jù)類型找到音頻或視頻的序號,并在同時匹配到最適合的解碼器。注:在之前的版本中會使用for循環(huán)來手動查找視頻流或者音頻流,并且要在后面單獨進行解碼器的查找操作,比較麻煩,現(xiàn)在一個方法就搞定,方便得多。
AVCodec *codec;
int streamIndex = av_find_best_stream(_format_context, AVMEDIA_TYPE_VIDEO, -1, -1, &codec, 0); // 以查找視頻流為例,
這樣通過序號就能找到視頻流或者音頻流了:
AVStream *stream = _format_context->streams[streamIndex];
接下來通過匹配到的解碼器創(chuàng)建AVCodecContext(解碼器上下文)并把視/音頻流里的參數(shù)傳到視/音頻解碼器中:
AVCodecContext *codecContext = avcodec_alloc_context3(codec);
avcodec_parameters_to_context(codecContext, stream->codecpar);
av_codec_set_pkt_timebase(codecContext, stream->time_base);
這里的codecpar表示包含解碼器的各種參數(shù)的結(jié)構(gòu)體。
而time_base則是一個代表分數(shù)的結(jié)構(gòu)體,num 為分數(shù),den為分母,它表示時間的刻度。時間量乘以刻度就可以得到時間。
如果是(1, 25),那么時間刻度就是1/25。這里要注意的是AVStream的time_base與AVCodecContext的time_base是不同的,上面的方法就涉及到time_base的轉(zhuǎn)換,所以要換算得到時間就要選取相應的time_base。
如果要得到double形式的time_base,可以調(diào)用av_q2d()函數(shù),這個操作在這種分數(shù)結(jié)構(gòu)體中會經(jīng)常用到:
timeBase = av_q2d(codecContext->time_base);
接下來就可以打開解碼器上下文準備進行解碼操作了:
int result = avcodec_open2(codecContext, codec, NULL);
if (result) {
NSLog(@"Failed to open avcodec!");
avcodec_free_context(&codecContext);
return;
}
解碼
在進行解碼之前,要先了解兩個基本的結(jié)構(gòu)體:AVPacket和AVFrame。
AVPacket
AVPacket表示編碼(即壓縮)后的數(shù)據(jù),這種格式的音視頻數(shù)據(jù)可以直接通過muxer封裝成類似MKV的封裝格式。如果AVPacket存的是視頻數(shù)據(jù),通常一個AVPacket只存放一楨數(shù)據(jù)(對應一個AVFrame),如果AVPacket存的是音頻數(shù)據(jù),那么一個AVPacekt里就可能存放多個楨的數(shù)據(jù)(對應多個AVFrame)。
AVFrame
AVFrame表示解碼后的音/視頻數(shù)據(jù),它在使用之前必須進行初始化av_frame_alloc()。通常它只需要初始化一次就可以了,在解碼過程中它可以作為一個容器被反復利用。
解碼流程
在了解上面兩個基本概念后,現(xiàn)在可以開始真正的解碼了。
首先調(diào)用av_read_frame()將音/視頻一小段一小段讀取出來(視頻是每次讀取一楨,音頻每次讀取多楨),封裝到AVPacket中,然后通過音/視頻流的編號確定是音頻數(shù)據(jù)還是視頻數(shù)據(jù)并進行分別的解碼操作。這里音/視頻AVPacket的解碼分別抽出了單獨的方法。
- (void)readPacket {
AVPacket packet;
while (YES) {
int result = av_read_frame(_format_context, &packet);
if (result < 0) {
NSLog(@"Finish to read frame!");
break;
}
if (self.videoEnable && packet.stream_index == _videoStreamIndex) {
if (![self decodeVideoPacket:packet]) {
NSLog(@"Failed to decode audio packet");
continue;
}
} else if (self.audioEnable && packet.stream_index == audioStreamIndex) {
if (![self decodeAudioPacket:packet]) {
NSLog(@"Failed to decode audio packet");
continue;
}
}
}
}
解碼音/視頻需要使用一對函數(shù)avcodec_send_packet()和avcodec_receive_frame(),第一個函數(shù)發(fā)送未解碼的包,第二個函數(shù)接收已解碼的AVFrame。如果所有的AVFrame都接收完成則表示文件全部解碼完成。相應的,編碼也是一對函數(shù)avcodec_send_frame()和avcodec_receive_packet()。
-
avcodec_send_packet()發(fā)送未解碼數(shù)據(jù) -
avcodec_receive_frame()接收解碼后的數(shù)據(jù) -
avcodec_send_frame()發(fā)送未編碼的數(shù)據(jù) -
avcodec_receive_packet()接收編碼后的數(shù)據(jù)
在這4個函數(shù)中的返回值中,都會有兩個錯誤AVERROR(EAGAIN)和AVERROR_EOF。
如果是發(fā)送函數(shù)報AVERROR(EAGAIN)的錯,表示已發(fā)送的AVPacket還沒有被接收,不允許發(fā)送新的AVPacket。如果是接收函數(shù)報這個錯,表示沒有新的AVPacket可以接收,需要先發(fā)送AVPacket才能執(zhí)行這個函數(shù)。
而如果報AVERROR_EOF的錯,在以上4個函數(shù)中都表示編解碼器處于flushed狀態(tài),無法進行發(fā)送和接收操作。
解碼視頻時每次發(fā)送的AVPacket通常是一楨視頻,所以發(fā)送一次接收一次:
- (BOOL)decodeVideoPacket:(AVPacket)packet {
int result = avcodec_send_packet(_codec_context, &packet);
if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to send packet!");
return NO;
}
result = avcodec_receive_frame(_codec_context, _temp_frame);
if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to receive frame: %d", result);
return NO;
}
// 對_temp_frame進行操作
av_packet_unref(&packet);
}
解碼音頻時每次發(fā)送的AVPacket通常會轉(zhuǎn)換成多個AVFrame,所以在接收的時候需要使用while循環(huán)保證所有的AVFrame都被接收到:
- (BOOL)decodeAudioPacket:(AVPacket)packet {
int result = avcodec_send_packet(_codec_context, &packet);
if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to send packet!");
return NO;
}
while (result >= 0) {
result = avcodec_receive_frame(_codec_context, _temp_frame);
if (result < 0) {
if (result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to receive frame: %d", result);
return NO;
}
break;
}
// 對_temp_frame進行操作
}
av_packet_unref(&packet);
}
至此,音/視頻的編解碼就全部完成了,后續(xù)可以利用解碼后的AVFrame進行音/視頻的播放。
總結(jié)
音/視頻編解碼中最重要的是兩個上下文結(jié)構(gòu)體:AVFormatContext和AVCodecContext。AVFormatContext主要負責對原始音/視頻文件或音/視頻流進行操作,獲取原始音/視頻數(shù)據(jù)的信息。而AVCodecContext主要是用于存儲編解碼需要的信息,提供相應的解碼器進行解碼。加深對這兩個上下文的理解,音/視頻的編解碼就會更得心應手。
在下一篇文章中,我會講解如何播放解碼后的視頻數(shù)據(jù)。