iOS平臺FFmpeg開發(fā)(二)音/視頻編解碼

通過上一篇文章iOS平臺FFmpeg開發(fā)(一)初識FFmpeg的學習,我相信你已經(jīng)了解了視音頻的基礎知識,并且把FFmepg編譯成功并成功導入到工程中了。從這一篇文章開始,我們開始真正地使用FFmpeg。

對視頻的解碼,我們需要使用libavformatlibavcodec這兩個庫。libavformat庫主要負責輸入輸出、封裝和解封裝,libavcodec庫主要負責編解碼,所以要使用相應功能之前要先導入頭文件avformat.havcodec.h。

初始化

首先我們需要對FFmepg各個庫進行初始化,這個初始化工作在囊個app生命周期只執(zhí)行一次即可,所以你的代碼應該是這樣的:

static dispatch_once_t onceToken;
dispatch_once(&onceToken, ^{
   av_register_all();
   avformat_network_init();
   avcodec_register_all();
});

其中av_register_all()會初始化所有的muxer、demuxer和代碼。muxer代碼音視頻復用器,它會把編碼好的視頻數(shù)據(jù)和音頻數(shù)據(jù)合并到一個封裝格式數(shù)據(jù)(比如mp4)中去,同理demuxer是解封裝。

avformat_network_init()會初始化所有的網(wǎng)絡模塊。

avcodec_register_all()會注冊所有類型的解碼器,如果只用特定格式的解碼器,可以單獨注冊。

文件操作

首先要創(chuàng)建AVFormatContext,用以管理文件的輸入輸出:

_format_context = avformat_alloc_context();

然后是打開輸入,這個輸入可以是本地視頻文件地址,也可以是視頻流地址。如果文件打開失敗,要調(diào)用avformat_free_context()及時釋放掉AVFormatContext。如果打開成功,后面不再需要輸入文件的操作,要調(diào)用avformat_close_input(&_format_context)來關閉輸入。

result = avformat_open_input(&_format_context, self.filePath.UTF8String, NULL, NULL);
if (result < 0) {
   NSLog(@"Failed to open input");
   if (_format_context) {
      avformat_free_context(_format_context);
 }
   return;
}

接著需要將視音頻流的信息讀取到AVFormatContext,AVFormatContext中有信息,才能進行查找視頻流、音頻流及相應的解碼器的操作:

result = avformat_find_stream_info(_format_context, NULL);
if (result) {
   NSLog(@"Failed to find stream info!");
   if (_format_context) {
       avformat_close_input(&_format_context);
   }
   return;
}

如果上面的方法成功了,就可以直接打印整個視頻文件的信息了:

av_dump_format(_format_context, 0, _filePath.UTF8String, 0);

至此,對于視頻文件基本信息的讀取操作已經(jīng)完成了。

初始化音/視頻解碼器

接下來需要初始化視音頻的AVCodec(解碼器)和AVCodecContext(解碼器上下文)。注意,這里音頻的AVCodecAVCodecContext和視頻的是分開的,但是它們的流程是一模一樣的,所以這部分可以單獨抽一個方法出來。

首先根據(jù)類型找到音頻或視頻的序號,并在同時匹配到最適合的解碼器。注:在之前的版本中會使用for循環(huán)來手動查找視頻流或者音頻流,并且要在后面單獨進行解碼器的查找操作,比較麻煩,現(xiàn)在一個方法就搞定,方便得多。

AVCodec *codec;
int streamIndex = av_find_best_stream(_format_context, AVMEDIA_TYPE_VIDEO, -1, -1, &codec, 0); // 以查找視頻流為例,

這樣通過序號就能找到視頻流或者音頻流了:

AVStream *stream = _format_context->streams[streamIndex];

接下來通過匹配到的解碼器創(chuàng)建AVCodecContext(解碼器上下文)并把視/音頻流里的參數(shù)傳到視/音頻解碼器中:

AVCodecContext *codecContext = avcodec_alloc_context3(codec);
avcodec_parameters_to_context(codecContext, stream->codecpar);
av_codec_set_pkt_timebase(codecContext, stream->time_base);

這里的codecpar表示包含解碼器的各種參數(shù)的結(jié)構(gòu)體。
time_base則是一個代表分數(shù)的結(jié)構(gòu)體,num 為分數(shù),den為分母,它表示時間的刻度。時間量乘以刻度就可以得到時間。
如果是(1, 25),那么時間刻度就是1/25。這里要注意的是AVStreamtime_baseAVCodecContexttime_base是不同的,上面的方法就涉及到time_base的轉(zhuǎn)換,所以要換算得到時間就要選取相應的time_base

如果要得到double形式的time_base,可以調(diào)用av_q2d()函數(shù),這個操作在這種分數(shù)結(jié)構(gòu)體中會經(jīng)常用到:

timeBase = av_q2d(codecContext->time_base);

接下來就可以打開解碼器上下文準備進行解碼操作了:

int result = avcodec_open2(codecContext, codec, NULL);
if (result) {
   NSLog(@"Failed to open avcodec!");
   avcodec_free_context(&codecContext);
   return;
}

解碼

在進行解碼之前,要先了解兩個基本的結(jié)構(gòu)體:AVPacketAVFrame

AVPacket

AVPacket表示編碼(即壓縮)后的數(shù)據(jù),這種格式的音視頻數(shù)據(jù)可以直接通過muxer封裝成類似MKV的封裝格式。如果AVPacket存的是視頻數(shù)據(jù),通常一個AVPacket只存放一楨數(shù)據(jù)(對應一個AVFrame),如果AVPacket存的是音頻數(shù)據(jù),那么一個AVPacekt里就可能存放多個楨的數(shù)據(jù)(對應多個AVFrame)。

AVFrame

AVFrame表示解碼后的音/視頻數(shù)據(jù),它在使用之前必須進行初始化av_frame_alloc()。通常它只需要初始化一次就可以了,在解碼過程中它可以作為一個容器被反復利用。

解碼流程

在了解上面兩個基本概念后,現(xiàn)在可以開始真正的解碼了。

首先調(diào)用av_read_frame()將音/視頻一小段一小段讀取出來(視頻是每次讀取一楨,音頻每次讀取多楨),封裝到AVPacket中,然后通過音/視頻流的編號確定是音頻數(shù)據(jù)還是視頻數(shù)據(jù)并進行分別的解碼操作。這里音/視頻AVPacket的解碼分別抽出了單獨的方法。

- (void)readPacket {
    
    AVPacket packet;
    while (YES) {
        int result = av_read_frame(_format_context, &packet);
        if (result < 0) {
            NSLog(@"Finish to read frame!");
            break;
        }
        if (self.videoEnable && packet.stream_index == _videoStreamIndex) {
            if (![self decodeVideoPacket:packet]) {
                NSLog(@"Failed to decode audio packet");
                continue;
            }
        } else if (self.audioEnable && packet.stream_index == audioStreamIndex) {
            if (![self decodeAudioPacket:packet]) {
                NSLog(@"Failed to decode audio packet");
                continue;
            }
        }
    }
}

解碼音/視頻需要使用一對函數(shù)avcodec_send_packet()avcodec_receive_frame(),第一個函數(shù)發(fā)送未解碼的包,第二個函數(shù)接收已解碼的AVFrame。如果所有的AVFrame都接收完成則表示文件全部解碼完成。相應的,編碼也是一對函數(shù)avcodec_send_frame()avcodec_receive_packet()

  • avcodec_send_packet() 發(fā)送未解碼數(shù)據(jù)
  • avcodec_receive_frame() 接收解碼后的數(shù)據(jù)
  • avcodec_send_frame() 發(fā)送未編碼的數(shù)據(jù)
  • avcodec_receive_packet() 接收編碼后的數(shù)據(jù)

在這4個函數(shù)中的返回值中,都會有兩個錯誤AVERROR(EAGAIN)AVERROR_EOF。

如果是發(fā)送函數(shù)報AVERROR(EAGAIN)的錯,表示已發(fā)送的AVPacket還沒有被接收,不允許發(fā)送新的AVPacket。如果是接收函數(shù)報這個錯,表示沒有新的AVPacket可以接收,需要先發(fā)送AVPacket才能執(zhí)行這個函數(shù)。

而如果報AVERROR_EOF的錯,在以上4個函數(shù)中都表示編解碼器處于flushed狀態(tài),無法進行發(fā)送和接收操作。

解碼視頻時每次發(fā)送的AVPacket通常是一楨視頻,所以發(fā)送一次接收一次:

- (BOOL)decodeVideoPacket:(AVPacket)packet {
   int result = avcodec_send_packet(_codec_context, &packet);
   if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
      NSLog(@"Failed to send packet!");
      return NO;
   }
   result = avcodec_receive_frame(_codec_context, _temp_frame);
   if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
       NSLog(@"Failed to receive frame: %d", result);
      return NO;
   }
 
   // 對_temp_frame進行操作
   av_packet_unref(&packet);
}

解碼音頻時每次發(fā)送的AVPacket通常會轉(zhuǎn)換成多個AVFrame,所以在接收的時候需要使用while循環(huán)保證所有的AVFrame都被接收到:

- (BOOL)decodeAudioPacket:(AVPacket)packet {
   int result = avcodec_send_packet(_codec_context, &packet);
   if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
       NSLog(@"Failed to send packet!");
       return NO;
   }
   while (result >= 0) {
       result = avcodec_receive_frame(_codec_context, _temp_frame);
       if (result < 0) {
       if (result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
           NSLog(@"Failed to receive frame: %d", result);
           return NO;
       }
       break;
       }
      // 對_temp_frame進行操作
      }
      av_packet_unref(&packet);
}

至此,音/視頻的編解碼就全部完成了,后續(xù)可以利用解碼后的AVFrame進行音/視頻的播放。

總結(jié)

音/視頻編解碼中最重要的是兩個上下文結(jié)構(gòu)體:AVFormatContextAVCodecContextAVFormatContext主要負責對原始音/視頻文件或音/視頻流進行操作,獲取原始音/視頻數(shù)據(jù)的信息。而AVCodecContext主要是用于存儲編解碼需要的信息,提供相應的解碼器進行解碼。加深對這兩個上下文的理解,音/視頻的編解碼就會更得心應手。

在下一篇文章中,我會講解如何播放解碼后的視頻數(shù)據(jù)。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容