产品经理你要了解一些音视频技术

菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

产品经理你要了解一些音视频技术

　　在当今的移动互联网时代，直播类产品我们再熟悉不过了，比如看游戏直播、给美女主播打赏、听直播课程等。此外，伴随着抖音、快手等短视频类应用的爆发，视频类产品更是时刻充斥着我们的生活。那么，直播类或者视频的产品背后涉及到的音视频技术知识都有哪些呢？本文将从直播类产品的基础架构出发，阐述一些基础的音视频技术知识。
　　（音视频领域博大精深，本文仅从一个PM的角度出发，总结一些最基本的内容）
　　一、直播的基础架构
　　一个直播功能通用的基础架构涉及三个部分，即音视频采集端、云服务端和音视频播放端。
　　如下图，是一个APP直播功能的架构：
　　从上图中我们可以看到，每一个部分都有各自要处理的一些工作。
　　总体来说，视频直播类功能的整体流程包括以下内容：
　　音视频采集
　　音视频处理
　　音视频编码和封装
　　推流
　　流媒体服务器处理
　　拉流
　　音视频解码
　　音视频播放
　　在具体了解每个流程之前，我们先从音视频的基本知识入手。
　　二、音视频技术基础
　　1。音频
　　声音：
　　我们平时在手机或电脑里听到的音频，是已经数字化了的音频模拟信号。最初，这些音频都是始于物理的声音。
　　中学物理都学过，声音是波，是通过物体的振动产生的。
　　声波具有三要素：
　　音调：也叫音频，频率越高，波长就会越短，而低频声响的波长则较长。所以这样的声音更容易绕过障碍物。能量衰减就越小，声音就会传播的越远；
　　音量：就是振动的幅度。用不同的力度敲打桌面，声音的大小势必发生变换。在生活中，我们用分贝描述声音的响度；
　　音色：在同样的频率和响度下，不同的物体发出的声音不一样。波形的形状决定了声音的音色。因为不同的介质所产生的波形不同，就会产生不一样的音色。
　　模拟信号的数字化过程：
　　模拟信号的数字化过程，就是将模拟信号转换为数字信号的过程，包括采样、量化和编码。
　　我们可以通过下图理解这一过程：
　　采样：可以理解为在时间轴上对信号进行数字化。通常用采样率来保证一定频率范围内的声音可以被数字化成功，比如：采样频率一般是44。1KHZ，指的就是1秒会采样44100次。
　　量化：指的是在幅度轴上对信号进行数字化，就是声音波形的数据是多少位的二进制数据，单位是bit。比如：常用16bit的二进制信号来存放一个采样，这又叫做量化级。量化级是数字声音质量的重要指标，通常将声音描述为24bit（量化级）、48KHZ（采样率）。
　　编码：按照一定的格式记录采样和量化后的数据。音频编码的格式有很多种，通常所说的音频裸数据指的是脉冲编码调制（PCM）数据。PCM音频流的码率可以用来描述PCM数据，它的计算公式是：采样频率采样大小（量化级）声道数（单声道、双声道和多声道）。
　　通过上述的流程，就实现了音频信号的数字化过程。转为数字信号之后，就可以对这些数据进行存储、播放、复制获取等其他操作了。
　　音频编码：
　　上面我们说到了，编码就是按照一定的格式记录采样和量化后的数据，那么到底为什么需要编码呢？
　　采集和量化后的数据是非常大的，从存储或者网络实时传播的角度来说，这个数据量都太大了。对于存储和传输都是非常具有挑战的，所以我们需要通过编码来进行压缩。
　　压缩编码的指标是压缩比，压缩比通常是小于1的。
　　压缩编码算法分为2种：有损压缩和无损压缩。
　　无损压缩：解压后的数据可以完全复原。在常用的压缩格式。用的较多的都是有损压缩。
　　有损压缩：解压后的数据不能完全复原，会丢失一部分信息。压缩比越小，丢失的信息就会越多，信号还原的失真就会越大。
　　压缩编码的实质就是压缩冗余的信号，冗余信号就是指不能被人耳感知的信号，包括：人耳听觉范围之外的音频信号以及被掩盖掉的音频信号。信号的掩蔽可以分为频域掩蔽和时域掩蔽，关于信号的掩蔽大家可以自行百度一下，这里就不做过多阐述了。
　　那么，音频压缩编码的常用格式都有哪些呢？
　　主要包括：WMA编码；MP3编码；AAC编码，这个是现在比较热门的有损压缩编码技术，也是目前在直播或小视频中常用的编码格式；OGG编码等。
　　2。视频
　　数字视频：
　　我们平时在手机或PC上看到的视频，是由内容元素、编码格式和封装容器构成的。
　　内容元素：包括图像（Image）、音频（Audio）和元信息（Metadata）。
　　编码格式：包括视频常用编码格式H264，和音频常用编码格式AAC。
　　封装容器：这就是常见的文件格式，如MP4、MOV、FLV、RMVB、AVI等等。
　　图像：
　　图像是人对视觉感知的物质重现。三维图像的对象包括：深度、纹理和亮度信息，二维图像包括纹理和亮度信息，我们可以简单的把纹理就理解为图像。
　　说了图像的概念，现在来说下视频：视频是由多幅图像构成的，是一组连续的图像。一个基本的数字视频，基本是通过采集处理显示形成的。
　　编码格式：
　　上面我们说到了音频的编码，视频同样是存在编码的过程的。视频编解码的过程是指对数字视频进行压缩或解压缩的过程。
　　在进行视频的编解码时，需要考虑以下因素的平衡：视频的质量、用来表示视频所需要的数据量（通常称之为码率）、编码算法和解码算法的复杂度、针对数据丢失和错误的鲁棒性、编辑的方便性、随机访问、编码算法设计的完美性、端到端的延时以及其它一些因素。
　　常用的视频编解码方式有H。26X系列和MPEG系列，而目前最常用的视频编码格式是H。264，它的优点是低码率、图像质量高、容错能力强、网络适应性更强，并且已被广泛应用于实时视频应用中。
　　再介绍一些关于H。264的知识：
　　在H。264中，图像是包括帧、顶场和底场的，一副完整的图像就是一帧。
　　当采集视频信号时，如果采用逐行扫描，则每次扫描得到的信号就是一副图像，也就是一帧。如果采用隔行扫描（奇、偶数行），则扫描下来的一帧图像就被分为了两个部分，这每一部分就称为场，根据次序分为：顶场（也成为偶数场）和底场（也成为奇数场）。
　　帧和场的概念又带来了不同的编码方式：帧编码和场编码。逐行扫描适合于运动图像，所以对于运动图像采用帧编码更好；而隔行扫描适合于非运动图像，所以对于非运动图像采用场编码更理想。
　　此外，每一帧图像可以分为多个片，每一个片由宏块构成，而每个宏块又是由子块所构成的。
　　封装格式：
　　视频的封装格式可以看成是一个装载着视频、音频、视频编解码方式等信息的容器。一种视频封装格式可以支持多种的视频编解码方式，比如：QuickTime（。MOV）支持几乎所有的编解码方式，MPEG（。MP4）也支持大部分的编解码方式。
　　在PC上，我们经常会使用。MOV的视频文件。通过以上的介绍，我们就知道了，这个视频的文件格式是。MOV，封装格式是QuickTimeFileFormat，但是我们无法知道它的视频编解码方式。如果我们想要专业的去描述一个视频，可以描述成：H。264MOV的视频文件，这就是说它的封装方式是QuickTimeFileFormat，文件格式是。MOV，编码方式是H。264。
　　H。264：
　　H。264是一种高性能的视频编解码技术，是由国际电联和国际标准化组织ISO联合组建的联合视频组共同制定的新的数字视频编码标准。
　　我们在上面已经说到了H。264编码技术的优势，我们接下来看一下H。264所涉及的关键技术：
　　我们首先要知道，无论是视频或音频编码，其目的都是压缩。视频编码的目的，是抽取出冗余信息，这些冗余信息包括：空间冗余、时间冗余、编码冗余、视觉冗余和知识冗余。
　　基于此，H。264的压缩技术涉及：
　　a）帧内预测压缩，解决的就是空间数据冗余问题。空间冗余数据就是图里数据在宽高空间内包含了很多颜色和光亮，人的肉眼很难察觉的数据。对于这些数据，我们是可以直接压缩掉的。
　　帧内压缩对应的是I帧即关键帧。那么什么是I帧呢？网上教程中有一个经典的例子，如果摄像头对着你拍摄，1秒之内实际你发生的变化是非常少的。摄像机一般1秒钟会抓取几十帧的数据，比如像动画，就是25帧s，一般视频文件都是在30帧s左右。那些对于一组帧来说变化很小的，为了便于压缩数据，就将第一帧完整的保存下来。如果没有这个关键帧后面解码数据是完成不了的，所以I帧是特别关键的。
　　b）帧间预测压缩，解决的是时间数据冗余问题。在上面的例子中，摄像头在一段时间内所捕捉的数据没有较大的变化，我们针对这一时间内的相同的数据压缩掉，这就是时间数据压缩。
　　帧间压缩对应的是P帧和B帧。P帧是向前参考帧，压缩时只参考前一个帧。而B帧是双向参考帧，压缩时即参考前一帧也参考后一帧。
　　c）整数离散余弦变换（DCT），将空间上的相关性变为频域上无关的数据然后进行量化。
　　d）CABAC压缩：无损压缩。
　　H。264除了上述的关键技术，还有几个重要的概念需要了解：
　　GOF：一组帧，就是一个I帧到下一个I帧，这一组的数据。包括B帧P帧，我们称为GOF。
　　SPS和PPS：SPS和PPS是GOF的参数，SPS是存放帧数，参考帧数目，解码图像尺寸，帧场编码模式选择标识等。而PPS是存放熵编码模式选择标识，片组数目，初始量化参数和去方块滤波系数调整标识等。
　　在进行视频解码的时候，接收到一组帧GOF之前，我们首先收到的是SPSPPS数据，如果没有这组参数的话，是无法进行解码的。
　　因此，如果在解码时发生错误，首先要检查是否有SPSPPS。如果没有，就要检查是因为对端没有发送过来还是因为对端在发送过程中丢失了。
　　更加详细的H。264编码原理这里就不做介绍了，大家感兴趣的可以上网查阅一下资料，比如：宏块分组划分、宏块查找、帧内预测、DCT压缩以及H。264的码流结构等知识。
　　三、直播流程详述
　　通过上面的介绍，我们已经了解音视频一些基本的知识。接下来，我们一起再描述一遍直播类应用的整体流程。
　　1。音视频采集
　　在音视频采集阶段会包括：音频采集和图像采集。
　　在音频采集时，除了上面我们说到的采样率、量化级数和声道数参数外，还需要音频帧。
　　音频跟视频很不一样，视频每一帧就是一张图像，而从声音的正玄波可以看出：音频数据是流式的，没有明确的一帧帧的概念。在实际的应用中，为了音频算法处理传输的方便，一般约定俗成取2。5ms60ms为单位的数据量为一帧音频。
　　这个时间被称之为采样时间，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的。
　　如果某音频信号是采样率为8kHz、双通道、量化级数是16bit，采样时间是20ms，则一帧音频数据的大小为：8000216bit0。02s5120bit640byte
　　在图像采集中，采集的图片结果会组合成一组连续播放的动画，即构成视频中可肉眼观看的内容。
　　图像的采集过程主要由摄像头等设备拍摄成YUV编码的原始数据，然后经过编码压缩成H。264等格式的数据分发出去。在图像采集阶段，涉及的主要技术参数包括：图像传输格式、图像格式、传输通道、分辨率以及采样率。
　　在音视频的采集阶段，常用的采集源包括摄像头，比如手机的前后置摄像头；游戏直播中使用的屏幕录制；和电视节目中视频文件的直接推流。
　　2。音视频处理
　　音视频处理会分为：视频处理和音频处理。
　　视频处理包括：美颜、滤镜、面部识别、水印、剪辑拼接等。音频处理包括：混音、降噪、声音特效等。
　　下面我们简要描述一下美颜和视频水印的基本原理：
　　美颜的主要原理是通过【磨皮】【美白】来达到整体美颜效果的。磨皮的技术术语是去噪，也就是对图像中的噪点进行去除或者模糊化处理，常见的去噪算法有均值模糊、高斯模糊和中值滤波等。这个环节中也涉及到人脸和皮肤检测技术。
　　视频水印包括播放器水印和视频内嵌水印两种方式。对于播放器水印来说，如果没有有效的防盗措施，对于没有播放鉴权的推流，客户端拿到直播流之后可以在任何一个不带水印的播放器里面播放，因此也就失去了视频保护的能力。所以，一般来说会选择视频内嵌水印的方式打水印，这样，水印就会内嵌到视频之内，在视频播放的过程中持续显示。
　　再多聊一些，视频内嵌水印也会应用在软件中，软件中播出企业内部版权保护的动画段视频时，会应用到内嵌水印的技术。
　　3。音视频编码和封装
　　音视频的编码以及视频的封装在上述基础知识部分已经介绍过了，这里不再赘述。
　　在这里说一下编码器的知识。上文中我们了解了H。264的编码技术，编码流程是要基于编码器进行的。
　　编码器的主要流程是：帧内预测（去除空间冗余）帧间预测（去除时间冗余）变换（去除空间冗余）量化（去除视觉冗余）熵编码（去除编码冗余）。通过该流程，即可完成音视频的编码步骤。
　　4。推流
　　推流就是将处理过的音频和视频数据通过流媒体协议发送到流媒体服务器。
　　推流协议：
　　推流所遵循的协议有RTMP、WebRTC和基于UDP的私有协议。
　　RTMP协议是基于TCP协议的，RTMP是目前主流的流媒体传输协议，广泛用于直播领域，市面上绝大多数的直播产品都采用了这个协议。但是，由于基于TCP协议，传输成本高，在弱网环境下丢包率高，不支持浏览器推送。
　　WebRTC是一个支持网页浏览器进行实时语音对话或视频对话的API，主要应用于视频会议。它的主流浏览器支持度高，并且底层基于SRTP和UDP，弱网情况优化空间大。
　　基于UDP的私有协议。有些直播应用会使用UDP做为底层协议开发自己的私有协议，因为UDP在弱网环境下的优势通过一些定制化的调优可以达到比较好的弱网优化效果，但是开发成过高。
　　CDN：
　　推出去的流媒体要给各个地理位置的观众看，那么这里就需要CDN网络了。CDN就是为了解决用户访问网络资源慢而产生的技术。
　　CDN包括边缘节点、二级节点和源站。内容提供方可以将内容放到源站上，用户从边缘节点获取数据，而CDN的二级节点则用于缓存，减轻源站压力。
　　在直播领域中，CDN要支持的服务如下：
　　流媒体协议的支持。比如RTMP等；
　　首屏秒开。从用户点击到播放控制在秒级以内；
　　13延迟控制。从推流端到播放端，延迟控制在13秒之间；
　　全球全网智能路由。可以利用整个CDN网络内的所有节点为某一单一用户服务，不受地域限制。
　　5。流媒体服务器处理
　　流媒体服务器要做的事情包括：数据分发（CDN）、支持上述CDN的一些服务、实时转码以及内容的检测（鉴黄）等。
　　6。拉流
　　拉流就是客户端从流媒体服务器上拉取获得上述步骤中的音视频数据。同理，这个过程也是要基于上述的协议和CDN。
　　7。音视频解码
　　在上述H。264编码的介绍中，说到了SPSPPS是解码必备的数据。此步骤就是需要对拉流下来已编码的音视频数据进行解码。
　　解码过程就是编码的逆过程，这个过程包括：熵解码、变换解码、预测解码。
　　H。264规范规定了解码器的结构，解码的过程大体如下：以宏块为单位，依次进行熵解码、反量化、反变换，得到残差数据。再结合宏块里面的预测信息，找到已解码的被参考块，进而结合已解码被参考块和本块残差数据，得到本块的实际数据。宏块解码后，组合出片，片再进而组合出图像。
　　这里要说明的是：如果H264码流中I帧错误或丢失，就会导致错误传递，单独的P帧或B帧是完成不了解码工作的。I帧所保留的是一张完整的视频帧，是解码的关键所在。
　　8。音视频播放
　　在完成了音视频数据的解码后，就可以通过硬件设备（手机或PC）上的播放器对音视频文件进行渲染播放了。
　　那么，上述架构图中的信令服务器是干什么的呢？
　　信令服务器是用来处理主播端和用户端的一些信令指令的。
　　在网络中传输着各种信号，其中一部分是我们需要的（例如：打电话的语音，上网的数据包等等），而另外一部分是我们不需要的（只能说不是直接需要）它用来专门控制电路的，这一类型的信号我们就称之为信令（摘自百度百科）。也就是说，信令是指通信系统中的控制指令。
　　我们基于此，再来描述一下这整个的流程：
　　主播共享端发起一个信令，比如：创建房间（或聊天、发送礼物等），到达信令服务器；信令服务器处理并且创建一个房间，同时返回给主播共享端一个流媒体云的地址。
　　接下来，主播共享端采集数据（音视频的采集、处理以及编码封装流程）形成RTMP流推送到CDN网络（推流）。
　　观众要进行观看时，客户端会发送信令到信令服务器，信令服务器将该观众加入到主播的房间中，同时也会返回一个流媒体云的地址（该地址就是之前主播端的流媒体云地址）。
　　客户端拿到此流媒体云地址后，就会到流媒体云服务器拉取到该媒体流（拉流和解码），从而看到要观看的直播节目（播放器播放）。
　　好了，以上就是直播类应用的一个最基本的架构和流程了。
　　四、总结
　　本文通过直播类应用的架构，介绍了一些音视频技术方面的知识，并且详述了直播类功能的整体流程。
　　音视频技术是一个高深的领域，本文只是做了一些基础知识的总结，如果大家想要深入了解更多的音视频技术，我推荐大家可以学习一下雷神（雷霄骅）的博客。

李绅长大后怎么样了李绅生平简介李绅是唐朝诗人，我们熟知的《悯农》就是李绅的作品。不过李绅除了是诗人，他还有一个身份，那就是唐朝宰相。李绅35岁时中进士，此后历任中书侍郎、尚书右仆射等官职，除此之外李绅还是新……动物对对碰1、龙虾和螃蟹闹起了矛盾，谁也不让谁。龙虾：别以为戴着钢盔我就拿你没办了，烦了我用剪刀刺破你的小罗裙，让你光着屁股丢丑！螃蟹：得了吧，我正想告诉厨子，红烧你的……体型庞大的恐象将非洲象衬托的格外娇小体重超过吨对于大象我们都不陌生，大象是一种体型庞大的食草动物，不知道大家有没有听说过恐象。恐象是一种很特别的象，为什么说它特别呢，因为他的牙齿与普通象的牙齿生长方向相反。恐象的牙齿长在下……得感谢我女儿坚持减肥，几个月过去，这天起来穿上裤子：老妈，我最近是不是瘦了不少？老妈看了看：丫头，看你这么自信，老妈很开心！女儿一拎裤子：真的？老妈，你看，裤腰大了不少！……铁观音茶五大功效效果显著铁观音的五大功效铁观音既是一种珍贵的天然饮料，又有很好的美容保健功能。经科学分析和实践证明，铁观音含有较高的氨基酸，维生素，矿物质，茶多酚和生物碱，有多种营养和药效成分，……同城一个优质销售能让你的公司估值翻倍每天用20的时间，见最优秀的人我一个人创办58，目前58管理层有八九个人，全部是最近三五年重新组建的。如果再让我选择的话，我一定不会一个人创业，要几个人一起做事情。58最……垫下巴成都哪家医院做的好成都垫下巴方是那些爱美女性最终追求的方式，因为只有这样才可以让脸型变得小巧精致。变美方案01：hr成都华颜医疗美容门诊部成都华颜医疗美容门诊部医院一对一专业性服务、……教师述职报告推荐篇教师述职报告由好范文网的会员oh204投稿精心推荐，小编希望以下8篇范文对你的学习工作能带来参考借鉴作用。第1篇：教师述职报告教师述职报告的写法与格式是什么？请参考……初中学校卫生工作计划【编辑】初中学校卫生工作计划为好范文网的会员投稿推荐，但愿对你的学习工作带来帮助。初中学校卫生工作计划怎么写？学校卫生是我国卫生事业和教育的重要组成部分，也是增强中华民族……开展党员教师双提升活动实施办法二中开展党员教师双提升活动实施办法为深入贯彻习近平新时代中国特色社会主义思想和党的十九大精神，全面落实从严治党的总体要求，不断提高我支部的组织力、凝聚力、战斗力，充分发挥……论企业集团服务型总部建设及对管理者的素质要求摘要：本文旨在通过探索大型企业集团建设服务型总部的必要性，找准服务型总部与基层企业的契合点，进而把握住服务型总部的着力点和对总部管理者的素质要求。关键词：企业集团；服务型……每个人都有分钟的成名时间安迪沃霍尔曾经说：每个人都有15分钟的成名时间。这句话用在今天的媒体环境，真是一个绝好的诠释。工作时间：晚上6点开始化妆，布置直播间，8点左右上线。凌晨23点收工。全天连……

<<<<<<－>>>>>>

女人太瘦易致不孕该怎么科学增肥现代很多女性为了瘦而用尽各种方法减肥，她们认为瘦就是美，但在减肥瘦身的过程中，却带来了一系列的健康问题。事实上，瘦并不等于美，如果为了畸形的美而失去健康，其实是得不偿失的，女人……若不克制婚外情的更大代价是形象坍塌从男人视角看问题在爱中成长文张纤评论卯叔我自从关注卯叔公众号以及和他聊天之后，对婚姻有三个方面的思考，现在写出来，希望能与大家共勉。1。说教我和叔最后一……适合男性夏季滋阴补阳的保健粥其实除了腊八粥以外，还有很多适合男性冬季滋阴补阳的保健粥食用：桂圆粟米粥：桂圆肉15克，粟米100200克。将桂圆肉洗净与粟米同煮。先用武火煮开，再用文火熬成粥。桂圆肉性……端午节时间端午节是中国传统节日，那么你知道端午节时间实在每年的哪天吗？具体的端午节时间是什么时候呢？一、端午节时间（端午节是什么时候）端午节，为每年农历五月初五。据《荆楚岁时……准妈妈每天吃多少水果孕妇吃水果原则准妈妈每天吃多少水果最好呢？水果富含的营养是孕期不能缺少的，不过，孕妇也不可贪吃。因为准妈妈过多吃水果容易造成妊娠糖尿病。那么，孕期要如何吃水果呢？孕妇每天吃多少水果……宝宝是否能吃鱼干和肉干宝宝可以吃鱼干和肉干吗？致癌物多鱼干、鱿鱼丝之类食品中含有较多的亚硝胺，它是一种强致癌物，是蛋白质分解产物和亚硝酸盐结合的结果。偶尔少量食用，还不致发生危害，但如果……为什么坏男人更吸引女性为什么坏男人更吸引女性满足虚荣心。争强好胜的男人，为了得到心爱的女人或得到女人的肯定，往往越挫越勇，甚至不惜进行对决和发动战争。这种英雄式的行为，容易激起女人内心深……瓜尔佳费英东生平简介瓜尔佳费英东怎么死的瓜尔佳费英东（1562年1620年）清初开国功臣，满洲镶黄旗人，后金开国五大臣之一，苏完部族长索尔果之子，以骁勇善战著称。公元1588年（万历十六年），随父率部归顺清太祖……励志的网名女生命一样珍惜算什么、太坚强是软弱渴望希望和我、恋爱吧会回来德？o卟荏输在细雨中呼喊青春生命要继续。你是我向往的以后好好……伴娘给新娘红包少吗伴娘一般都是aclasstaghrefwiki10800IQjV7IB。html新娘a的关系非常好的人，因此给的份子钱也不会太少，下面来看看伴娘给新娘500红包少吗？一、……爱就是心疼在报纸上看到这样一则很感人的真实报道？有一对夫妻，妻子在下班的路上被车撞倒，住进了医院。动过手术后，身体没什么大碍，只是双腿留下了后遗症，每天都会感到轻微的疼痛，尤其到了晚上，……王姓女孩好听的名字精选合集现在就由小编为大家分享下关于王姓女孩应该如何取好听的名字，在百家姓中，王姓排名第八位，其人口数量达到了1。015亿人，是中国比较大的一个姓氏，因此父母在为王姓女孩取名的过程中，……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网