5G 和云原生时代的技术下半场,视频化是最大最新的肯定性

2021年04月09日 阅读数:6
这篇文章主要向大家介绍5G 和云原生时代的技术下半场,视频化是最大最新的肯定性,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

简介: 随着 5G/ 芯片 / 区块链等等新技术的不断成熟、云计算的普及和云原生时代带来的诸多便捷,开发者和架构师们眼前的挑战也再也不只是 0-1 的建设问题,技术如何更多地带来业务价值成为了一个值得讨论的话题。阿里巴巴集团研究员,阿里云智能视频云业务负责人林昊(花名毕玄),在 QCon 全球软件开发大会上曾发表了主题演讲《5G 和云原生时代的技术下半场》,以 5G 典型场景音视频为例,探讨相关技术和技术人的下半场,如下内容为演讲整理。web

头图.png

做者 | 毕玄
来源 | 阿里巴巴云原生公众号面试

导读:随着 5G/ 芯片 / 区块链等等新技术的不断成熟、云计算的普及和云原生时代带来的诸多便捷,开发者和架构师们眼前的挑战也再也不只是 0-1 的建设问题,技术如何更多地带来业务价值成为了一个值得讨论的话题。阿里巴巴集团研究员,阿里云智能视频云业务负责人林昊(花名毕玄),在 QCon 全球软件开发大会上曾发表了主题演讲《5G 和云原生时代的技术下半场》,以 5G 典型场景音视频为例,探讨相关技术和技术人的下半场,如下内容为演讲整理。

1.JPG

不少人可能听过,好比阿里巴巴集团董事局主席逍遥子在不少场合都会讲到,如今世界最大的肯定性的变化是数字化,意思是将来大的变化多数是“数字化的加速进行”。而在数字化的趋势中,咱们看到“视频化”有着更大的肯定性。算法

5G+云原生,给业务带来什么变化

5G 跟业务系统关联性最大的两部分是延时更低、带宽更宽。数据库

如今的主流网络好比 4G,延时大概在 10ms~100ms,它的延时范围仍是比较大。而 5G 一般来说延时会降到 1~10ms,它的目标是 10ms。那么,当延时变得愈来愈低、带宽变得更宽的时候,业务上咱们会看到什么样的变化?服务器

2.png

上图主要显示的是当带宽变得更大、延时变得更低的时候,会有哪些典型的案例。好比如今特别火的话题——云游戏。游戏对延时要求是特别高的,像赛车类、竞技类等,4G 网络自己已经不可能让延时再低,但在 5G 场景若是延时压到 50ms 如下,不少业务就有可能变成现实。网络

因此从 5G 的业务层面,咱们关注的是,什么业务须要更大的带宽,什么业务须要更低的延时。架构

说到云原生,它确实是如今特别火的一个话题。在去年的双 11,咱们说最大的变化是全部的核心系统都上云,而今年双 11 咱们对外讲的是全部核心系统开始云原生化。区块链

但咱们也说,每一个人心目的云原生可能都不同,谁都不知道什么叫云原生。大数据

对阿里来说,咱们为何很是激进地推动云原生?我之前是负责阿里整个核心系统上云的架构师,我以为整个业务的演进过程,最重要的是全部的业务开始从基于一个封闭自主的技术体系走向一个开放的技术体系,这即是云原生带来最重要的变化。优化

云原生之后,整个社会建造业务系统的自有体系会愈来愈开放、愈来愈公共化。这对不少业务创新来说,是有很大帮助的。由于之前不少东西得本身作,但如今不少东西可能能够基于一个相对比较成熟的技术去作。就像阿里看到有一些业务在云原生化之后,对咱们整个业务创新的速度、业务迭代的速度产生很是大的帮助。

最典型场景:视频

像前面说到,5G 带来低延时和大带宽,云原生带来的是走向一个开放公共的自由体系。那 5G + 云原生之后,最典型的场景究竟是什么?什么样的场景对 5G 和云原生有特别大的诉求?

从目前来看,咱们很是肯定的是视频。由于疫情缘由,今年视频好像忽然就成为了整个行业特别火的业务创新以及技术创新领域。但其实视频技术已经发展不少年了,只是今年看起来再度爆发。

我想不少人有这样一些感觉:之前多数业务系统里面实际上是没有视频的,但如今大多数业务系统,都开始或多或少地引入视频。短视频、直播以及音视频通讯是当前最火的几个场景。

咱们认为从场景层面来说,视频是很是典型的 5G+ 云原生的场景,缘由是:全部作视频业务的,无论是直播业务、短视频业务、仍是音视频通话业务,关注的第一要点就是体验。

作视频最重要的是体验,好比看直播是否是足够流畅、画面的清晰度怎么样,短视频亦然,音视频通话就更加是了——好比你们开视频会议最关注的是能不能听清楚对方在说什么,另外是画面够不够流畅。

因此一旦作这个业务之后,第一要关心的话题是体验,而视频业务的体验要作得好,面临的第一个问题就是视频能不能很好地分发到离各个用户比较近的一个点。

说实话,多数中小型创业公司甚至很大规模的公司都很难解决这个问题。一般来说,为了把整个体验作得很是好,多数业务上来就须要依赖背后一张巨大的网络,而这个网络一般只有云厂商公司会提供,由于其余公司要构建这张网络是须要很是大的投入。

因此,从体验上来说,视频是很是典型的、会更多地考虑到应该去使用云原生的服务,而不是本身从头构建

除了体验,视频业务开始作以后面临的第二个比较大的问题是成本。视频跟不少业务不同,这些业务规模若是没有上来,付出的代价也许不是太大,可能只是作几台计算资源的机器、一点存储、一点数据库。固然,若是是作大数据和 AI,相对投入就更大一些。

可是,一作视频就会在带宽上面临很是大的挑战,由于带宽“上来就是钱”。除了带宽之外,视频稍微作大一点,还会面临存储成本,由于要存下来,而视频的文件显然比之前全部的东西都大。

有了存储之后,视频还会面临计算消耗的问题,由于可能要对视频作一些处理,好比作一些编解码或其余东西,致使计算资源总体会有比较大的消耗。因此总体来看,视频除了解决体验问题之外,还会面临巨大的成本消耗的问题。而为了解决成本问题,可能会产生各类问题。因此咱们能够看到,对于不少团队来说,基于视频的云原生服务是一个相对来说比较好的选择。

讲下我本身的另一个感觉,我以为视频业务是须要在基础技术领域投入很是大的技术领域。好比要让视频在分发的过程当中、播放的过程当中将带宽控制得更好,咱们可能要去解决的问题是怎么让多数用户看到的视频画面质量不怎么改变的状况下,怎么把带宽成本降下去,控制码率。对不少公司来说这是很是重要的,由于在大多数公司的业务中,少数视频占了最多的带宽费用,但又不能把少许视频的质量降下去。由于质量若是降下去,会影响用户体验。

3.png

为了解决这个问题,咱们可能须要投入大量的人员去作编解码优化。固然开源也是有的,开源的质量也不差,但若是想在开源基础上作得更好,这个投入就很是大了。

另外你们可能也听过,在看一段视频的时候,视频内容实际上是直接决定了哪些地方是须要很是清晰、哪些地方相对来说是不那么重要的,这可能就要结合 AI 作视频内容的理解,而后作动态的编码优化,基于你感兴趣的点去作优化,背后可能涉及各类各样的团队,编解码的团队、AI 的团队、算法的团队,因此为了一点点的提高,背后可能有很是大的投入。

让延时再低些

延时变得更低到底能来什么好处,简单给你们举几个例子。

第一个是在线教育。最先的时候在线教育是录播的,老师提早录完视频而后再放出来,其余人再点开看。但对不少客户来说,好比对家长来讲这是不太能接受的,由于跟老师不能有很好的互动。后来在线教育就更但愿能让老师跟学生之间有更强的实时互动,而不是录播的毫无互动。

为了作到互动,最关键的是延时。传统直播技术一般大概延时在 5 秒左右。固然,像电视直播等延时会相对长一点,但那是由于其余的要求,技术层面大概都在 5 秒范围,这是受协议约束的结果。而在线教育是但愿把延时降到几百毫秒,这样音视频互动才能更好地进行。

第二个是电商,这方面阿里有很是强的感觉。阿里最先作开始手淘直播的时候,也是采用比较传统的技术,场景上面临的最大问题是:主播上来告诉你们,“我要开始卖一个东西了”,而后他要上连接,还要作消息互动。但这时候有可能会出现的是:主播说话与用户观众发消息的两个过程是有延时的,但消息的延时跟视频的延时又可能不同,消息可能在 1 秒,视频可能在 五、6 秒。

这时候就会出现消息跟视频不在同一个画面的问题——主播可能都已经切到下一场,而买家还在跟他交流上一场的问题。

因此在手淘场景里,咱们不断跟手淘团队一块儿尽量把延时往下推动。好比在今年双 11 里,手淘大量采用了低延时直播,大概把直播的延时降到 1 秒左右,控制在 1 秒范围内以后,咱们能够看到它对整个 GMV 的转化有很大的帮助,由于主播跟观众之间有了更强的互动关系。

在全部直播体系里咱们都看到了对于延时的诉求,如今直播都但愿走向强互动直播,而不但愿是原来那种比较单向的行为,由于观众也但愿有更强的互动。

最后一个是你们疫情期间感觉最为强烈的场景,视频会议。如今视频会议的延时在技术上可以作到几百毫秒,因此如今你们广泛能开视频会议。虽然之前是电话会议多一些,但如今很显然视频会议的比率在上升。毕竟任何人的交流都更加但愿能看到人,而不纯粹只是电话传递的声音。

举另一个例子,不少公司的面试到决定性或者很关键的一轮时,都会把候选人邀请到本地,而后面对面地完成这轮面试。这是由于以为在仅经过电话面试、看不到人的状况下,不少东西是难以判断的,须要见到本人。可是有了视频会议之后,一些面试就能够无需把人邀请到现场进行。

因此延时技术在视频领域的做用是很是明显的,从几秒到几百毫秒催进了很是多视频场景的创新。

但对视频来说,这依然不够。好比视频会议,以前一个学术机构的研究报告显示,其实像视频会议这样存在几百毫秒延时的场景,对比人跟人的当面交流,仍是存在很大区别。

你们开视频会议应该都有这样的感觉:在视频会议的场景下,仍然会出现抢话状况,你说了一句话,可能尚未说完对面就已经抢话,这是必定会出现的,由于人跟人当面交流的延时并无几百毫秒。

在视频场景里,咱们是有很是强的动力去思考怎么把延时往下推得更低,让你们有更真实的体验,包括如今不少公司作不少东西都是为了让你们在远程会议上,能够有跟当面交流比较接近的体验。对咱们来说,延时若是可以愈来愈低,是一个很是好的事情,能够在这基础上作更多业务层面的创新。

音视频传输延迟引入分析

音视频总体技术可能跟系统层面技术有一些差异,咱们来看一下延时。好比直播,音视频中比较典型的场景,你拿一个手机开始拍,这是采集的过程,把一个视频影像留下来,去采集,而后编码,多数多是在端上去作。这个延时,如今大概在 60ms 左右的范围。

采集完以后会把这个流(好比直播、摄像流)直接推到远端,多数是云端或者本身服务器端。在云端以后,一般还会作一些处理,好比直播一般要作内容审核,内容须要过一遍审核处理,有些稍微复杂点的直播可能还要作其余事情,好比加 logo,作一些镜头的剪辑和镜头的切换。

若是有多个摄像头机位,还会涉及到直播的时候选用哪一个机位的问题。另外是分发,怎么把服务器端推到不少的点。而后是把客户端流拉到本地,拉完之后开始解码和播放。

4.png

从整个时间耗时看,之前是 3-5 秒的延迟,主体时间多数耗在拉流那一端,这是协议决定的。RTMP 是比较标准的协议。如今业界比较流行的低延迟直播,是把直播延迟从 3 秒推到 1 秒,推到 1 秒之后,咱们给它的名词都叫低延迟直播,相比之前更低延时一点。

你们看上图中的总体优化,更可能是把协议层开始作替换,如今多数公司的低延时直播都会基于 RTC 协议,就是 Google 开源的 webRTC 协议去作。能够看到,当基于 RTC 推流、RTP 分发,前面协议层都在替换,差很少能够把拉流这端开始压到 1 秒之内。如今阿里手淘的直播,总体延时在 1~1.2 秒范围,1~1.2 秒在消息类互动场景已经足够了。主播跟观众若是是用消息互动,发一条消息或者打赏什么的,你们都不会有太长的延时感受。能够看到,这种场景下,咱们能够经过协议替换把整个延时往下拉低。

但也能够看到,其实还有不少延时是整个网络形成的。若是是网络形成的,如今实际上是没有太多很好的解决方案,就很是地难。而标准的 RTC 能够作到 200-300ms 的时间,就是这样一个情况。

这三种延时,除了技术层面的差异之外,另外的层面是当采用这些技术之后,总体的成本是有很大变化的。当你延时要作得愈来愈低的时候,其实成本是会上升很是多的。像 RTC 相比传统直播延时,有可能成本大概是在 7 倍以上。像低延时直播,如今各家公司在不断努力尽量让这二者成本开始接近。

5.png

为了很好地控制延时,推流最重要的是协议的替换。由于协议替换之后,从 TCP 到 UDP 之后,不少东西须要本身来作了。

各视频厂商关注的最重要的指标是抗丢包,多数公司追求当丢包在 50%、60%、70% 的时候,在不一样场景去知足诉求。好比视频会议若是只是为了开会,最大的诉求实际上是在音频端——音频清晰度和流畅度,而画面若是有一点卡顿,咱们勉强还能接受。固然,若是那个视频会议是讲 PPT,那就不能接受了,那优先级可能变成视频的清晰度。因此,不一样场景须要有各类各样不一样的策略。

好比你们若是去看直播场景和视频会议类型的场景,它面临最大的不一样是什么呢?直播场景的话,好比我是主播,其实只要摄像头跟我、以及我跟服务器的链路总体没有太大问题,基本上观众之间互相是没什么影响,这个观众看的时候会卡,另一个观众有多是不卡的,由于观众之间没有什么影响。但若是是视频会议类型的场景就彻底不同了,好比如今有十我的在开会,这十我的里任何一我的,出现卡了或者视频、音频不大正常,就会影响整场会的效率。

在这样的场景里,为了要保证延时,同时又要保证流畅度的时候,抗丢包层面须要作很是多的事情,包括综合的策略。

咱们去看不少音视频公司,它们很大的竞争力在于对端的适配能力。由于每一个端的情况不大同样,好比有人用苹果,有人用安卓,尤为是安卓,安卓手机有无数种,每种手机的音频能力、视频能力有很大差异,还有你们所处的网络环境,好比如今连了 Wi-Fi,走动的时候可能 Wi-Fi 点会切换,还有可能从 Wi-Fi 切到 4G,这里面网络点怎么去处理也是很是关键的。

因此当总体延时愈来愈往下探的时候,它的技术门槛在不断地升高,咱们怎么样作好卡顿的控制,是各家公司去作这类型业务上面临的最大的一个问题。

这里主要讲的关键技术,一是推流,二是分发,三是整个拉流层面为了控制延时作的一些事情。推流主要是协议层面和抗丢包,分发层面主要是背后整张网络的分发。

不少公司作视频业务,一般有几种方法,一是直接基于云厂商的 CDN 构建整张音视频网络,还有一种是基于边缘计算节点构建一张本身的音视频网络,但这都是有一个问题要解决的。无论用什么方案,都有这样一个问题解决:这么多的节点要怎么更好地调度?这涉及到很是复杂的调度问题,由于每一个节点的带宽能力、计算资源能力可能不同,怎么根据用户的状况去作整张网络的调度。

超高清是将来,但还有不少技术侧问题要解决

带宽层面,从目前来看,你们都在想 5G 带宽变大了之后,到底找谁把带宽用起来,总得有人把带宽用起来。就像 4G,实际上是视频用起来的,短视频把 4G 视频带宽撑起来。如今互联网一大部分流量,主体都是视频构成的。5G 时代也是同样,咱们为何须要更大的带宽消耗,确定要从业务侧看到很大的变化。

6.png

图中多是你们常常看到的一些清晰度,咱们如今多数场景里能看到的 720p 视频、1080 4K 和 8K。8K 其实不多看到,由于 8K 对屏幕要求很是高,基本要很大的屏才能展示 8K 的效果。

阿里曾经在几年前冬奥会的时候作过一个 demo,叫 5G+8K 看冬奥会的滑雪现场,它的运动感很是强,因此是很是明显的。而如今特别火爆的 VR/AR 是须要更高的清晰度,如今不少 VR 仍是 4K,因此致使咱们会以为颗粒感很强,但当 VR 结合 8K 的时候,就会以为颗粒感的问题好了不少,画面比较接近真实。

只有更大的带宽,咱们才可能把清晰度更往前推动。关于清晰度,之前有人说,你去问不少人,他都会以为如今的东西已经够清晰了,不须要更清晰。但当你给了他一个更清晰的东西的时候,他会发现他须要更清晰的。最典型的是,苹果推视网膜屏,当视网膜屏推出之后,你们就有了更好的体验。

如今短视频厂商也在不断推动 4K。不少人之前都以为短视频不必那么清楚,由于手机屏幕过小了,还不至于能看出 4K 的差异。

但从业界发展看,咱们以为这个趋势仍是比较明显的,总体朝更清晰化发展,它确定是有诉求的。而为何如今进展比较慢?有不少缘由,第一个是当清晰度要往前推动的时候,不光是后面播放侧的问题,还有很大的问题是制做侧。固然,如今不少摄像机多是 4K,可是拍了之后怎么把 4K 视频作剪辑、处理,实际上是很是复杂的,更不要说带宽消耗。带宽除了能不能放出来之外,还有一个问题是每放一次背后所有是带宽消耗,这个带宽消耗全是成本。

咱们以为超清是一个很好的发展方向,但怎么解决在超清的发展过程当中面临的不少问题,是技术侧都须要关注的。

7.png

超高清技术里面涉及到不少东西,简单讲就是从视频输入开始,就是拍一段视频,而后到一段视频最后被用户看到的时候,到底咱们要作些什么。

你们可能听到过一些词,好比上图里的“超分”。简单来讲,就是手机拍出一段 2K 视频,怎么把它超分红 4K 的视频,让你看到一个相似 4K 的效果,这样作是为了制做端的成本问题,由于不少制做端都不具有制做超高清的能力。

另外,你们可能听过窄带高清等技术,实际上是为了解决给你一段高清视频,但怎么来控制整个带宽成本的问题。若是作高清业务,成本是很是重要的。长视频就很是典型,多数长视频会提供很是多种清晰度的选择,多数公司会提供愈来愈清晰化和愈来愈好的体验,就像优酷本身,咱们会提供帧享的东西去让你们能看到更好的不一样的体验。

还有不少场景的问题,好比拍不一样场景,航拍和运动类的视频对清晰度的要求是比较高的,尤为是运动类的视频就很是明显。阿里优酷作世界杯播放的时候,能明显地感觉到,若是清晰度不够,不少时候可能连球在哪儿都不必定能看到,远景的时候是比较难的。在那段时间,你们在不断研究怎么能让这个画面变得更加清晰。

因此我以为,对于不少公司来说超高清技术是须要往前演进,须要解决从制做到分发、处理到播放整个链条的问题。带宽是基础,只有带宽愈来愈大的时候,这个东西才有可能变成现实。

由于我如今跟视频接触得比较多,从这 5G 和云原生这两个命题讲,我目前看到视频是结合最紧密的技术。

5G 带来的更可能是低延时和大带宽。咱们须要思考的是,当延时愈来愈低的时候,有可能带来什么新的业务创新,创新模式到底有什么改变。延时愈来愈低,在视频场景咱们看到会带来愈来愈多业务上的变化,不少业务跟之前彻底不同了。

由于视频的成熟,在疫情期间不少事情开始转向,之前必须线下的能够转向线上业务。当整个社会技术在进步的时候,全部业务系统侧都要去思考,视频只是相对来说可能更明显一点。另外是带宽,有什么业务对带宽的消耗愈来愈大。

举另一个例子,计算资源的消耗。最先多数计算资源是用来作在线业务系统,好比交易系统等等,消耗了大量的机器。可是后来咱们看到很典型的变化是大数据,大数据变成了更主力的计算资源的消耗,再后来是 AI。

其实场景都在不断变化,在全部业务场景里应该去思考延时愈来愈低会带来什么,而后带宽的变化会带来什么,最后是基于云更快速作业务创新的机会到底在哪里,由于云原生更重要的是,我怎么更好地、更快速地完成整个业务的迭代和创新以及尝试,可能对全部作系统结构、作系统架构技术的人来讲,这是须要慢慢结合本身的业务去思考的一个话题。 

如上文所讲,5G 和云原生时代的技术下半场,视频化是最新最大的肯定性,从图文到视频,视频云促成了内容的视频化,从线下到线上,视频云变革了信息的交互方式。
原文连接
本文为阿里云原创内容,未经容许不得转载。