音视频技术开发周刊 | 244

2022年05月15日 阅读数:4
这篇文章主要向大家介绍音视频技术开发周刊 | 244,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。

git

一周简讯github

web

JPEG-XL华为自动驾驶车辆测试专利公布,无需人力测试自动驾驶

华为技术有限公司“自动驾驶车辆的测试方法、装置及系统”专利公布。摘要显示,本申请实施例提供的系统包括软件控制模块、运动控制模块和多个运动平台。根据软件控制模块获取的测试场景信息,肯定测试运动平台和目标运动平台,从而向每一个肯定的运动平台发送参数信息,以便执行对应操做。(Tech星球)
面试


谷歌收购 MicroLED 显示屏公司 Raxium,打造新一代VR/AR/XR头显设备

近日,谷歌正式宣布收购AR/VR Micro-LED显示创企Raxium,后者将加入谷歌设备服务团队(此前有消息称Raxium的估值达10亿美圆)。谷歌称:“Raxium团队在五年时间里开发出了小型化、经济高效和节能的高分辨率Micro-LED显示器。随着咱们继续投资硬件,Raxium在这一领域的专长将发挥关键做用。”据悉,与其余显示技术相比,Micro-LED更亮、更小、更轻、续航能力更长。它们有望在加强现实/虚拟现实头显或平视显示器中取代OLED。
算法


AR+高尔夫 | AR应用商Quintar官宣与PGA美巡赛3年期重磅合做

近日,AR技术在体育赛事中又开拓了新的应用版图。5月2日,美国PGA高尔夫巡回赛(PGA TOUR)和AR体育应用开发商Quintar公司宣布双方达成一项为期三年的协议,将用AR技术加强PGA美巡赛球迷在移动设备上的观赛体验。根据协议,Quintar公司也成为了PGA美巡赛的官方移动加强现实开发商。美巡赛在赛事中引入AR应用,最先始于2018年。2020年,美巡赛与平台开发商Quintar公司合做,为观看联邦快递杯季后赛(FedExCup Playoffs)的粉丝带来全新互动体验。在双方达成新协议后,这类AR体验将覆盖美巡赛2022的10场比赛,以及2023年和2024年的更多比赛。性能优化

微信

网络


架构

 超级干货app

WebRTC资源汇总
WebRTC 相关的开源项目、工做招聘、测试工具以及行业内的RTC厂商资源汇总。

https://github.com/webrtcwork/webrtcwork


Clubhouse:使用空间音频提高对话质量
空间音频是一种新技术:当你只是戴上耳机,它也能重现影院级别的环绕声。对于Clubhouse这样的群组通讯app,空间音频不只能带来很棒的音效,还能使你与他人轻松对话。

iOS AVDemo(11):视频转封装,从 MP4 到 MP4丨音视频工程示例
在音视频工程示例这个栏目,咱们将经过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向你们介绍如何在 iOS/Android 平台上手音视频开发。这里是第十一篇:iOS 视频转封装 Demo。

Android AVDemo(2):音频编码,采集 PCM 数据编码为 AAC丨音视频工程示例
在音视频工程示例这个栏目,咱们将经过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向你们介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第二篇:Android 音频编码 Demo。

音视频开发之旅(七) OpenGL ES 基本概念
这个系列咱们一块儿对OpenGL ES进行从新学习实践,掌握OpenGL ES 3.0,编写迷人的OpenGL ES 3.0的程序。

W3C: 开发专业媒体制做应用 (1)
本文中Christoph Guttandin 介绍了他对行业发展的一些愿望,Sacha Guddoy 则介绍了直播媒体制做中的 WebRTC。

视频编解码芯片设计原理----12 码率控制
本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的总体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。

图像信号处理芯片设计原理----05 自动白平衡
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各种缺陷校订,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文将介绍色彩恒常性、色温、和自动白平衡方法。

音视频面试题集锦 2022.04
本文是音视频面试题集锦内容的节选,包括:RTMP 消息分优先级的设计有什么好处?什么是 DTS 和 PTS?它们有什么区别?什么是 IDR 帧?它和 I 帧有什么区别?等等。。。

单目视觉里程计的深度在线校订
本文提出了一种用于单目视觉里程计的新型深度在线校订 (DOC) 框架。整个pipeline分两个阶段:首先,深度图和初始位姿是从自监督方式训练的卷积神经网络(CNN)得到。其次,经过在推理阶段梯度更新位姿来最小化光度偏差,进一步改进了 CNN 预测的位姿。

关于 Android 渲染你应该了解的知识点
谈到Android的UI绘制,你们可能会想到onMeasure、onLayout、onDraw三大流程。但咱们的View究竟是如何一步一步显示到屏幕上的?onDraw以后到View显示到屏幕上,具体又作了哪些工做?带着这些问题,咱们今天就深刻学习一下Android渲染的流程吧。

AI |算法工程师必备的深度学习--CNN:图像分类(下)
算法工程师必备系列更新啦!继上次推出了算法工程师必备的数学基础后,小编继续整理了必要的机器学习知识,所有以干货的内容呈现,哪里不会学哪里,老板不再用担忧你的基础问题!

[基础知识] JPEG 中的信号处理
本文对 JPEG 算法的核心部分进行了讲解,重点讲解色彩空间、YCbCr、色度二次采样、离散余弦变换、量化和无损编码。从数学和信号处理的角度解释了图像压缩算法的发展历程。

一文完全掌握自动机器学习AutoML:PyCaret
本文中,做者将和你们一块儿了解 PyCaret 究竟是什么,如何安装它,并深刻研究使用 PyCaret 构建可解释的机器学习模型,包括集成模型。接下来和小猴子一块儿加速构建你的机器学习模型吧。

学习图像的算术运算
输入图像能够进行算术运算,例如加法、减法和按位运算(AND、OR、NOT、XOR)。这些操做能够帮助提升输入照片的质量。在本文中,你将了解使用 OpenCV Python 包对图像执行算术和按位运算的步骤。

从梯度降低到 Adam!一文看懂各类神经网络优化算法
在调整模型更新权重和误差参数的方式时,你是否考虑过哪一种优化算法能使模型产生更好且更快的效果?应该用梯度降低,随机梯度降低,仍是Adam方法?这篇文章介绍了不一样优化算法之间的主要区别,以及如何选择最佳的优化方法。

有哪些深度学习效果不如传统方法的经典案例?
深度学习做为目前最前沿的科技领域之一,通常都引导着科技进步,可是是否存在一些深度学习的效果反而不如传统方法的案例呢?本文汇总了一些该问题下的优质回答,回答均来自知乎。

15个目标检测开源数据集汇总
目标检测应当在这几年当中研究数量以及应用范围最广的一个领域,也持续的受到不少深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集,但愿能给你们的学习带来帮助。

在图像处理中应用深度学习技术
深度学习应用凭借其在识别应用中超高的预测准确率,在图像处理领域得到了极大关注,这势必将提高现有图像处理系统的性能并开创新的应用领域。

基于Transformer的人脸识别(附源码)
最近,人们不只对Transformer的NLP,并且对计算机视觉也愈来愈感兴趣。咱们想知道Transformer是否能够用于人脸识别,以及它是否比cnns更好。

一文读懂自动驾驶汽车感知系统的架构与关键技术
Perception(感知)系统是以多种传感器的数据与高精度地图的信息做为输入,通过一系列的计算及处理,对自动驾驶车的周围环境精确感知的系统。

【语音处理】硬核介绍人体的感知和听觉特性
本文主要介绍语音感知和听觉特性,包括声压、声压强、响度、音调以及音色等声学感觉,还包括双耳效应、掩蔽效应、延时效应等常见声学效应。

【深度学习】小白看得懂的Transformer图解
在本文中,咱们将研究Transformer模型,理解它的工做原理。咱们将试图把模型简化一点,并逐一介绍里面的核心概念,但愿让普通读者也能轻易理解。

技术解析:一文读懂3D目标检测
目标检测与目标识别不一样,不只要识别图像中目标的类别,同时还要肯定目标位置。与2D目标检测不一样,3D目标检测是使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测。

5 行代码实现图像分割
图像分割,做为计算机视觉的基础,是图像理解的重要组成部分,也是图像处理的难点之一。那么,如何优雅且体面的图像分割?5行代码、分分钟实现的库——PixelLib,了解一下。

Android 视频编辑解析库 MP4Parser
音视频领域的小白,一不当心遇到很牛叉的需求。各类渠道看到这个库,研究的不够深,简单记录。

AI扣图 | 五一假期拍的照片再不用担忧游客太多
五一假期,想必你们都有在景区拍照留恋,可是图片中有不少其余游客或者想把本身P到想要的景区,如今人工智能均可以知足你!

FFmpeg命令分析-vf
主要分析各类 FFmpeg 滤镜命令 vf 在代码里是如何实现的。以 FFmpeg4.2 源码为准。

https://juejin.cn/post/7084107976734146597


技术解码 | Web端AR美颜特效性能优化
Web技术在XR领域最多被诟病的缺陷在于其性能瓶颈,咱们在实际的开发过程当中也遇到了一些性能问题。在本文中将以这些技术为基础探讨如何在Web端的AR应用里进行性能优化,以实现更快的渲染速度、更高的渲染帧率。

W3C: 媒体制做 API (3)
这篇文章主要介绍了 WebCodecs 一个大概实现及其可设置选择的一些参数。来自 WebCodecs 的技术主管 Chris Cunningham 将首先介绍一些 WebCodecs 的 API,并会介绍一些关于视频编码器的设置。

自动驾驶中道路目标检测的极端状况数据集
CODA的挑战性数据集揭示了基于视觉检测器的关键问题。该数据集由 1500 个精心挑选的真实世界驾驶场景组成,每一个场景包含四个目标级的极端案例(平均),跨越 30 多个目标类别。

特斯拉与毫末智行自动驾驶方案对比分析
说说汽车界最近比较火的两个方案吧,一个来自于特斯拉,采用纯视觉方案,另外一个来自于我们国内的毫末智行,采用视觉+激光雷达的方案。两个方案里都提到了将多传感器的数据由各自传感器的坐标变换到统一的BEV坐标,再进行特征融合。



科技前沿

AI | 时间序列预测必定须要深度学习模型吗?
前段时间来自德国的几位学者的一篇论文《Do We Really Need Deep Learning Models for Time Series Forecasting?》中,用GBRT与最近各大顶会发表的新颖模型进行对比,并公布了代码和结果。本期文章为你们简要分享这篇论文中的精华要点,供广大研究者开发者们参考。

骨传导与气传导到底有什么不一样?
声音主要经过两种途径传入内耳,即空气传导和骨传导。一般状况下,两种传播路径同时运行。只不过,咱们听到的绝大多数声音是依靠气导的方式传入咱们耳内。

西北工大&HVL&哈工大联合出版的 193 篇 GANs 在图像超分辨上综述
本文分享一篇近期超分辨率的最新文献综述『Generative Adversarial Networks for Image Super-Resolution: A Survey』。经过对 193 篇相关文献进行全面调研,从它们的性能、优势、缺点、复杂性、挑战和潜在的研究点等进行讨论。

预训练图像处理Transformer
华为、北大、悉大以及鹏城实验室近期提出了一种新型预训练 Transformer 模型——IPT(Image Processing Transformer),用于完成超分辨率、去噪、去雨等底层视觉任务。该研究认为输入和输出维度相同的底层视觉任务更适合 Transformer 处理。

自主思考的空中机器人三五成群飞出浙大,登Science子刊封面
我国自主研发的飞行规划器等于给无人机安装了智慧大脑,它不只能够自主规划路线,还能成功进行避障。由浙江大学控制科学与工程学院、浙大湖州研究院完成的一项研究,发表在今年5月份的《科学》子刊《科学·机器人》(Science Robotics)上。

16万视频对、28万对片断,蚂蚁开源视频侵权检测超大数据集
该研究提出了目前最大规模(超过现有其余数据集 2 个数量级规模)的视频侵权定位数据集VCSL,并提出全新的视频片断拷贝检测的评价指标。相关研究入选CVPR 2022。

中科院团队的新研究,人工智能有助于从空间分辨转录组学中识别组织亚结构
中国科学院的研究人员开发了一个图注意自动编码器框架STAGATE,经过集成空间信息和基因表达轮廓,来学习低维潜嵌件,进而准确地识别空间域。



推荐阅读

谷歌推出Media CDN,将增长其CDN市场竞争力
上周一在拉斯维加斯举行的NAB Show Streaming Summit上,谷歌宣布推出Media CDN——一款用于沉浸式体验的现代可扩展平台,媒体和娱乐行业的客户能够经过它向全世界任何地区的观众提供高效、智能的流媒体体验。


综述 | 2022 深度学习计算机视觉进展
本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;而后总结了针对不一样计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。


自动驾驶时代汽车人机交互发展趋势

相较于实体按钮来进行人机交互,现阶段智能化的汽车没法仅使用实体按钮就完成全部的交互需求,且汽车行业是以技术为驱动型的产业,采用传统的实体按钮的交互方式也更难吸引消费者,人机交互的设计须要从更多方面去考虑。


100万人沉浸式「云斗舞」!这个节目凭啥火了?
上方是演出大屏,下方是人潮嗨舞的迪厅,两侧滚动的是表白宣言,身旁还有「虚拟」的央视主持人尼格买提。央视一场自带话题度的五四特别节目,当晚便冲上热搜。它,凭什么火了?


自动驾驶离咱们还有多远?
目前,自动驾驶技术是否成熟?中国汽车制造业要想在全球占有一席之地,须要不须要把自动驾驶做为将来汽车产业转型升级的重要方向?

为何算法这么难?
广大码农同窗们大多都有个共识,认为算法是个硬骨头,很难啃,悲剧的是啃完了还未必有用——除了面试的时候。实际工程中通常都是用现成的模块,通常只需了解算法的目的和时空复杂度便可。


全球5国自动驾驶交通事故责任如何认定?
当自动驾驶汽车发生交通事故时,责任算谁的?这个问题和规范自动驾驶技术一直是困扰世界各国的棘手话题,全球亦没有统一的规则。但无论责任如何划分,惟一能够肯定的是,相关主体应当为自动驾驶系统和自动驾驶汽车购买责任保险。




活动推荐



【线上直播】LiveVideoStack Meet武汉:九省通衢聊多媒体

2022年5月14日,LiveVideoStack Meet武汉站将在线上与你们见面。咱们邀请到了斗鱼资深音频算法工程师 毛鑫;RTC/VOIP独立开发者 段维伟;即构科技教育业务线负责人,高级架构师 曾小伟;小米高级算法工程师 周岭松。多位讲师将带来关于深度学习、开源实践、直播体验优化、主动降噪等不一样主题的分享。


活动时间:2022年5月14日  14:00-16:30

活动形式:线上直播

报名方式:点击「阅读原文」当即报名。

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。