音视频技术开发周刊 | 243

2022年05月15日 阅读数:3
这篇文章主要向大家介绍音视频技术开发周刊 | 243,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。

web

一周简讯算法

安全

FFmpeg 支持 JPEG-XL

多媒体开源库 FFmpeg 在上周六的提交记录中添加了对 JPEG-XL 图像解码器的支持。JPEG XL 基于 Google 的 PIK 格式和 Cloudinary的 FUIF 格式(该格式基于 FLIF),它的默认设置能在实现接近无损的视觉效果的同时,提供良好的压缩效果,这一项目但愿成为其余光栅有损和无损图像格式的通用替代品。
微信


Julia开源新框架SimpleChain:小型神经网络速度比PyTorch快5倍

世上没有免费的午饭,享受了通用框架的便利,在特定任务上就要牺牲性能。最近Julia开源了一个新框架SimpleChain,在小型神经网络的运行速度上比PyTorch至少快5倍!开发人员表示,这个框架不会对全部人都有用,但对那些须要它的人来讲,它是很是有用的。SimpleChains.jl是由Pumas-AI和Julia Computing与Roche和马里兰大学巴尔的摩分校合做开发的一个库,它的主要目的就是为小型神经网络提供尽量高的性能。
网络


疫情之下,经过咳嗽声也能够检测新冠

澳大利亚科学家开发了一种APP,该APP仅经过咳嗽声便可检测是否感染新冠。据《每日邮报》报道,这款名为ResApp的APP使用机器学习来分析咳嗽的声音,可以以92%的准确率检测到新冠病毒。ResApp由昆士兰大学的Udantha Abeyratne教授开发。美国制药巨头辉瑞公司最近出价1亿美圆收购这家总部位于布里斯班的公司。架构


北京率先放开自动驾驶主驾无人许可 百度首批获准并发

《科创板日报》28日讯,北京发放无人化载人示范应用通知书,百度成为首家获准企业,其旗下自动驾驶出行服务平台萝卜快跑正式开启无人化自动驾驶出行服务。这意味着“方向盘后无人”的自动驾驶服务在中国超大城市首次放开。根据北京市智能网联汽车政策相关规定,得到通知书的示范应用主体可在北京市高级别自动驾驶示范区60平方千米范围内进行公开道路的无人化自动驾驶载人示范应用。app

框架

机器学习


 超级干货

Android AVDemo(1):音频采集,免费获取所有源码丨音视频工程示例
在音视频工程示例这个栏目,咱们将经过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向你们介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第一篇:Android 音频采集 Demo。


视频编解码芯片设计原理----11 率失真优化
本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的总体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文提出了一种硬件友好的码率估计算法,依次介绍了算法优化和VLSI实现,最后对VLSI实现进行了性能评估。


iOS AVDemo(10):视频解封装,从 MP4 解出 H.264/H.265丨音视频工程示例
在音视频工程示例这个栏目,咱们将经过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向你们介绍如何在 iOS/Android 平台上手音视频开发。这里是第十篇:iOS 视频解封装 Demo。


图像信号处理芯片设计原理----04 自动对焦
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,本文介绍自动对焦技术的基本概念,并介绍现有的一些自动对焦方法。


重学音视频?认识 MP4 视频(上)
字面意思很容易理解,MP4 实际上是一种容器,能够存音频和视频内容。那么问题来了,既然说 MP4 是 MPEG-4 第14部分,那其余部分是什么呢?有没有 MPEG 的 一、二、3 甚至 五、六、7 呢?


重学音视频?认识 MP4 视频(下)
字面意思很容易理解,MP4 实际上是一种容器,能够存音频和视频内容。那么问题来了,既然说 MP4 是 MPEG-4 第14部分,那其余部分是什么呢?有没有 MPEG 的 一、二、3 甚至 五、六、7 呢?


音乐研发必备:理解 MIDI 协议与标准 MIDI 文件格式
本文的目的是让开发中涉及到音乐“本体”的同窗能够了解这一最通用的演奏信息交互和文件存储格式的编码规则。同时经过对 MIDI 事件流等概念的认识,能在开发中更好地抽象本身的业务逻辑。


W3C: 媒体制做 API (2)
介绍了在 WebCodecs 中 Memory access patterns 这项技术的当前情况和将来发展。


广播公司如何利用多CDN增长直播的弹性和性能
本次分享的主讲人为来自 Lumen Asia Pacific 的内容交付服务总监 Gautier Demond,主讲人分享了他对广播公司如何经过多 CDN 战略提升直播弹性和性能的看法与案例分析。


音视频开发之旅(六)MediaCodec硬编解流程与实践
Android底层多媒体模块采用的是OpenMax框架,实现方都要遵循OpenMax标准。Google默认提供了一系列的软编软解的实现,而硬编硬解则由芯片厂商完成,因此不一样芯片的手机,硬编硬解的实现和性能是会有差别的。


Microsoft PlayReady DRM及其工做原理
在本文中,咱们将深刻了解微软PlayReady DRM的工做原理。咱们还会了解PlayReady的基本构成,它的安全级别、设备支持和许可证获取方法。


Prime Video如何使用AI确保视频质量
用于检测宏块损坏、音频失真和音视频同步错误的检测器是Prime Video的三个质量保证工具。流媒体视频在录制、编码、打包或传输过程当中可能会出现缺陷,所以大多数订阅视频服务都会不断评估其流媒体内容的质量。


视频编解码器的现状 (2022)
在这个 2022 年的编解码器进展中,我将介绍去年与 H.26四、VP九、HEVC、AV一、多功能视频编码(VVC)、低复杂度加强型视频编码(LCEVC)和基本视频编码(EVC)有关的最重要的公告。


图解十大经典机器学习算法
对于渴望了解机器学习基础知识的机器学习新人来讲,这儿有份数据科学家使用的十大机器学习算法,为你介绍这十大算法的特性,采用图解的方式便于你们更好地理解和应用。


PolyLoss | 统一CE Loss与Focal Loss,PolyLoss用1行代码+1个超参完成超车!
大量的实验结果代表,在PolyLoss内的最优选择确实依赖于任务和数据集。只需引入一个额外的超参数和添加一行代码,PolyLoss在二维图像分类、实例分割、目标检测和三维目标检测任务上都明显优于Cross-entropy loss和Focal loss。


多媒体FFmpeg命令分析-4
本系列主要分析各类 FFmpeg 命令 在代码里是如何实现的。本文章主要讲解 FFMpeg 里面是如何实现帧率变换的,例如 24fps 是如何转成 8fps的,缩小了3倍的帧率。

https://juejin.cn/post/7052350528319127566


自动驾驶中机器学习算法应用大盘点
今天,机器学习算法被普遍应用于解决自动驾驶汽车制造的各类挑战问题中。在自动驾驶汽车中,机器学习算法的主要任务之一是对周围环境进行连续的渲染,并预测这些环境可能发生的变化。


详解图像滤波原理及实现!
图像的实质是一种二维信号,滤波是信号处理中的一个重要概念。在图像处理中,滤波是一常见的技术,它们的原理很是简单,可是其思想却十分值得借鉴,滤波是不少图像算法的前置步骤或基础,掌握图像滤波对理解卷积神经网络也有必定帮助。


一文搞懂鱼眼相机模型
本文介绍的鱼眼相机镜头是由十几个不一样的透镜组合而成,在成像的过程当中,入射光线通过不一样程度的折射,投影到尺寸有限的成像平面上,使得鱼眼镜头拥有更大的视野范围。


万字阐述自动驾驶3D激光雷达SLAM算法
本文系统概述了 3D 激光雷达SLAM算法框架和关键模块, 分析阐述了近年来的研究热点问题和将来发展趋势, 梳理了3D激光雷达 SLAM 算法性能的评估标准。


OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能
怎么去作OpenCV + CUDA的加速支持?网上的作法基本都不会成功,真实缘由是OpenCV4跟以前的版本,编译CUDA的方法不同了。因此感受有必要本身写一遍,做为全网第一个OpenCV4 + CUDA + GPU编译与代码测试的教程给你们。


图像去噪技术简要总结
本期主要针对图像去噪技术进行简要总结,包含空域、频域和稀疏表征的图像降噪方法。


基于延迟边缘化的视觉里程计
本文提出了一种基于延迟边缘化和位姿图BA的单目视觉惯性里程计系统DM-VIO。DM-VIO使用动态权重对视觉光度残差进行BA。


通俗易懂入门机器学习|KNN算法
KNN,全名k近邻算法。是⼀种⾮常简单有效的机器学习算法。KNN是经过计算不一样特征值距离做为分类依据,经过对全部样本求距离,最终获得离待分类对象最近的K个样本,将这K个点做为分类依据。



科技前沿

像纸同样的超薄扬声器
麻省理工学院的工程师开发了一种薄纸扬声器,能够将任何表面变成有源音频源。这种薄膜扬声器产生的声音失真最小,而消耗的能量只是传统扬声器的一小部分。该团队演示了一款人手大小的扬声器,重量约为一角硬币,不管薄膜粘在什么表面上,都能产生高质量的声音。

Nature:科学家首次利用深度学习量化人类意识
如今,科学家对人类意识有了新认识!此次的研究,是经过深度学习算法的AI方式来揭开谜题。一项由韩国、比利时等合做的最新脑科学研究发现,利用深度学习能够量化意识,研究对睡眠、麻醉、脑损伤等不一样情况都得到了实验数据。

DeepFake换头术升级:浙大新模型,GAN出一头秀发
虽然DeepFake能使人置信地换脸,但无法一样换好头发。如今浙大与瑞典研究者都扩宽思路,用GAN或CNN来另外生成逼真的虚拟发丝。

带标签图像数据无限生成!GPT-3+DALL-E 2联合,或完全解决CV界的「粮食危机」
没有优质数据,再强大的模型也没法发挥做用。最近有研究人员发现,GPT-3+DALL-E 2模型若是结合在一块儿,就能自动生成海量的带标签数据,能够用来扩增和平衡数据集、抵御对抗攻击等。

百度&港大提出BOAT:双边局部注意力视觉Transformer
在这项研究中,来自百度研究院和香港大学的研究者从新思考了局部自注意力机制,提出了特征空间局部注意力(feature-space local attention或简称FSLA)。

复旦提出ObjectFormer,收录CVPR 2022!图像篡改检测新工做!
本文中,复旦大学以人为本人工智能研究中心提出了ObjectFormer,借助视觉Transformer的优点建模物体层面的视觉不一致信息,从而为图像篡改检测提供了崭新的思路。该方法在经常使用的图像篡改数据集上取得了SOTA的效果。

CVPR 2022 & NTIRE 2022冠军方案!MST:多快好省的高光谱图像重建
本文介绍咱们近期的两篇文章 MST 与 MST++,其中MST已被 CVPR 2022 接收,MST++ 被 CVPRW 2022 接收,并在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。

一文看尽 Facebook 3D视觉技术研究进展
本文选自Facebook AI ,详细介绍了其在 3D 内容理解领域的研究进展。

超高分辨率显著目标检测,新颖高效的错层嫁接架构PGNet(CVPR2022)
咱们提出了一个新颖的单阶段架构名叫金字塔嫁接网络(PGNet),使用transformer和CNN骨干网络从不一样分辨率图像中独立地提取特征,而后将特征信息从transformer分支嫁接到CNN分支。

一文了自动驾驶汽车决策系统
自动驾驶汽车是集感知、决策和控制等功能于一体的自主交通工具,其中,感知系统代替人类驾驶人的视、听、触等功能,融合摄像机、雷达等传感器采集的海量交通环境数据,精确识别各种交通元素,为自动驾驶汽车决策系统提供支撑。



推荐阅读

火山引擎宋慎义:RTC产品需多样化才能良性发展
火山引擎RTC负责人宋慎义认为:“RTC的服务也许并非如今这么单一,有许多需求并未被知足或作的足够好。”咱们如今缺乏的是耐心、勇气,以及一点点运气。

一篇文章告诉你:VR全景凭啥那么受欢迎
目前各行各业都在拥抱5G,结合VR,成为商家最优选的一种新颖的广告宣传方式。VR全景除了在娱乐领域得到极大的成功外,在商业领域也成为了人们的焦点,被政府、景区、企业、校园、展会等普遍应用在营销推广上。那么,VR全景到底为何如此受欢迎呢?

VR医疗 | 带你走进医学世界
VR技术与医学领域的融合最先出如今VR发展的“第三阶段”(1973—1989)。上世纪80年代美国医学研究工做者最先开始了对人体虚拟图像的研究工做。他们分别对一具男性和女性的尸体作了解剖并对解剖部分作了数字化扫描,根据获得的数据进行压缩和整理,创建了世界上第一个“数字人”。

如何阻止身边的麦克风“监听”你?
现在,麦克风几乎嵌入到全部事物中,从手机、手表、电视到语音助手,它们总能听您说的话。计算机不断使用神经网络和人工智能来处理语音,以得到您的信息。若是您想防止这种状况发生,您该怎么作呢?

VR 直播系统
本文是来自Evolution的技术人员Behnam Kakavand在Demuxed 2021上的演讲,从他们旗下的一款游戏的VR直播模式出发,介绍了VR直播系统中的一些注意事项并给出了一些建议。

AI作显卡、显卡跑AI!英伟达实现芯片设计自循环?
用AI更快更好设计显卡,再用作出的显卡跑更快更好的AI。英伟达的这个反向营销案例,很是巧妙。

有人清理了PASCAL数据集中的17120张图像,将mAP提升了13%!
干净的数据对于你的 AI 模型的表现有多重要?有研究称,他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像,并发现 PASCAL 中 6.5% 的图像有不一样的错误。他们在创纪录的时间内修复了这些错误,并将模型的性能提升了 13% 的 mAP。

综述 | 图像计算传感器
从吉恩利用反向偏置PN结发明传感器的基础单元开始,到LiKamWa的传感器上的模拟CNN架构,图像传感器愈来愈先进,愈来愈复杂。它们再也不是仅仅能感知光信号的设备,而是可以主动进行复杂处理的计算传感器。

沉浸式视频中的音频
真实世界的声音来自环境的四面八方,人耳能够经过声波的时间差、强度差、相位差、频率差等辨别声音的方位。沉浸式声音是沉浸式视频系统的一个核心要素。

从“通讯”走向“沟通”,智能汽车交互机制的演进
当咱们谈论智能汽车的通讯时,咱们在谈论什么?热门的SOA技术是否是智能汽车交互机制的“终局”?让咱们用一篇文章来深挖、讲透这些概念。

综述:目标检测二十年
以2014年为分水岭,做者将过去二十年的目标检测发展进程分为两个阶段:2014年以前的传统目标检测,以及以后基于深度学习的目标检测。接下来,文章列举了二十年来目标检测领域的关键技术,思路很是清晰。





活动推荐



LiveVideoStack Meet武汉:九省通衢聊多媒体

2022年5月14日,LiveVideoStack Meet将落地武汉,咱们邀请到了斗鱼资深音频算法工程师 毛鑫;RTC/VOIP独立开发者、flutter-webrtc/ion开源社区维护者 段维伟;即构科技教育业务线负责人,高级架构师 曾小伟;小米高级算法工程师 周岭松。干货满满不容错过!


活动时间:2022年5月14日  14:00-16:30

活动地点:湖北省武汉市洪山区关山大道泛悦城T2写字楼18层

报名方式:点击「阅读原文」当即报名。

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。