实时音视频的技术难点

发布于: iPhone转发:67回复:81喜欢:88

$声网(API)$ IPO在即,可能有不少朋友感兴趣,我简单写一下,仓老师负责手机YY业务的时候和实时音视频搏斗了4年,还是有点心得体会的。

实时音视频的主要技术难点有五。

一、可用性。服务可用性能达到几个9,四个9就是99.99%可用。

二、延时。以视频会议为例,A地说话,到B地听到看到的时间就是延时。超过20毫秒的延时人耳就能感受到。

三、卡顿。卡顿就是网络上传输数据的时候丢了数据包,导致图像和声音或卡或顿。

四、终端适配。安卓、iOS、网页都要支持,配置好的手机要支持,配置低的手机也要支持(部分卡顿和延迟的原因来自手机配置低处理不过来),比如说非洲那些手机啊、印度那些手机啊,都要支持。

五、支持全球网络。北京老师讲课大凉山山区学生在线上课、中国和美国开视频会议、中国和非洲通视频电话,客户的需求,都得满足。

解决这些技术难点的时候优先处理音频数据,因为耳朵比眼睛灵敏,或者说眼睛比耳朵更会“脑补”。

比如左图,眼睛能脑补出来这是奥巴马,音频数据里要是有这么大比例的噪音数据在里面,耳朵就听不出来或者听着很难受。

主要的技术手段说穿了好像很简单,主要就是网络拓扑、last mile、数据路由、编解码,但却是一个艰难的长期的技术运营工作:1、持续监测;2、持续优化。

我前面说“搏斗”,真的是搏斗,这活太难了。

精彩讨论

霸气林大大2020-06-26 22:39

@霸气林大大: 不是很看好声网,只有技术护城河,没有规模护城河。因为rtc的总规模,在视频中太小。容易被降维打击。
音视频技术虽然难度高,对大厂也就一年的事。只是阿里腾讯目前看不上这块,把音视频的技术都投入到业务,比如钉钉,淘宝直播,微信,qq,腾讯会议而已。目前大厂云部门是东拼西凑,用其他部门的技术,这种机制下,打不过声网正常。主要还是盘子太小,不投入。如果需要,组织个200人的音视频队伍,转身做to b,什么技术门槛也就一年的事。

妖哥老2020-06-26 21:29

这种toB产品护城河其实比想象的深, 1,巨头是一个部门做,负责人就是个director, 而专业公司则是全部都靠此吃饭,是一个CEO在带头做。 2,其实这种服务,价格战是比较难打的,9分和9.5分的差距,足够让客户选择9.5,即使c成本高一点,这是和toC的区别。 3,行业积累,各种大坑,都是要摔打过才能累积起来。 4,巨头有更容易赚easy money的方法, 他们在这种相对hard money上,恒心会相对小一点。

霸气林大大2020-06-26 22:58

技术门槛没这么高。声网目前的优势体现在接口易用性,服务稳定性(对比既构),包体积小,行业方案有现成的半成品,减少接入成本。单纯技术,这个世界没有秘密,至少声网没有秘密 (zoom倒是真有技术门槛)。

三个生意2020-06-27 08:55

转转

有这么玄乎?//@不知道鸭:回复@仓又加错-Leo:我个人觉得这种东西差距主要体现在那么一两个核心负责人的视野和悟性上…东西本身想复制出来没啥门槛,技术人员照着一个设计,低头就能弄出来,然而似是而非,问题是没几个人有抬头看远方的能力和天赋。

著名的例子比如某农药,一个知名大厂开发到一半,明明效果很好却不要专利改开发路径了。对手一看欣喜若狂跟进山寨,后来才知道初期药效虽好但是常年使用会有副作用,深坑,那是好几年后的事了。已浪费了大量财力人力和时间。知名大厂团队微微一笑,爷脑子里有个地图,哪里有啥坑都知道,你开的跟我一样的车,但我就是闭口不告诉你路呗。

再比如阿法狗,论文一出,后视镜里看,模型朴实无华结构简单,似乎随便个谁写出类似的,很简单。但差不多同时期facebook有个团队已经用深度学习攻关围棋很久了,按道理研究团队素养也不差,但结果不太一样啊。

高中时化学老师跟我们讲,你们以后做产业界的研发。真正最牛逼的技术是不会去申请专利的,一来有绝对信心对手没有到达自己的境界,二来申请专利的申请书本身就暴露了自己的路数,吃力不讨好。

所以可能对于技术路径的前瞻视野和敏感性,这种无形的技术壁垒才是这些领域真正的护城河,但这玩意儿比较虚…个人感觉属于那么几个天才固有的。我对声网不了解,但我猜里面也有这么个人物吧?

喝多了语无伦次,见谅。

仓又加错-刘成岗2020-06-26 20:40

我原先是这样思考声网的护城河的:“一方面我觉得音视频技术需要长期积累和打磨,一方面我也不确定这个有没有护城河?有多深?”,技术这东西好像很难构成护城河。
今天又想了一天,想起一个细节,腾讯2012、2013年花曾经大力气挖YY的人搞实时音视频,仓老师知道是因为当年猎头找过我,也就是说,腾讯很严肃地搞实时音视频是从2012年开始的,以$腾讯控股(00700)$  的研发实力,搞了8年了,搞到现在好像还是不如$声网(API)$ ,那么是不是说明这个技术优势是能构成护城河的?

全部讨论

2021-02-03 10:24

20毫秒延时相当于两个人距离7米讲话,这要求太高了,不现实。

2020-08-04 10:24

Mark.

2020-06-26 20:53

疫情股,散了

2020-06-25 21:53

在这个领域,它和TWILLO比有何竞争优势?

2020-06-25 20:34

转转

2020-06-25 20:05

现在都是第三方 推拉流了 , 小公司没人干这活了

2020-06-25 19:17

十几年前做过directshow开发,如果应用环境复杂的,确实很难做。