声网:音视频直播卡顿、延迟、质量差?它要将你从这种失控状态中解救出来 | 创业

44876574_m

移动音视频直播无疑是近两年创投圈的香饽饽,这个领域相继涌现了陌陌、花椒、荔枝 FM 等一大批玩家。而在这么多平台开始争抢赛道的时候,很多人却忽略了到底是什么在推动它们前行。

相信大家都会想到手机的普及、流量资费的下降以及网络环境不断改善等原因,其实除了这些因素之外,还有另一个隐形英雄在其中起到了关键作用,那就是实时通信(RTC)技术,简单来说实时通信技术就是利用互联网实现类似电信级别的音视频通话的技术。而 YY 前 CTO 赵斌所创立的声网(Agora.io)便是实时通信技术提供商中的一员。

硅谷创业,声网实时 SDK 为开发者实现实时音视频能力

在“速度第一”的移动互联网时代,人们的线上交流也在追求“面对面”交流一般的速度和感受。场景需求催生产业发展,实时通信这一行业也在近几年发展迅猛。

“我们看到,实时通信技术与互联网的融合和交叉到达了前所未有的紧密程度,比如医疗、社交、娱乐、游戏、教育、呼叫中心、企业协作以及现在很热门的直播、AR、VR 和 IoT 等领域,实时通信行业可谓前景可观。”声网创始人赵斌表示。

而在这么多的行业中,实时通信的规模化应用成长迅速,对实时通信技术提供商的需求也越来越旺盛。声网在 2014 年于美国硅谷成立时,便意识到了这是个机遇。

据介绍,声网独立研发了 SDK 提供给开发者,“开发者只需要接入声网的 SDK,几行代码,最快半小时就能够实现实时通信和直播功能。我们想做一个对未来有新价值的产品。当时看见以 API 为核心的 2B 技术供应正在成为一个新的创业机会,我们就决定声网的产品要为开发者服务,供开发者使用实时 SDK。”赵斌告诉动点科技。

做 RTC 易,做好 RTC 难

赵斌表示,做好实时通信技术门槛高,坑多,而且需要耗费大量的人力、物力和资源。其技术上的难点,主要有中间传输以及末端传输两大难题:

  • 中间传输即指从路由到路由的骨干网数据传输过程,这里承载数据传输服务的主要有光纤以及同轴电缆等渠道。然而,就像城市道路一样,一旦用户增加、流量剧增,在这些数据传输渠道里同样会发生数据拥堵的问题。因此,比较容易发生延迟以及数据丢包等现象。
  • 末端传输主要指从 Wi-Fi 路由器或电信基站到用户终端之间的传输,如果用户手机由于距离太远或者同时连接的设备太多而造成信号质量太差的情况,实时通信同样也会大受影响。
  • 而上述问题都会造成音视频实时通话时卡顿、模糊、听不清楚等问题。

要解决这些问题,赵斌认为必须要有一个在音视频实时通信领域经验丰富的团队。据介绍,声网团队 90% 均为全球技术工程师,团队成员由来自 Cisco、YY、Vidyo、Intel、微软、腾讯等公司的顶尖技术工程师组成,平均行业经验达 10 年以上,团队具有年服务数千亿分钟音视频通话和千万级并发的互联网直播经验。

基于此,声网申请了多项专利,专门解决互联网音视频实时传输的数据延迟以及丢包等问题。赵斌着重强调了其中两点技术,一是 SD-RTN 软件定义实时传输网络,二是基于互联网的音频编解码 Agora Solo。

  • SD-RTN 软件定义实时传输网络:声网在通用互联网基础设施的基础上在全球部署了近 100 个网络节点,组成了一张虚拟的网络(虚拟主要指的是其没有真实的光纤、线缆等)。系统通过动态实时分析互联网实时传输状况,从而发现数据传输的最优路径,从而解决骨干网数据传输问题。

其实,不用这个虚拟网,互联网的音视频实时通信也可以进行,但数据必须依靠互联网默认分配的线路传输,分配得好的话则通话质量好,分配得差,则通话质量差。“这是一种靠天吃饭的失控状态。”赵斌说到。 SD-RTN 软件定义实时传输网络则弥补了这一天然的缺点,在拥堵的互联网通路上搭建了一条稳定快速的高速路,优化网络传输。

另外,赵斌还向动点科技分享了一个数据:以丢包 1% 或者超过正常范围的延迟和抖动为不达标的标准,即使是在网络状况非常好的北美地区,一个机房到另外一个机房之间仍然有 20% 的概率不达标。而经过软件定义虚拟网,北美地区不达标传输质量概率降到 2% 以下。通过该技术,声网目前的实时音视频直播延迟也降低到了 200 到 600 毫秒,而端到端平均延时更是降低到了 76 毫秒。

其实,中间的骨干网数据传输与“Last mile 最后一英里”的末端传输是相辅相成的关系:声网针对通过软件定义实时网极大地改善了骨干网的数据传输,但如果最后的末端传输做不好,那一切也都是白搭。在此基础上,声网又开发了 Agora Solo 抗丢包音频编码器。

  • 音频编码器 Agora Solo 拥有对抗 50% 丢包的能力,即使在 50% 丢包下,消费者至少可以顺利没有障碍地听懂对方所讲的内容。而作为对比,一般电信设计的音频编码器面对“最后一英里”常遇见的 30%、40% 的丢包时,便已经应付不过来了。

赵斌表示,声网的技术保障已经与电视电话会议中使用的专线是同等级别的。“当然,如果专线能够直接拉到设备上,的确还是要比我们稍强一点的,但专线需要重新拉线,需要对大楼进行二次施工、而且价格也不便宜。相比之下,我们的优势明显,无需购买高昂的设备,随插随用,方便开发者像取用自来水一样取用我们的产品,价格也有优势。”

据了解,声网在国际上对标的企业主要有 Twilio。面对竞争,赵斌认为最终还是取决于技术和产品性能。此外,赵斌还特别强调了声网打造的全栈式实时通信(RTC)解决方案。在创业之初,赵斌便认定手机是实时音视频服务的最佳载体,目前声网的产品已经完成了 iOS、Android、Windows、Web 端的全面覆盖,并适配了总数超过 5000 余款的终端设备。“这样做的主要目的就是帮助开发者快速接入我们的能力。”赵斌表示。

据悉,除了映客以外,包括陌陌、花椒、触手、视吧、KK、荔枝 FM、咸蛋家、Meetme、Flurry Live、Livestar、Yalla 在内的平台全都在使用声网的技术。

专注 2B 市场

在创业领域有一个现象,那就是 2B 企业往往要比一般的 2C 企业活得好,但却比腾讯这样顶级的 2C 企业活得差。因此,有很多 2B 企业都会选择适机进军 2C 市场。当动点科技问及声网是否有机会推出某种 2C 产品时,赵斌表示不会。

“对于创业公司而言,精力是有限的,所以更应该要聚焦,而我们主要是想将精力聚焦到 2B 业务上,做好的技术供应商,帮助开发者实现实时通信能力。当然,我们也认为 2C 是有市场的,但我个人是技术出身,我们团队也技术成分比较多一点,所以,我们更愿意跟其他有能力的创业者合作,为他们提供最好的实时音视频服务。”

目前,声网已在全球布局,在硅谷,上海,北京都有办公室。这家公司现已完成 2000 万美元的 B 轮融资,由晨兴创投的刘芹和 SIG 中国的闫丹领投,纪源资本、顺为、欢聚时代和 IDG 跟投。

题图来自 123RF