2D 手势交互,用于 VR 真的过时了?

e2dfb8a6a9bff9e5a53dbc2b15609418

就在去年,VR 手势交互还远没有现在这么火,那时,不管是创业者还是消费者,他们更多都只是将注意力集中到了“手机盒子”上,经过残酷的大浪淘沙之后,这个市场目前已经基本定型。已经有越来越多的企业加入到 VR 交互这块“新大陆”上了,而其中自然裸手交互最为热门。

据了解,自然裸手交互总体上可以分为两种,3D 交互和 2D 交互,通过识别包括物体的大小、形状、材料、距离以及速度等特征,经过处理之后,进一步识别成一系列通用的交互手势。其中 3D 方案主要有:

  • 以微软 Kinect 二代为代表的飞行时间(TOF)方案: 这种技术的基本原理即传感器发出经调制的近红外光,遇物体后反射,传感器通过计算光线发射和反射时间差或相位差,来换算被拍摄景物的距离,以产生深度信息,此外再结合传统的相机拍摄,就能将物体的三维轮廓以不同颜色代表不同距离的地形图方式呈现出来。
  • LeapMotion 为代表的双摄像头双目成像方案: 模拟人眼,使用两个或者两个以上的摄像头同时摄取同一物体不同角度的图像,通过比对这些图像的差别,使用三角原理来计算深度信息。
  • 以 Omek 为代表的结构光方案: 结构光是一种主动式光学测量技术,基本原理是由结构光投射器向被测物体表面投射可控制的光点、光缝、光栅、格网或斑纹,并由一个摄像头来检测采集投射到物体表面上的图样,通过图样的位移变化,就能用三角原理计算出物体的位置和深度信息,进而复原整个三维空间。
  • 以谷歌 Project Soli 为代表的微型雷达方案: 目前 Soli 项目公开的技术细节非常少,它可能采取了单发射,多接收的天线设计。在天线前面的障碍物会反射电波回到雷达天线,而反射信号的能量,延时以及多普勒效应则对应了物体的各项特征,包括物体的大小、形状、材料、距离以及速度,从而生成三维热点图。

另外,以 eyesight 为代表的基于普通单目摄像头方案,虽是基于 2D 图像,但通过 RGB 解析与算法的优化,可以进行静态的手势识别和简单的动态手势交互,比如识别一下当前手势表示的是数字几,识别一下手是左右挥动,还是画个圈或者画个叉等。

biao

图一

图一统计了目前几种手势交互方案,其中除了最后两项是 2D 交互之外,前面 9 项皆为 3D 立体交互方案。可见至少在量上,3D 方案已经完胜 2D 方案了, 难道 2D 方案在 VR 时代已经过时了?

具体情况具体分析,就像知乎网友 Xinghao 所说:

  • 首先,目前 VR 应用更多都是视频和一些简单的游戏,其对手势交互的复杂度要求并不高。对视频而言,使用比较多的功能集中在暂停、播放、快近快退、拖动进度条等,这些交互任务,2D 手势交互是可以胜任的。
  • 然而,如果是真正的 3D 游戏,2D 手势交互就无法满足需求了。你所置身的是一个三维的场景,要跟三维场景里面的物品进行交互,没有深度信息是不可能做到的。

其实,2D 能做到的 3D 方案都能做到,虽然在运算量与能耗方面不如 2D 方案,但其精度与识别自由度都更高。从长远来看,3D 交互取代 2D 交互是一个不可逆转的趋势。

而现在纠结的地方更多其实就是在于价格上面,3D 方案最大的问题就在于价格太贵,如图一所示,其价格基本都在 700 元左右,比大多数入门级的 VR 手机盒子贵多了。几十块钱的手机盒子搭配几百块钱的深度设备,普通用户或许不会为此买单。如今 VR 之所以能够如此火爆,很大程度上并不是 Oculus 那样的昂贵 PC 端 VR 导致,而是由“便宜的手机盒子+随插随用的智能手机平台”引起的。如果移动 VR 大幅度提价,对整个行业都是一场灾难。

因此,在移动端,在 3D 交互方案的价格没有大幅度降低的情况下,便宜到甚至为零的 2D 交互方案显然是更有市场,另外,目前基于单目摄像头的 2D 交互已经可以让用户体验到手势交互的美好。至于 3D 方案,运用到 Oculus 等 PC 级头盔更好,因为加上配套的高端电脑,其总价大多得上万。

可见,2D 手势交互,用于移动 VR 并没有过时,但它的命运却也没有掌握在自己的手里,而是在于 3D 交互价格的降低速度上。出师未捷身先死,这或许是 2D 手势交互的命运吧。