2015 年 1 月,微软发布了其自主研发的全息智能眼镜 HoloLens,这款眼镜与市面上虚拟现实眼镜及增强现实眼镜有很大的不同,它可以通过识别周围环境和用户的动作,通过 See-Through 的全息波导显示方案,给用户带来全息的视觉体验。HoloLens 于 2016 年第 1 季度接受开发者预定,并于第 2 季度陆续发货,其售价为 3000 美元。
抛开 Magic Leap 等神秘黑科技不说,HoloLens 可以说是目前体验最好的一款 AR 和 MR 设备了,从它的名字上就可以看出微软的野心,Holo 是全息的意思,lens 是镜片的意思,微软并没有跟风 Google Glass,叫 Microsoft Glass 或者 HoloGlass,因为 Glasses 是框架式的眼镜,Contact lens 是隐形眼镜,这么一看,lens 就比 Glass 高大上了很多。随着光电技术的发展,显示镜片也许真的就和隐形眼镜一样了,由此可见 HoloLens 格局就比 Google Glass 大了许多。
HoloLens 的包装盒中,有 HoloLens 眼镜、适配器、Micro USB 数据线、备用鼻托、Clicker、说明书、眼镜布等配件。
硬件
HoloLens 的硬件平台采用 Intel X86 32 位处理器,配合这颗处理器的还有一颗专门用于全息影像和环境感知的全息处理单元(HPU),它搭载 2GB 的 RAM 和 64GB 的 ROM,并且支持蓝牙和 WIFI。作为人工智能的延伸,要理解环境和人的意图,HoloLens 还必须要有强大的传感器做支撑,在眼镜的左前方和右前方,总共有 4 颗环境感知摄像头,在眼镜前方正中间,有一颗普通 RGB 摄像头和一颗深度摄像头,这些摄像头主要利用红外技术来进行手势识别和环境场景的实时建模。
此外,HoloLens 上还搭载了 4 颗高灵敏度麦克风,可以拾取不同角度的环境声音和语音指令。而且,智能手机上具有的惯性传感器、陀螺仪、环境光传感器也是应有尽有,其中惯性传感器和陀螺仪主要用来识别人体头部的姿态。在眼镜两侧耳朵的位置处,有一对立体声的扬声器,系统通过算法对这两个扬声器进行控制,可以模拟出 3D 音效。除此之外,Clicker 小配件可以通过蓝牙和 HoloLens 相连,取代手势来和眼镜进行交互。
HoloLens 要实现全息显示和环境感知、手势识别等功能,势必需要较强的硬件性能,高性能必然带来高功耗,微软官方没有公开 HoloLens 整机的功耗和电池容量,但根据实际体验,大概可以使用 3 小时左右,对于一款体验为主的产品来说也够用了,据估算,HoloLens 的功耗应该在 6-8W,电池容量应该在 5000-6000mAh 左右。HoloLens 的重量为 550g 左右。很难想象 1 斤重的眼镜戴在头上是什么感受,但 HoloLens 的设计很巧妙,眼镜的内侧有一个环形的头架,在佩戴的时候,将这个头架调节到合适的大小,使其压在前额上部,可以大大减轻眼镜对鼻托的压力。
说到全息显示,就不得不提微软的光学显示方案,HoloLens 采用的是全息波导显示技术,其光学镜片厚度有 3-4mm,视场角有 30 度左右。这种显示技术相对于 Google Glass 采用的棱镜反射技术和 Meta2 采用的离轴反射技术相比,具有厚度和体积小,色彩还原真实等优点,可以比较容易做成普通眼镜的外观。和全息波导显示技术相对应的还有一种几何波导显示技术,几何波导镜片可以做的更薄,目前的技术可以做到 1.7mm 的厚度,视场角可以做到 60 度。但这两种波导技术目前最大的缺点就是加工工艺和加工难度较高,可量产性不是很好,因此成本比较高。笔者猜测,Hololens 光学镜片的成本可能会占到其整机的 1/3。
软件
HoloLens 搭载的是微软基于 Windows 10 系统全新打造的全息操作系统,名字叫 Windows Holographic。该系统界面也是延续 Windows 10 的 Metro 风格界面,系统设计是根据眼镜的交互方式做的。Holographic 内部的全息应用程序叫做 Hologram,开发者可以在 Holostudio 中利用 Holographic 的工具创建全息的 3D 模型。目前微软已经宣布向 Intel、高通等公司开放该系统,这有点类似于微软在 PC 领域推广 Windows 操作系统,先构建系统和生态,再让其他厂商和开发者加入自家的阵营,从而占领市场,微软有了在 Windows PC 和 Windows Mobile 上的经验,现在在 AR 和 MR 领域驾轻就熟。
在开发 HoloLens 应用之前,开发者需要安装 Visual Studio2015 以上版本、Windows10 SDK、HoloLens 模拟器以及 Unity Hololens 技术预览版,这些工具都可以在微软官网上下载到。目前微软官网上有已经有详细的开发指导文档,开发者可以详细了解一下。
HoloLens 内置的一款 APP 游戏 Young Conker,这是一款跑酷游戏,当你点击开始游戏后,HoloLens 首先会提示你先 spatical mapping,即你要先对你所在的房间进行扫描,扫描时你会看到墙面、地面上,只要是你扫描的地方都会出现一层类似龟裂一样的蓝色网块,当 HoloLens 识别出你所在的整个房间范围,以及房间内的一些具体物件后,开始进入游戏,你可以通过凝视焦点的移动来控制游戏中小狐狸的行动轨迹,游戏中的小狐狸便会在你的房间里和你一起 “闯关”。
交互
下面,再来说说 HoloLens 的交互体验吧,前文提到了,HoloLens 内部集成了深度摄像头和多个传感器,CPU 获得这些传感器数据以后,利用 Sensor fusion 技术,可以实现多种交互方式。HoloLens 支持手势、凝视、语音等交互方式,目前,HoloLens 支持的手势主要有以下几种:食指点击为确认;食指和拇指捏和为拖动;绽放手势,即手掌朝上,五指收拢,然后再打开,这个手势为打开开始菜单。凝视交互,并不是眼球追踪,不能通过眼球的移动来移动光标,眼睛需要盯着光标并且移动头部,才能移动光标。通过以上两种方式就可以满足大部分的交互需求了。语音交互有点类似于苹果的 siri,这里就不过多介绍了。除此之外,还有上文提到的蓝牙遥控器 Clicker。
HoloLens 的头部姿态的追踪主要还是依靠陀螺仪和惯性传感器来实现,因为头部姿态主要分为 XYZ 三个维度的位移和角度,这个技术和目前智能手机上使用的类似,比如手机上的赛车游戏都需要追踪手机的姿态。HoloLens 的手势识别主要是是依靠深度摄像头,类似于微软自家 Xbox 上面的 Kinect,目前利用深度信息来获取手势数据的技术主要有 TOF、结构光技术、双目摄像头。据了解,HoloLens 采用的是 TOF 技术,这种技术是通过红外测距的原理来获得 Z 轴的信息,最后获得一系列深度图,通过图像处理的方式再计算出具体的手势,由于深度摄像头使用的是红外光,在室内体验时,手势识别的准确度还是比较高,但在户外阳光下,识别效果会有所打折,因为太阳光中的红外成分会对深度摄像头造成一定的影响。
HoloLens 还具有环境感知能力,在使用一些应用的时候,两侧的 4 颗 IR 摄像头会对环境进行扫描,从而构建出外界环境的 3D 模型。这项技术叫做 SLAM 技术,即实时定位与地图构建技术,SLAM 技术之前在机器人和无人机领域应用比较多,因为这两类智能硬件需要实时掌握自己在环境中的位置,这项技术的发展,也会推动 VR、AR、MR 的发展。
HoloLens 中有些应用在体验之前,会引导用户转动头部来扫描房间的信息,IR 摄像头通过测量各个方向的深度信息,以便生成房间的 3D 模型,在游戏过程中,出现的 3D 效果都会和房间的实际结构相融合,从而达到 MR 的效果。Hologram 有一个很重要的关键词——“锚定”,比如打开的一个宇航员模型,就好像锚定在环境空间中,宇航员模型不会随着人的移动而移动,因此人可以在空间中 360 度对其进行观察,给人一种全息的感觉。这些体验都是得益于 SLAM 技术和微软的 HPU。
有人说,HoloLens 是微软将计算平台从 PC 端和手机端搬到眼镜端的一项重大举措,是继 iPhone 之后的又一大科技革命。这样的论断笔者暂时不做评论,但从近代科技发展的趋势来看,个人电脑、功能手机、智能手机等消费电子的发展都是为满足人类更高效的生活、娱乐、办公,每一代产品的革新,都是伴随着更低的成本、更自然的交互,更好的体验,从这一点上来看,AR 和 MR 符合历史发展的规律,在不久的将来,势必会取代个人电脑和智能手机,成为下一代计算平台。微软等巨头在这个领域的布局,也势必会缩短这个时间的到来。
注:本文作者谢辉,枭龙科技联合创始人&CTO,曾就职于华为技术有限公司,具备多年手机硬件研发经验。枭龙科技专注智能眼镜产品和增强现实技术的研发,其二代产品预计在今年第四季度初完成。