Magic Leap和微软为什么要做AR眼镜：关于原理及挑战

作者：时间：2016-02-02 来源：新智元

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　Magic Leap 和 HoloLens 是什么?

本文引用地址：//m.amcfsurvey.com/article/201602/286581.htm

　　Magic Leap 和 HoloLens 都是 Augmented Reality (AR)眼镜的代表。

AR和 VR 眼镜的区别是什么?

AR眼镜是透明的，让你能同时看到现实世界，和叠加在上面的虚拟成像。应用例子：赶不上 Lady Gaga 的演唱会?没关系，戴上眼镜她就在你家里开一个。代表产品原型：Magic Leap 和微软的 HoloLens。

　　VR 眼镜是不透明的，只显示虚拟世界，把物理世界完全挡住。应用例子：坐在家里也能去大溪地“潜水”。代表产品：三星的 Gear VR，谷歌 Cardboard，Oculus Rift。

　　Magic Leap 和 Microsoft 为什么要做 AR 眼镜?

　　总的来说，这是计算机的必然发展趋势。2007 年苹果推出 iPhone 以来，手机发展太迅猛，用户随时随地带着它，各项使用数据毫无悬念地都在超越 PC 端。所以，人机交互界面的未来主要在于移动。但现在的手机局限在于：

　　(1)既然要便于携带屏幕就做得小，屏幕小了某些功能就得受限;

　　(2)显示屏幕是平面也就是二维的，而真实世界是三维的。

　　未来的 AR 眼镜有望实现大突破，就是既能让用户随身携带，又能在他眼前显示超大屏幕，还能把以假乱真的 3D 内容渲染到他看到的真实世界里(想象你坐在教室里听课，你的老师看起来真实无比，但其实就是在你的眼镜上虚拟出来的)。这样的眼镜大概不会完全取代手机，但毫无疑问潜力无穷。

　　跟 VR 比较，AR 的应用场景也更广阔(你总不能带着 VR 头盔大街上走吧)。本质上，AR 是 VR 的超集，镜片前面一挡就成了 VR(前提是视角能做到差不多大)。

　　戴眼镜好麻烦，为什么不直接像《星球大战》一样在空气中显示全息图(Hologram)?

　　Holography 是人类的美好愿景，有一天也许能做成，但近期看离实用还早。现在有一些大学实验室在研究裸眼光场显示器(light field display)，但需要很复杂笨重昂贵的设备，还只能在安装了的地方用。相对而言，眼镜的可行性要大得多。如果能做成轻便的 AR 眼镜，将是移动人机交互界面上也是计算机发展的重大革新。

　　在 VR 头盔上加个前视摄像头不也就成 AR 了吗?为什么非要透明的?

　　好问题。说起来 AR 有两种，一种是前面所说的透明 AR(optical see-through)——现实世界是透过镜片直接看到的。另一种就是“视频叠加”(video see-through 或者 video overlay)——现实世界是通过摄像头捕捉，然后以视频的方式呈现给用户(在上面再渲染一些东西)。事实上，现在手机和平板上已经出现了很多 video overlay 的应用，比如看星空，求翻译，选家具等。

　　那为什么不用 VR 头盔加摄像头实现这种 AR 呢?当然可以，现在很多 VR 头盔都在试探这种做法。它和透明 AR 相比各有优劣，比如优势在于用视频实现的虚拟和现实的叠加(overlay)要比透明 AR 简单得多，这也是为什么它已经开始在移动端商用的原因。

　　但劣势也可想而知，用户看到的毕竟只是一个 2D 视频，质量跟眼睛直接看到的世界还是差很大的。而且视频从采集到显示总归是有延迟的，如果跟体感信号不一致的话会造成身体不适。所以不管怎样都还是会有公司前仆后继地去做透明 AR 的，Magic Leap 和 Microsoft HoloLens 就是例子。

　　Magic Leap 为什么那么牛能融到 5.42 亿?(最近的 C 轮在融 8亿)

　　前面说的应用潜力无穷肯定是助力，同时还有技术，创始人，团队的原因。

　　Magic Leap 的核心技术是来自华盛顿大学前研究员 Brian Schowengerdt 的，他导师 Eric Seibel 是光纤扫描内窥镜(Scanning Fiber Endoscope)的专家。大家都知道内窥镜就是医生们做手术时用来体内成像的，本质是个微小摄像头。Brian 很聪明地逆转光路把这个技术用到了显示上，这样通过极细的光纤用激光就可以打出彩色的图像(如图所示)。这个技术十几年前就发表了，后来又不断改进，生成了一堆专利。Magic Leap 很大程度上是基于 Brian 的这些专利。

　　那这种技术为什么重要呢?我们后面留成一个专门的问题讲。

　　然而光有技术牛是不够的，AR 眼镜这种东西，要想做好可想而知是需要投入巨大的人力物力的，软件硬件都得有重大突破。苹果、微软、谷歌这样的公司可能有财力去做这个事，为什么会相信一个初创小企业能做成?我觉得犹太人创始人 Rony Abovitz 起的作用很大。Rony 之前是 MAKO Surgical 的联合创始人。这家公司知道的人不多，但他们做的东西说出来就吓人了——是做机器人手术(robotic surgery)的，主要是骨科手术精准定位。听起来科幻超前吧，可是人 2004 年创建，2008 年就上市了，2013 年以 16.5 亿美元卖给了 Stryker Medical。这种 track record 他拉不到投资谁能拉到。

　　除了创始人兼 CEO，团队也不是盖的，计算机视觉部分拉到了 Gary Bradski 和 Jean-Yves Bouguet 这样的大牛。合作的 Weta Workshop 是在好莱坞给电影做特效的，《指环王》就是他们做的。所以 Magic Leap 当年用来拉投资用的概念视频就像一个微型电影一样。

　　现在该回到前面的问题了，为什么 Magic Leap 的光场显示技术很重要?

　　首先，它是基于极细的光纤的，可以让眼镜做得轻薄。但更重要的是因为 Brian 证明了用这种技术不仅可以投射出一个 2D 图片，还能显示出一个光场(Light Field)。

　　现代的近视眼镜为了实现 3D 有两种主要的技术：Stereoscopic(中文翻译成“立体”，但其实不够准确)，和 Light Field(光场)。Stereoscopic 眼镜早已商化(比如所有 3D 影院里用的，还有市面上几乎所有 AR 和 VR 眼镜/原型——包括 Microsoft HoloLens，Epson Moverio，Lumus DK-40， Facebook Oculus——都是 Stereoscopic)。而 Light Field 还只在实验室里有雏形(Magic Leap 大概是做得最好的一个)。什么是 Stereoscopic 3D 呢?为什么它不够好还要做 Light Field 呢?什么又是Light Field 呢?

　　Stereoscopic 3D 是假 3D

　　3D 图像比 2D 图片多了一个维度，这个维度就是景深(depth)，看过 3D 电影和 2D 电影的同学知道感官上有明显的区别(只有少数人有双盲症不能看到)。大家知道人眼感知景深有很多机制，包括单眼(monocular)和双眼(binocular)的。

　　单眼能感知的景深信号很多，比如：一个东西遮挡了另一个(occlusion)，熟悉的物体的大小(relative size/height)，物体移动的变化(远的物体变化慢近的物体变化快，即 motion parallax)。在此基础上，双眼的景深信号也非常强烈(所以远古的我们能更好地判断对面的老虎或者鹿到底离多远)。两只眼睛看到同一个场景会有细微差别，这让大脑能通过三角计算(triangulation)来得到物体景深。

　　Stereoscopic 3D 就是利用这个原理给双眼分别显示不同的图片(如下图)，它们很相似，只在水平方向上有细微差别。而这两张图片拍摄的时候，就是用两个并排的相机模拟人眼的位置拍的，现在的 3D 电影都是基于这个原理。

　　但这样的 Stereoscopic 3D 有什么问题呢?简单讲它会引起用户身体不适如头晕、恶心等。为什么呢?这又涉及到人眼的一个有意思的机制。当我们在看一个现实世界中的物体时，眼睛其实有两种自然反应：

　　(1)聚焦(Accommodation/Focus)。眼睛的晶状体就像一个凸透镜，它会调节凸度来让那个物体在咱们视网膜上清楚成像。

　　(2)“会聚”(Convergence)。在每只眼睛聚焦的同时，两只眼球还会有旋转运动来一起指向那个物体。

　　很自然地，这两种反射运动在神经上是联接的(neurally coupled)，也就是说任意一种运动会自动引发另一种运动。这也意味着，在人眼看真实物体的时候，聚焦和会聚的距离总是相等的(vergence distance = accommodation distance，参见下图A)。