【深度】谷歌人工智能10年之路

作者：时间：2016-12-21 来源：科技杂谈

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

本文引用地址：//m.amcfsurvey.com/article/201612/341843.htm

　　在谷歌证明机器学习高效性的实例组成的稠密图(dense graph)中，自动回复只是其中的一个数据点。但是当机器学习成为搜索业务的重要组成部分的时候，或许转折点才会最终到来。

　　作为谷歌的旗舰产品，搜索几乎为该公司贡献了所有营收。在某种程度上说，搜索总是基于人工智能系统。但多年以来，由于搜索引擎对谷歌过于重要，所以始终没有融入机器学习算法。迦南德里说：“由于搜索在公司内部占据的份额巨大，高级管理者深度参与其中，所以很多人都怀疑我们无法真正取得进展。”

　　这部分阻力源自文化因素，因为谷歌强调要让那些有极强控制欲的程序员适应带有禅宗韵味的机器学习模式。

　　长期掌管谷歌搜索业务的阿密特·辛格(Amit Singhal)曾是传奇计算机科学家杰拉德·萨尔顿(Gerald Salton)的助手。萨尔顿在文档检索方面的开创性工作启迪辛格帮助谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)把研究生时期编写的代码，扩展成了可以适应当今网络时代的程序。

　　他从20世纪的方法中梳理出令人惊讶的结果，但如果要将机器学习系统整合到关系谷歌命脉的复杂系统中，他却持怀疑态度。大卫·帕布洛·科恩说：“进入谷歌的前两年，我在搜索质量部门工作，并尝试用机器学习来改进排名。结果证明：阿米特的团队是全世界最优秀的，我们把阿里特脑海中的所有内容都变成了硬编码，并不断取得进步，我们已经找不到超越他的方式。”

　　到2014年初，谷歌的机器学习大师们认为需要改变现状。迪恩说：“我们与排名团队展开了一系列讨论。我们认为至少应该尝试一下，看看是否有所收获。”他的团队所设想的那个实验，最终被证明对搜索至关重要：即文件排名与搜索请求的匹配程度有多高。迪恩称：“我们跟他们说，尝试用神经网络计算额外的分数，看看到底有没有用。”

　　结果显示这种方法确实有用。这套系统如今已经成为谷歌搜索的一部分，被称作RankBrain。它于2015年4月上线。谷歌继续秉持着以往的风格，对如何改进搜索讳莫如深。但迪恩表示，RankBrain“融入到每一个搜索请求中”，虽然未必会影响所有的排名，但的确对很多搜索请求的排名都产生了影响。另外，该系统效果显著。在谷歌计算排名时所使用的数百个信号中，RankBrain的使用排名第三。

　　迦南德里说：“我们成功利用机器学习改进了搜索结果，这对公司来说意义重大，也引发了很多人的关注。”华盛顿大学教授佩德罗·多明戈斯则则表示：“检索派与机器学习派始终都存在着分歧，机器学习派最终赢得了胜利。”

　　谷歌认知转换面临的新挑战是如何让所有工程师都熟悉机器学习——哪怕不擅长机器学习。这也是现在其它许多公司也在追求的目标，其中最引人关注的当属Facebook，该公司与谷歌一样执着于机器学习和深度学习。对这个领域的毕业生的竞争变得更激烈，而谷歌正在努力维持其对毕业生的吸引力。

　　学术圈多年以来都流传着一个玩笑：即使不需要顶尖学生，谷歌也会招聘他们，避免人才被竞争对手抢走。

　　多明戈斯说：“我的学生无一例外都得到了谷歌的录用通知。”目前看来，竞争的激烈程度有增无减。就在上周，谷歌宣布将在苏黎世开设一个新的机器学习实验室，有很多工作岗位有待填补。但由于学术项目尚未培养大量机器学习专家，所以为员工提供在职培训面成为了必要措施。

　　但这却并非易事，尤其是对于谷歌这样的公司而言。这里有很多世界顶尖的工程师，他们毕生都在研究传统的编程方式。

　　机器学习却需要截然不同的思维模式，人们之所以能变成编程大师，通常是因为他们实现了对编程系统的完全控制。机器学习还需要掌握一些数学和统计学知识，但是很多程序员却对此不屑一顾，即便是那些能够写出超长代码的超级黑客也不例外。

　　克里斯汀·罗伯森,职责是在机器学习方面培训谷歌内外的人员。

　　这也需要相当程度的耐心。罗伯森说：“机器学习模型不是静态代码，你需要不断为其提供数据。我们一直在不停地更新模型，而且还要不断学习，增加更多数据，调整预测方式等。它就像是一个有生命的东西，这是一种截然不同的开发模式。”迦南德里说：“实际上这是一个使用不同算法进行实验的学科，或关于哪个训练数据集在你的使用案例上工作效果最好的学科。”

　　尽管迦南德里已是搜索业务主管，但他仍然认为在内部传播机器学习技术的福音是他工作的一部分。他说：“计算机科学那部分不会有太大变化，但对数学和统计学的关注会更多，而对编写五十万行代码的关注则会减少。”就谷歌而言，这一障碍可以通过智能再培训克服。迪恩说：“在训练的一天结束时，这些模型中所使用的数学变得不再复杂。对于谷歌雇佣的大部分工程师而言，这都是可以实现的。”

　　为了进一步帮助日益增长的机器学习专家团队，谷歌开发了一系列强大的工具，在训练算法时选择正确的模型，以加快培训和提炼过程。其中最强大的是TensorFlow，它可以加速神经网络的构建过程。

　　TensorFlow源自谷歌大脑项目，由迪恩和他的同事拉加特·芒格(Rajat Monga)共同发明。它能把构建系统过程中涉及的晦涩难懂的细节变成标准化的内容，特别是在谷歌2015年11月开始将其开放给公众后，这种做法的效果更快得以显现。

　　扩张停不下来

　　尽管谷歌煞费苦心地将传播人工智能技术的行为描述为利他主义行为，但它也承认：如果新一代程序员都能熟悉该公司内部的机器学习工具，那对谷歌未来的招聘活动带来莫大好处。TensorFlow的功能以及谷歌的开源模式很快受到了程序员的欢迎。迦南德里表示，当谷歌首次提供TensorFlow课程时，共有7.5万人报名参加。

　　但谷歌仍为自己的程序员保留了很多好东西。在公司内部，员工拥有无可比拟的机器学习工具——Tensor Processing Unit(张量处理单元)。他们虽然使用这项创新已经很多年，但直到最近才对外宣布。

　　张量处理单元是一种针对机器学习程序优化的芯片，就像GPU是专门针对图形处理优化的芯片一样。该公司的庞大数据中心里使用了数以千计的张量处理单元。通过赋予神经网络以超级计算能力，张量处理单元为谷歌带来了巨大优势。迪恩说：“如果没有它，我们无法推出RankBrain。”

　　但由于谷歌最需要的还是设计和完善这些系统的人才，就像正在紧锣密鼓地完善其软件训练工具一样，谷歌也在不断尝试各种方式来为工程师提供机器学习方面的培训。

　　这些培训的规模大小不等，包括为期两天的速成班，使用幻灯片和实际操作练习。谷歌希望这只是初步尝试，工程师随后还会寻找更多资源来深入学习。迪恩说：“已经有数千人报名，准备参加下一次课程。”

　　谷歌还采取其他措施，为外部人才提供机器学习培训。今年初春，谷歌启动了BrainResidency项目，利用谷歌大脑项目为有潜力的外部人才提供了为期一年的集训。罗伯森说：“我们称之为深度学习职业生涯的开端。”

　　这次集训共有27名来自不同学科的机器学习学员，其中可能有些人会留在谷歌。但罗伯森表示，谷歌的目的是让他们自行发展，利用自己掌握的先进知识在世界各地传播谷歌的机器学习技术。

　　从某种意义上说，机器学习正在逐步走上中心舞台，谷歌希望以人工智能公司的身份继续占据主导地位，而霍尔盖特等人在忍者项目中学到的知识正是这一计划的核心。

　　霍尔盖特的课程最初是为期4周的新兵训练营，由谷歌最先进的人工智能项目产品负责人提供指导，仔细教给他们如何将机器学习融入项目中。

　　罗伯森说：“我们把忍者带进会议室，考拉多站在白板前解释何为LSTM(长短期记忆，一种可以打造强大神经网络的技术)。他做着夸张的手势，讲述这种系统的工作原理，利用了哪些数学原理，如何应用于产品中。在最初的4个星期里，我们几乎用到了所有技术和所有工具，为的是给他们带来真正的沉浸式体验。”

　　霍尔盖特成功地通过了新兵训练营的训练，她现在正在使用机器学习工具开发安卓通讯功能，以帮助谷歌员工彼此交流。她正在调整超参数(hyperparameter)，整理输入数据，去掉休止符。

　　现在她已经无法停住脚步，因为她知道人工智能技术就是谷歌的现在和未来，甚至可能是所技术和所有事物的未来。她说：“机器学习时代已经来临，前景无比广阔。”

新闻中心

【深度】谷歌人工智能10年之路

评论

相关推荐

技术专区