博客专栏

EEPW首页>博客> OpenAI到底做对了什么?(1)

OpenAI到底做对了什么?(1)

发布人:AI科技大本营 时间:2023-07-05 来源:工程师 发布文章

OpenAI通过一系列在AI技术和产品上的突破,引爆了通用人工智能(AGI)的发展,被微软CEO 萨提亚 · 纳德拉称为“堪比工业革命的技术浪潮”。OpenAI趟出来的以大语言模型为主的AGI技术路线,也基本上宣告了其他AI技术路线的终结,这样以一己之力改变整个领域航道的,在技术史上也是空前绝后。一个区区两三百人(在去年底推出ChatGPT时,OpenAI团队大约270人)的创业公司,何以在众多巨头逐鹿多年的AI竞技场一路披荆斩棘,摘得通用人工智能的圣杯?无论在硅谷,还是在国内,很多人都在问:

为什么AGI这样史诗级的革命,背后的核心推手竟然是OpenAI这样的创业公司?OpenAI到底做对了什么?

我自从2016年开始一直追踪研究AI领域的产业发展,每年筹办全球机器学习技术大会(ML-Summit)的工作原因,陆续和很多来自OpenAI的专家、包括Ilya Sutskever(首席科学家)、Lukasz Kaiser(Transformer共同发明人)、Andrej Karpathy(联合创始人)、Ian goodfellow(GAN之父)等经常接触和交流。很早就注意到了OpenAI这个在AI领域特立独行的“异类”。

如果回看AI产业的发展历史,和OpenAI历史道路上的诸多关键选择,我几乎惊叹地发现,作为一家创业公司,OpenAI在每一次关键的岔路口上,都毫不犹豫地选择了“难而正确”的决定。回顾OpenAI发展历史上这些“难而正确”的选择,我觉得对于我们今天很多AI领域的同行者会有重要的启发。


图片

愿景和使命:剑指通用人工智能


「我们的目标是以造福全人类的方式推进人工智能。今天的AI系统虽然令人惊叹,但很多表现又不免差强人意。但在未来,AI极有可能在几乎所有智力任务上达到人类的表现。这项事业的结果是不确定的,工作是困难的,但我们相信我们的目标和结构是正确的。」

这段话是我摘抄自OpenAI 在2015年12月刚成立不久创始团队发表的“愿景和使命”博客中的一段文字。八年后的今天读来,感受仍然是真诚和激荡的。

OpenAI能够在2015年整个AI领域被各种迷雾笼罩的时候,就提出“通用人工智能”这一强大的“愿景和使命”,是建立在创始团队对人工智能的坚实信仰、深刻理解和现状研究基础之上的,我将这些合称为对通用人工智能的“愿力”。这样的“愿力”,帮助OpenAI此后在人工智能的发展道路上一次次守正出奇。

“愿景和使命”在今天浮躁的创投圈,很容易被异化为“忽悠VC和给员工画饼”。但如果研究人类科技发展史,你会发现在一个领域提出强大的“愿景和使命”,是成为一个领域拓荒者的鲜明特征。反过来说,但凡革命性的事情,都有极大的难度,没有强大的“愿景和使命”指引,遇到困难就很容易放弃和溃散。因此,对于那些坚定信仰的创业者,我鼓励大家大声讲出你的“愿景和使命”。我也希望我们的创投界、媒体界对于创业者的“愿景和使命”要鼓励支持、而非奚落鞭挞。

我时常在想如果将时间拉回到2015年,如果30岁的Sam Altman和29岁的Ilya Sutskever这两位毛头小子在我们的某个创投活动上讲出上述“愿景和使命”,是不是会被一众“大佬”唾沫星子淹死?事实是OpenAI在成立时就获得了大约1亿美金的捐赠,彼时OpenAI还是以非赢利性组织的方式成立的。


图片

技术路线一:无监督学习


OpenAI刚成立不久,就在Ilya Sutskever的领导下下注“无监督学习”这条道路。熟悉AI研究领域的朋友都知道,今天这个看起来无比正确的决定,在2015-2016年,绝对不是那么显而易见。因为彼时的人工智能领域,通过标注数据方法的“监督学习”大行其道,在很多垂直领域比如推荐系统、机器视觉等,效果也更好。

而“无监督学习”在理论突破和工程技术上彼时都非常不成熟,效果也大打折扣,属于典型的“非主流”。但无需人工标注数据的“无监督学习”具有强大的普适性、且易扩展,通过大规模的数据预训练,模型就能学到数据中蕴涵的人类丰富的知识,从而在各类任务中大显身手。对于“通用人工智能”这一目标来说,“无监督学习”显然具有“任务的普适性”和依据海量数据进行快速“scale(扩展)”的能力。

今天来看,很多“监督学习”方法都被OpenAI的“无监督学习”大幅甩开,但在当时选择“无监督学习”显然属于“难而正确”的决定,这样的关键道路选择和OpenAI对AGI的愿景是密不可分的。


图片

技术路线二:生成式模型


当2016年,各种“识别”类任务(如视觉识别、语音识别等)大行其道时,OpenAI在2016年6月发表《生成式模型(Generative Models)》中开篇就引用著名物理学家费曼的名言“What I cannot create, I do not understand. 如果不能创造,就无法理解”。也将OpenAI的研究重心放在生成式任务上。

而彼时虽然有Ian goodfellow 发明的GAN(生成式对抗网络)的惊艳时刻,但它的不可解释性,以及相较于识别类任务的“有用”,总体上,主流的人工智能业界其实对于生成式模型的判断是“难度大,但用处不大”。

但通读《生成式模型(Generative Models)》文章中,可以看出OpenAI团队对于生成式模型是“AGI必经之路”的坚定,就能体会出OpenAI团队卓尔不群、坚定自我的特质。


图片

技术路线三:自然语言


虽然在2012年深度学习进入工业界成为主流方法之后,机器视觉很快成为更为成熟、效果更好、变现能力也更强的领域。虽然Ilya Sutskever也是通过AlexNet参加ImageNet大赛拔得头筹而在机器视觉领域一战成名,但OpenAI在做了一些尝试之后并没有选择视觉作为主攻方向,而是选择了押注更难、更险的“自然语言”。

相对视觉、语音等领域,自然语言处理长期被认为是相对落后的领域,因为自然语言任务具有巨大的复杂性和解空间,很多方法在某一个单一任务上可以,但放到另一任务上就表现很差,起伏不定。业界也有说法,自然语言处理是人工智能领域的“圣杯”。

在尝试OpenAI Gym(开源强化学习平台)和OpenAI Five(使用强化学习打Dota2游戏)的同时,OpenAI在使用无监督学习来进行自然语言的任务上走的越来越远。特别是2017年通过生成式方式来预测 Amazon 评论的下一个字符,取得了很棒的效果。

为什么OpenAI选择押注自然语言?套用著名哲学家维特根斯坦“语言的边界就是世界的边界”。如果用Ilya Sutskever的话来说 “语言是世界的映射,GPT是语言的压缩”。就人类智能而言,自然语言是核心中的核心,而其他视觉、语音等都不过是自然语言的辅助佐料。

正是有了对自然语言通向AGI道路信仰般的押注,等到2017年6月12日Google的Transformer奠基性论文《Attention is All You Need》一发布,用Ilya Sutskever的原话说论文发表的第二天,他看到论文后的第一反应是“就是它了”。Transformer模型从理论上颠覆了前代RNN、LSTM等自然语言处理方法,扫清了OpenAI团队苦苦探索自然语言领域的一些关键障碍。

然而遗憾的是,Transformer这一理论模型并没有在Google内部得到足够的重视,反倒让OpenAI团队如获至宝。这一幕像极了1979年乔布斯参观施乐PARC研究院的Alto电脑上的图形界面(GUI)和鼠标后,回到苹果就开始押注图形界面并开启了轰轰烈烈的个人电脑时代,而施乐PARC的领导层却迟迟看不到GUI向普通大众释放的巨大计算潜力。而亲自打造Transformer的七位共同发明人后来也陆续离开Google,有的加入OpenAI(包括我们2021年全球机器学习技术大会的keynote speaker、OpenAI研究科学家Lukasz Kaiser),有的在硅谷VC支持下创办新一代人工智能公司。很有点当年硅谷仙童半导体“八叛徒”的昨日重现。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:AI

相关推荐

技术专区

关闭