十位AI大佬的新年鸡汤,看吴恩达如何将长命百岁说得清新脱俗
时间:2020-01-09 13:21:52 热度:37.1℃ 作者:网络
大数据文摘出品
来源:deeplearning.ai
编译:徐玲、HM
2020年的第一周已经过去了,小伙伴们定的年度计划,坚持的怎么样啦?如果刚开始就坚持的不太好,这边建议你喝一下来自吴恩达、Yan lecun、李开复等大佬的新年鸡汤,保证你看完后立马拥有满满的正能量!
吴恩达:
祝大家在101岁以后茁壮成长,亲爱的朋友们,新年快乐!
每个冬季假期,我都会围绕一个新主题追求学习目标。在与家人的两次探访之间,我读了很多书。
大约十年前,我的度假主题是教学法-我仍然记得在机场拖着沉重的书箱——这对Coursera的成立很有帮助。去年,在Nova出生之前,我读了一堆关于育儿书。
这个假期,我一直在学习表观遗传学和抗衰老的新兴科学(有时候是庸俗的)。
我还拜访了我101岁的祖父。我告诉他我在读书,他说保持好奇心是长寿的关键。
如果他是对的,那么我想你们中的许多人都将在101岁以后茁壮成长!
祝你2020年美好,充满好奇,学习和爱心。
保持学习!
Anima Anandkumar:仿真的力量
Anima Anandkumar是Nvidia的机器学习研究总监和Caltech的计算机科学教授。
在标记数据的监督式深度学习方面,我们取得了巨大的成功。现在是时候探索其他学习方式了:对无标签数据进行训练,终身学习,尤其是让模型在将学习的知识转移到现实世界之前先探索模拟的环境。我希望在2020年能够在这些领域进行更多的研究。
高保真度仿真(High-fidelity simulation)可以让我们更有效地训练和测试算法,从而产生更健壮、更自适应的网络。模型在虚拟世界中获得的经验要比在现实世界中获得的经验多得多。我们可以模拟一些罕见的事件,这些事件会带来严峻的挑战,但很少能用事实表示这些事件。
例如,当我们开车时,事故很少发生。即使你行驶数十万英里,你也不会看到所有变化。如果我们仅根据实际数据训练自动驾驶汽车,他们将不会学习如何处理导致事故的各种情况。但是在仿真中,我们可以在变化时生成变化,从而为模型提供更好地反映现实世界可能性的数据分布,从而可以学习如何保持安全。
最近,仿真已经帮助我们在强化学习中取得了令人印象深刻的结果,这是非常耗费数据的。但是,当研究人员可能只有少量真实世界的数据时,它在监督学习中也很有用。例如,地震是罕见的并且难以测量。但是,加州理工学院地震实验室(Caltech's seismology lab)的研究人员使用一个简单的物理模型来创建代表这些事件的综合数据。在合成数据上进行训练后,他们的深度学习模型获得了预测真实地震特性的最先进结果。
在Nvidia,我们已经开发了强大的仿真平台,例如用于自动驾驶的Drive Constellation和用于机器人技术的Isaac。这些开放的,可扩展的环境使模型能够在逼真的虚拟世界中工作,并配有高度精确的物理特性。
我希望更多的AI科学家能够认识到在仿真环境中进行训练以及监督学习之外的其他技术的价值。那将使2020年成为AI取得巨大进步的一年。
Oren Etzioni:追求平等的工具
Oren Etzioni是Allen AI学院的首席执行官,华盛顿大学的计算机科学教授以及Madrona Venture Group的合伙人。
在2020年,我希望人工智能社区能够以切实、直接地惠及弱势群体的方式解决公平问题。
我们花了很多时间讨论算法中的公平性和透明性,这是非常重要的工作。但是,开发具有实际影响力的软件工具是关键所在。旨在改善人们生活的AI系统可以帮助解决社会中的一些重大挑战。
想象一下在轮椅上使用智能手机导航应用程序的感觉–只遇到沿途的楼梯。如果用户无法订制路线以避免无法逾越的障碍,那么即使是最好的导航应用程序也会带来重大挑战和风险。
技术的存在是为行动不便的人们提供支持,其中包括AccessMap,这是华盛顿大学Taskar无障碍技术中心的一个项目。但是我们可以做的更多。值得庆幸的是,我们生活在一个有能力触手可及的时代。
无障碍获取,教育,无家可归,人口贩运—人工智能可能对这些地区和其他地区的人们的生活质量产生重大的积极影响。到目前为止,我们只涉及了表面。让我们在来年深入探讨。
Chelsea Finn:泛化的机器人
Chelsea Finn是斯坦福大学计算机科学与电气工程系的助理教授。
AI社区中的许多人都专注于取得出色的成绩,例如建立可以在Go或Jeopardy获胜的智能体。这种工作在复杂性方面令人印象深刻。但是,很容易忘记另一个重要的智能轴:泛化,处理各种任务或在各种情况下进行操作的能力。我希望在2020年能看到建立泛化模型的进展。
我的工作涉及使用强化学习来训练机器人,以了解其行为将如何影响其环境。例如,我想训练一个机器人执行各种任务来处理各种对象,例如将物品包装到盒子中或将垃圾扫进簸箕。使用强化学习很难做到这一点。
在监督学习中,在ImageNet的1400万张图片上训练图像识别器往往会导致一定程度的泛化。在强化学习中,模型通过与虚拟环境进行交互并随其收集数据来进行学习。要构建习惯于在ImageNet上训练的模型中看到的泛化能力,我们需要为每个新模型收集一个ImageNet大小的数据集。那是不切实际的。
如果我们希望通过强化学习训练的系统能够泛化,那么我们需要设计可以在离线数据集中探索环境的智能体,这些智能体可以从离线数据集中学习,这与ImageNet不同。而且,我们需要这些预先存在的数据集随着时间的增长而增长,以反映世界的变化,就像ImageNet从其最初的100万张图像中成长出来一样。
这开始发生。例如,机器人可以通过从他们自己的交互数据集以及由人类指导机器人手臂进行的演示中学习来弄清楚如何将新对象用作工具。我们正在研究如何利用其他机构的数据。例如,我们收集了一个机器人数据集,这些机器人与来自四个机构的七个不同机器人平台的对象进行交互的。
令人振奋的是,在强化学习中,围绕泛化发展的临界质量不断提高。如果我们能够应对这些挑战,那么我们的机器人将比在现实世界中表现出更智能,而不是在实验室中做一些具有智能外观的事情。
Yann LeCun:观察所得
Yann LeCun是Facebook副总裁兼首席AI科学,也是纽约大学计算机科学教授。
许多人在20小时的练习中学会如何相当安全地驾驶汽车,而当前的模仿学习算法要花费数十万小时,而强化学习算法要花费数百万小时呢?显然,我们缺少一些重要的东西。
人类可以高效学习是因为我们脑海中建立了世界模型。人类婴儿几乎无法与世界互动,但是在生命的最初几个月中,他们通过观察吸收了大量的背景知识。显然,大脑的很大一部分致力于理解世界的结构,并预测由于未来或隐藏而无法直接观察到的事物。
这表明人工智能的前进方向就是我所说的自我监督学习。这类似于监督学习,但是我们没有训练系统将数据示例映射到分类,而是掩盖了一些示例并要求机器预测丢失的部分。例如,我们可能会遮盖视频的某些帧,并根据剩余的帧训练机器填充空白。
最近,这种方法在自然语言理解方面非常成功。诸如BERT,RoBERTa,XLNet和XLM之类的模型以自我监督的方式进行训练,以预测文本中缺少的单词。这样的系统在所有主要的自然语言基准测试中都有记录。
在2020年,我希望自我监督方法能够学习视频和图像的特征。像视频这样的高维连续数据会发生类似的革命吗?
一项严峻的挑战是应对不确定性。像BERT这样的模型无法判断句子中丢失的单词是“猫”还是“狗”,但是它们可以产生概率分布向量。对于图像或视频帧,我们没有很好的概率分布模型。但是最近的研究非常接近,以至于我们很快就会发现它。
突然间,我们将获得很少训练样本的视频中非常好的性能预测动作,这是以前不可能做到的。这将使来年成为AI领域非常激动人心的时刻。
李开复:人工智能无处不在
李开复现在是创新工场的主席和首席执行官。
人工智能已经从一开始的呱呱坠地走向了茁壮成长。在我们主要植根于中国的投资组合中,我们看到了人工智能和自动化在银行业,金融业,交通运输业,物流业,超级市场,餐馆,库房,工厂,学校,药物研发等行业中的广泛运用。
然而应用人工智能的产业仍只占整体经济的一小部分。人工智能还有很广泛的发展空间。
我相信人工智能在人类科技史中的地位将会与电力的发明与应用一样重要。在接下来的十到二十年内,人工智能将会渗透到我们日常生活与经济发展的方方面面,给我们带来更便捷智能的体验。现在正是商业,学校和政府张开双手拥抱人工智能的大好时机,而这也可以推动社会的发展。
人工智能对于医疗和教育的影响最令我激动,这两个领域已经做好了与人工智能结合的准备。
我们投资了一家应用人工智能和大数据来优化供应链的公司,超过1.5亿中国农村人民的药物短缺问题得以得到解决。我们还投资了一家将深度学习与生成化学相结合的药物研发公司,药物研发的速度提高了三到四倍。
在教育行业, 我们看到有一些公司正在使用人工智能来矫正英语学习者的英文发音,批改考试和作业,以及个性化游戏化数学学习的过程。这使老师们得以摆脱冗杂的日常工作,有更多的时间来和新来的学生建立更加有启发性的与激励性的联系.
我希望可以看到更多聪明的企业家和公司在接下来的几年内开始将人工智能与自身的业务相结合。
David Patterson:更加快速的训练与推理
David Patterson是加州大学伯克利分校计算机科学专业的教授。
投资数亿美元打造的新颖的人工智能硬件将在2020年初见成效。
谷歌发布的张量处理器在2017年使大家开始纷纷投资于人工智能硬件。在过去的一年内,我们看到来自Alibaba, Cerebras, Graphcore, Habana, and Intel等公司的人工智能专用处理器都在筹备中。这些新的芯片将会渐渐在实验室和数据中心投入使用。我希望人工智能相关的群体可以受益于此,推动整个领域向着更好的模型和更加有价值的应用发展。
机器学习工程师如何知道一个新产品比传统CPU和GPU的组合更好用呢?
计算机体系结构之间的比较是相对的。使用价格,功率或者芯片数量,我们将计算机的表现标准化,以此来将不同的计算机尺寸考虑在内。竞争者选择一组具有代表性的程序作为基准,然后将机器在这些程序上的跑分取平均值,以此来反应机器的水平。
MLPerf是最近由超过五十个公司和九所大学的代表选出的机器学习基准。他包括了用于测试机器学习的推理和训练能力的程序,数据集,以及基本规则。它强调了如准学度和有效超参数值等重要细节。这个基准每三个月更新一次(推理和训练交替进行),以此来紧跟机器学习快速发展的脚步。
并不是每种产品都可以在公平竞争中胜出。所以有一些营销部门可能会绕开MLPerf,声称我们的顾客不在乎MLPerf中所使用的程序。但是大家千万不要被这些营销部门诸如此类的声明所欺骗。第一,MLPerf欢迎新程序的加入,所以如果一个给定的工作任务不在MLPerf中,他完全可以被加入MLPerf。第二,竞争者会看MLPerf的结果来保证比较的公平与对等性。
买者自负,要看看MLPerf的分数哦!
Richard Socher:让信息海洋沸腾吧!
Richard Socher是Salesforce的首席科学家。
在这个计算机时代,无知只会来源于人类自身选择。毕竟几乎所有的人类知识都可以通过搜索引擎找到。
但信息无穷,想要全面掌握各种事实意见和立场仍然很困难。给定一个长长的文档,在读完之前很难知道能够学到什么。给定一个声明,要知道其真假也很艰难。
自动总结可以为解决这一问题做出极大贡献。这是自然语言处理领域中最重要然而仍未解决的问题之一。在2020年,这一问题的解决将会有很大进展,从而使我们接受信息的方式发生改变。
Salesforce的研究团队最近在该领域发表了一篇论文,评估了现阶段人们在该问题的解决上采取的措施的优缺点。我们发现训练摘要器的数据集有很大缺陷。用于评估摘要器的指标也有很大缺陷。结果就是训练出来的模型有很大问题。
我们正在想法解决这些问题。比如,科研人员一般用ROUGE分数来评估摘要器的表现,ROUGE分数测量了源文档,自动总结和人类总结的语言重合度。但事实上,基于神经网络的摘要器在犯错误的情况下仍可以获得较高的ROUGE分数。一个典型的错误例子是模型可能会搞混罪犯和受害人的名字。ROUGE分数只考虑了两者名字在模型总结和人类总结中都出现,但并没有考虑到两者名字可能在模型总结中的指代上出现了偏差。
我们建立了一个可以评估源文档和总结中的事实一致性的模型。我们还提出了一个可以测量摘要器事实一致性的指标。在考虑ROUGE分数的同时将摘要器根据这个指标排序将帮助研究人员建立更好的模型,这也将提高其他领域的进展速度,比如这可以帮助维持一个长总结中逻辑关系的一致性。
诸如此类的发展使我相信摘要器,乃至整个自然学习领域将会在2020年得到极大发展。这些发展将不但可以帮助人们对抗信息洪流,也可以更好的发挥人工智能的作用,让这个世界更美好。
Dawn Song:为数据负责
数据集对于人工智能和机器学习至关重要,它们也逐渐成为了经济发展的关键驱动力。随着敏感数据的收集不断增加,几乎覆盖了人类生活的方方面面。在现在的数据收集方式下,个人与企业的安全都受到了挑战。我希望在2020年我们能够为建立一个负责任的数据经济打下坚实的根基。
当下,用户几乎对于他们产生的数据将会如何被使用没有任何控制的权利。所有种类的数据都是共享和可售卖的,包括精确地理位置、医疗处方、基因序列,以及DMV注册。诸如此类的行为会将个人隐私乃至国家安全置于危险之中。当个人对于这些问题更加关注的时候,他们对自己所使用的服务就失去了信任。
与此同时,企业和研究人员在如何利用数据方面也面临着极大的挑战。首先,大规模的数据泄露继续困扰着企业。其次,欧洲的《通用数据保护条例》,加利福尼亚的《消费者隐私法》以及类似的法律使得企业遵守隐私法规变得越来越困难和昂贵。第三,有价值的数据被隔离,阻碍了技术的进步。例如,如果机器学习可以跨机构使用医疗数据,则更容易提高每个人的医疗保健水平。
如果想要将这个破旧的系统转变为负责任的数据经济,那么新的科技、法规和经济模型需要被建立。这些应该旨在为数据拥有者(个人和公司)通过安全计算、审计能力和机器学习来提供可以信赖的保护和控制。安全计算可以通过安全硬件(如Intel SGX和Keystone Enclave)和加密技术来提供。通过将加密存储和计算绑定到分布式总账上,这些计算可以被审核。
机器学习方面仍然存在更大的挑战。在2020年,我们可以进一步深化开展当前在差异化私有数据分析和机器学习方面的工作,为大型异构数据集的实际部署构建可扩展系统。对于某些案例,进一步的研究和部署联邦学习也将很重要。最后,从有限且嘈杂的数据中进行可靠学习的进步可以帮助在不损害隐私的情况下实现机器学习用例的长尾效应。
我们正在Oasis Labs实现这一构想的一部分,但是在此之外还有很多事情要做。我希望今年技术人员,企业,监管机构和AI社群能够与我们一起为真正负责任的数据经济奠定基础。
周志华:创新方法,明确指导方针
周志华是南京大学计算机科学和人工智能系教授。
我对2020年有三个期许:
- 希望深度神经网络之外的先进机器学习技术可以出现。神经网络已经被很多的科研人员,工程师和从业人员学习应用了很长时间,而其他的机器学习技术还有很大的创新空间。
- 希望人工智能能够进入更多领域,给人们的日常生活带来更多的积极改变。
- 希望有更多的思考和讨论,关于人工智能研究人员、工程师和从业者如何才能防止人工智能技术的错误发展和使用。