文中起缘于麦专家教授和研究精英团队的王博士研究生和燕博士的一次会话。那一天燕博士研究生选了一家评价上得分为5分的饭店。麦专家教授第一反应便是:too good to be true。
大家上实盘买卖前实际上对那类回测主要表现为100分的战略全是很心里不安的(大家宁愿发布主要表现85分的对策,也不敢随便用总分的对策)。
到了之后发觉果真出意外事故了,三个喜爱吃荤的人进了一个四处释放国学经典气场的素食餐厅。三人都肚子饿了,就咬着牙说试试吧,来都来了。
结论……那边的素餐居然十分美味,三人都被惊叹到了。
王博士研究生提及机器视觉(computer vision)领域的研究很繁华,好多个精英团队陆续发布了论文,在CV圈引起了强烈的探讨。
这种几乎隔一天就发布一篇的论文分别是:
5月4日,Google发表的《MLP-Mixer: An all-MLP Architecture for Vision》;
5月5日,北京清华大学图形学试验室Jittor精英团队发布的《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》;
5月5日,北京清华大学软件学院丁贵广精英团队发布的《RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition》;
5月6日,剑桥大学专家学者Luke发布的《Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet》。
图灵奖获得者Yann LeCun也在微博上就Google那篇论文发布了自个的观点。
这儿不探讨这种论文明确提出的模型或优化算法实际的研究全过程,反而是根据八卦一下该领域有关技术性研究演变的主脉来聊一个趣味的社会问题。
这要从2017年Google发布的一篇名叫《Attention Is All You Need》的论文谈起。
自2012年至今,卷积神经网络(CNN)已经成为了机器视觉领域的核心模型。近些年,机器视觉和自然语言理解(NLP)的结合愈来愈多,构架的工作效率也愈来愈高。在其中,《Attention Is All You Need》一文中明确提出的Transformer构架在很多NLP每日任务里都获得了最现代化的成效。"Attention Is All You Need "事实上就是指"Transformer Is All You Need",由于Transformer仅仅为了更好地完成可并行处理、合理和高效率的专注力。
为了更好地减少模型构架的复杂性,探寻扩展性和提升练习高效率,研究工作人员都是在研究如何把这一关键技术到视觉效果解决每日任务上,Transformer也在视觉效果领域变成了一个新的研究网络热点,根据专注力(attention)的网络结构(Vision Transformer)也渐渐越来越时兴,而且获得了比较良好的特性。
Transformer是一种用以 seq2seq 每日任务的模型,它并没有 RNN 的循环构造或 CNN 的卷积神经网络构造,只是选用attention体制来开展翻泽每日任务,翻泽实际效果也取得了一定的提高。而attention体制最开始是在视觉效果领域明确提出的,Google Mind于2014年发布的《Recurrent Models of Visual Attention》一文让attention体制时兴了下去。Transformer与attention、CV领域与NLP领域展现出了我中有你你中有我的关联,图象和语言表达中间的边界也逐渐被摆脱。
2018年Google发布的论文《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》再度点爆了NLP学术界,论文中明确提出了BERT模型,该模型在NLP领域的11个每日任务上面更新了以往的纪录,获得了颠覆性的进度,BERT模型的取得成功较大水平上也需要得益于Transformer。Transformer模型的关键提升之一可能是2020年年里公布的功能齐全的GPT-3,它在NeurIPS 2020上评为为了更好地最好论文。BERT模型和GPT-3的面世有很大的要替代RNN、LSTM等模型的发展趋势,而Transformer在CV领域的良好主要表现对CNN也是一记重拳出击。
2020年,人工神经网络领域的研究又拥有“新”的进度,LSTM 明确提出者 Sepp Hochreiter等人发布了一篇论文,表明NLP领域热门的Transformer中的注意力机制实际上等额的于一种Hopfield网络中的升级标准,其文章标题也是很显著立即对比Google明确提出Transformer的那篇《Attention Is All You Need》——《Hopfield Networks is All You Need》。
该篇论文那时候在Twitter和Reddit等网络平台上也引起了热情洋溢的探讨,许多评价都十分有趣。
由Google《Attention Is All You Need》带上的一阵论文取文章标题懒惰的作风也逐渐风靡,很多人是在玩梗和吐槽,但人工神经网络领域的研究或是在再次,因此大家就看到了一系列“xxx is all you need”或者“xxx is not all you need”文章标题好像普通话绕口令一样的论文……
2022年3月份,一样源于Google的论文《Attention is not all you need: Pure attention loses rank doubly exponentially with depth》更好像立即发话斗嘴Transformer。但文章内容实际上是对“attention is all you need”的填补,详细的应该是“attention 绕过联接 多层感知器(MLP)”。自然,这篇文章也引起了强烈反响,有探讨模型和优化算法的,也是有嗑瓜子吐槽看热闹的,而紧紧围绕attention和Transformer研究的论文也愈来愈多(在其中包含但是不限于开始提及的那2~3篇论文)。
上边提及CNN是CV领域的核心模型,该领域流行构架演变的过程是MLP—>CNN—>Transformer。但是,5月份连续发布的4篇论文将研究角度又转到了MLP,面前文提及的《Hopfield Networks is All You Need》有一种一见如故的觉得,人工神经网络的研究仿佛都逐渐“返朴归真”了。
「网民调侃:希望下一个提升会是发觉1956年Kleene的文章内容」
以Google的论文《MLP-Mixer: An all-MLP Architecture for Vision》 为例子,论文明确提出了一种仅需多层感知机的架构MLP-Mixer,称其不用卷积神经网络控制模块和注意力机制就可实现与CNN、Transformer非常的特性。
没多久Google又发过一篇论文,名叫《Are Pre-trained Convolutions Better than Pre-trained Transformers?》,论文文章标题立即就亮一目了然见解,讲的是预练习的卷积神经网络模型难道说就不可以比Transformer更强吗?该论文又造成了CNN元老级LeCun的
总算,有人说大实话了:Money is all you need! 用性能卓越的硬件配置取代低功能的,结论比费力调模型有效。但是从这个人的企业“Tokyo Institute of Bamboo Steamer” (日本东京笼屉学校)看来,这篇文章应当并不是那麼正儿八经的。
根据Transformer的模型在一些每日任务上常常获得最现代化的结论,但练习这种模型的成本费过高,尤其是长编码序列上。因而大家引进了一种技术性来提升Transformer的特性。大家用TPU替代NVIDIA P100,将其运行内存从hoge GB改成piyo GB。从而造成的模型的性能指标与根据Transformer的模型非常,与此同时更为""TSUYO TSUYO""(表明强悍,很厉害)。
AI研究的循环怪圈:MLP—>CNN—>Transformer—>MLP—>CNN
真正的AI研究:Ideas—>Money—>More Money—>Lots of money
无论如何,Money is all you need是真知。
▼以往优选▼
一篇文章讲搞清楚:SPAC发售风潮
有骨气的私募基金经理都跳楼自杀了
一篇文章讲搞清楚:150亿暴仓事件
一篇文章讲搞清楚:NFT是啥?数据拼贴画为什么卖好几千万美元?
一篇文章讲搞清楚:女版股神巴菲特和她的ARK股票基金