2023年被称为AI大模型元年,人工智能领域,距离实际应用也越来越近,自从阿尔法狗击败李世石和柯洁的标志性事件后,深度学习、神经网络、大模型、GPT等,成为社交领域最热门的词汇,本文主要对过去20年的标志性论文进行回顾,细数GPT时代到来之前的深度学习发展历程,欢迎大家评论区补充,分享自己的回忆!
下面就是非常经典的LeNet5,了解深度学习的可以看到有卷积层、下采样层和全连接层,之后还会加上一些非线性单元ReLU,当然这是后话。我们回顾会发现,虽然80年代就有了BP算法和神经网络,但在2012年以前将近30年里,深度学习发展速度远远没有最近十年来的快,这个问题笔者可能要拓展花费多篇文章内容才能具体分析,但也可以简单用一句话来解释——
三十年前很多传统的机器学习算法也能取得不错的效果,而更大的LeNet需要更多的计算资源,当时的机器性能还不足以支持DeepCNN的计算,卷积神经网络真正大放异彩,其实还是源于那位皮衣男子带来的CUDA和GPU,让显卡性能大幅提升,使得训练更深的卷积神经网络成为可能,但在90年代,老黄做显卡还是主攻计算机图形技术,以推动PC游戏发展为主。
2. 生成模型:深度信念网络(DBN)
"A fast learning algorithm for deep belief nets." Neural computation(2006)
"Reducing the dimensionality of data with neural networks." Science(2006)
虽然说从1998年到2012年之间,深度学习发展相对较慢,但这里再介绍下Hinton提出的概率生成模型DBN,翻译成中文大概是深度信念网络,这篇属于深度学习爆炸前夜非常重要的文章,也是最早应用深度网络训练的非卷积模型之一,可以搭配受限玻尔兹曼机(RBM)与深度玻尔兹曼机(DBM)一起理解,这里就不再过多扩展,之后我们会聊到生成对抗网络GAN也是生成模型,如今人人都在提的AIGC应用,也是利用深度学习中生成模型,来进行各种内容生产。
深度学习爆炸(ImageNet时代)
3. AlexNet
"Imagenet classification with deep convolutional neural networks." NeurIPS(2012)
2012年,我还在读高中,再回头想想,那一年也是不得了的一年,因为ImageNet项目诞生了,项目最初由斯坦福的华人教授李飞飞领导,这也直接开启了深度学习时代——2012年,多伦多大学的Hinton与两位学生Alex Krizhevskyh、Ilya Sutskever一起在ILSVRC12夺冠,发布了最著名的AlexNet,宣告CNN在图像领域取得重大突破,一般也被视作是深度学习的元年。
Ilya Sutskever、Alex Krizhevsky和 Geoffrey Hinton
相比于之前的LeNet,三人重点强调了Dropout的使用,文章被NeurIPS会议收录,上面这张图是Hinton师生的合照,Sutskever是OpenAI的创始人之一,也是和马斯克、奥特曼、布罗格曼四位创始人中最懂技术的人,OpenAI首席科学家;Krizhevsky是Alexnet的一作,值得一提的是他们用了老黄的CUDA,想想当时我们最想要的就是一块680显卡拿来打游戏,谁也没想到外面的世界变化这么快。
这里AlexNet当时文章发出来后,大家也对神经网络有种开盲盒的感觉,Dropout和ReLU就是很好用,像之前Hinton的BP算法也是在CNN中很好用,而且ReLU这些其实也不是他们自己发明的,就连BP算法其实也是David Rumelhart提出的,以前也有不少学者提出过反向传播算法类似的思路,Jürgen Schmidhuber也说自己是BP之父,整个深度学习的发展,很多工作都是站在前人肩膀上完成的,接下来ResNet、GAN、Transformer、BERT、GPT也是如此。
4. VGGNet
"Very deep convolutional networks for large-scale image recognition." ICLR(2015)
AlexNet可以理解为是一个较深的卷积神经网络,与当年LeCun的LeNet对比,ALexnet可是有8层,没记错的话有5个卷积层和3个全连接层,但是到了2014年,更深的网络来了,牛津大学的Karen Simonyan和Andrew Zisserman,又在ILSVRC14比赛上取得第二名。
牛津提供了大量的计算资源,堆GPU算力的狂飙突进时代开启,从VGGNet的名字Very deep convolutional networks也能窥见一二,VGGNet主要在于用了很多小的3×3、5×5这样的过滤器,还加入池化层(Pooling),哦对了,VGGNet同样也用了AlexNet采用的ReLU,来替代Sigmoid等激活函数。
5. GoogLeNet
"Going deeper with convolutions." CVPR(2015)
VGGNet给人感觉并不是那么美,毕竟给人感官上就是卷积神经网络更深了,而接下来则是没有最深,只有更深,没有最壕,只有更壕。同年的ILSVRC14比赛上,不缺钱的谷歌直接引入Inception模块、1×1卷积,网络变得更深更宽。层数更多虽然得到更好的训练效果,但也会带来诸多比如过拟合、梯度爆炸、梯度消失等负作用。
不过在Christian Szegedy和华人科学家贾扬清等努力下,谷歌还是在ILSVRC14夺冠,架构看起来依然不是很有艺术感,只是更宽更深了,但谷歌还是非常艺术地取名为GoogLeNet,为了致敬当初的LeNet,回想在2015年的时候,谷歌带头开卷,大家已经普遍非常看好英伟达了,当然那一年大家对大A更加热情。真是难忘的一年,对了,那一年还有初出茅庐的扩散模型(Diffusion Model),不仅成就了Stable Diffusion和DaLLE,也在2024年开年成为最闪亮的主角。
何恺明时代
6. ResNet
15年是我开始写机器学习和深度学习博客的第一年,当时GoogLeNet足足有500万参数,直接把很多人都吓傻了,但是现在想想大模型,所有人都在熟练地喊着7B、13B,这才过了不到10年。进入16年,AlphaGo横空出世,谷歌Deepmind赚足了眼光,恰好我本人同时做深度学习也下围棋,阿尔法狗确实给我双重震撼的感觉,但是作为深度学习的发展史,阿尔法狗更大的作用可能是吸引到更多的眼光、更多投资进入深度学习领域,再回头看当时,最厉害的还是何恺明的ResNet。
从LeNet到AlexNet,再到VGGNet和GoogLeNet,所有人都陷入了一种更深更大的焦虑中,而何恺明15年提出的残差学习ResNet,就像是众多论文中的一股清流,大多数人在看到论文的反应大概就是——我靠,这也行?结果也是出奇的好,ILSVRC&COCO 2015直接被ResNet屠榜,何恺明可以参考三年前我在小黑盒写的人物志AI学术巨佬——何恺明,从游戏中获得论文灵感。
ResNet为啥好用也可以用很通俗的语言解释,在前面GoogLeNet越来越深其实也不太好用了,当时认为是梯度消失和梯度爆炸问题,上面ResNet有点像短路的结构,恰恰就是这个残差块的小Trick,直接有效缓解了梯度消失问题,此后的卷积神经网络能够变得更深更宽。这里比较感伤的是孙剑和汤晓鸥已经离我们远去……
GAN时代
过去的十几年堪称疯狂,RNN、LSTM、GAN、BERT等经典模型,最终被GPT统治,其中GAN的诞生,也是最令人疯狂的时刻,说来生成对抗网络确实与游戏博弈有很强的相关性,深度学习炼金术师们只需要玩一个MiniMax的游戏,当时现场听李宏毅教授比喻,这个MiniMax游戏可以理解为周伯通左右手互搏,生成器Generator生成数据,判别器Discriminator将生成数据与真实数据进行判别。
G和D是对抗的,这样生成的数据就能越来越接近真实数据,生成器和判别器在这个过程中不断对抗学习,最终左右手都成为顶尖高手。Ian Goodfellow的GAN与何恺明的ResNet一样,都是非常美丽的结构,不过最早的GAN也遇到了难以训练等很多问题,也就有了后面的DCGAN等一系列的GAN,后面的17、18、19几年基本上统治了CVPR等各大顶会,结合迁移学习、半监督学习、强化学习等方面都非常火。
14年与GAN一起火的还有VAE、Flow等,而关于GAN的文章可能还可以写上几十上百篇,这里不做过多赘述,因为篇幅原因,像目标检测的RCNN、Fast RCNN、YOLO等众多领域也都略过,NLP自然语言处理留到后面的GPT单独成文。回顾17年,如果只挑一篇论文的话,应该就是谷歌的《Attention is all you need》,Attention机制和Transformer结构,也将彻底开启GPT时代。
不少学者悲观地表示NLP已死,传统的文本挖掘、机器翻译、语音识别等领域直接被大模型锤爆,当然在深度学习爆火的时候,大家也是表示机器学习已死,总而言之其实就是在当下我们既见证一个新时代的到来,也告别一个百家争鸣的旧时代、但是换个角度思考,就LLM大模型来说,反而将NLP的上限拔到无限高,Sora的新模型也开拓了庞大LLM+扩散模型的文生视频领域,当然Sora也引发了新的大论战,谁是真正的世界模型,一切只能交由时间来印证!
机器学习基础:
AI学术巨佬——何恺明,从游戏中获得论文灵感
AI领军人物——孙剑,重剑无锋的经典之作
AI传奇巨佬——汤晓鸥,中国人工智能领袖人物!
张益唐——黎曼猜想,华人数学家再创重大突破!
B站大学——线代不挂科,MIT传奇教授的最后一课!
机器学习——科学家周志华,成为中国首位AI顶会掌门人!
机器学习入门——数学基础(积分篇)
机器学习入门——数学基础(代数篇)
机器学习入门——数学基础(贝叶斯篇)
游戏&AI系列:
巫师三——AI如何帮助老游戏画质重获新生
AI女装换脸——FaceAPP应用和原理
AI捏脸技术——你想在游戏中捏谁的脸?
Epic虚幻引擎——“元人类生成器”游戏开发(附教程)
脑机接口——特斯拉、米哈游的“魔幻未来技术”
白话科普——Bitcoin到底是如何诞生的?
永劫无间——肌肉金轮,AI如何帮助玩家捏脸?
Adobe之父——发明PDF格式,助乔布斯封神
论文相关:
毕业季杂谈——如何随时免费使用中国知网?
毕业季杂谈——论文降重的“奇技淫巧”
毕业季杂谈——大学教材如何获取
毕业论文——Latex论文排版语言介绍
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!