AI编年史——深度学习的发展史（收藏向）

2023年被称为AI大模型元年，人工智能领域，距离实际应用也越来越近，自从阿尔法狗击败李世石和柯洁的标志性事件后，深度学习、神经网络、大模型、GPT等，成为社交领域最热门的词汇，本文主要对过去20年的标志性论文进行回顾，细数GPT时代到来之前的深度学习发展历程，欢迎大家评论区补充，分享自己的回忆！

下面就是非常经典的LeNet5，了解深度学习的可以看到有卷积层、下采样层和全连接层，之后还会加上一些非线性单元ReLU，当然这是后话。我们回顾会发现，虽然80年代就有了BP算法和神经网络，但在2012年以前将近30年里，深度学习发展速度远远没有最近十年来的快，这个问题笔者可能要拓展花费多篇文章内容才能具体分析，但也可以简单用一句话来解释——

AI编年史——深度学习的发展史（收藏向）

三十年前很多传统的机器学习算法也能取得不错的效果，而更大的LeNet需要更多的计算资源，当时的机器性能还不足以支持DeepCNN的计算，卷积神经网络真正大放异彩，其实还是源于那位皮衣男子带来的CUDA和GPU，让显卡性能大幅提升，使得训练更深的卷积神经网络成为可能，但在90年代，老黄做显卡还是主攻计算机图形技术，以推动PC游戏发展为主。

AI编年史——深度学习的发展史（收藏向）

2. 生成模型：深度信念网络（DBN）

"A fast learning algorithm for deep belief nets." Neural computation(2006)

"Reducing the dimensionality of data with neural networks." Science(2006)

虽然说从1998年到2012年之间，深度学习发展相对较慢，但这里再介绍下Hinton提出的概率生成模型DBN，翻译成中文大概是深度信念网络，这篇属于深度学习爆炸前夜非常重要的文章，也是最早应用深度网络训练的非卷积模型之一，可以搭配受限玻尔兹曼机（RBM）与深度玻尔兹曼机（DBM）一起理解，这里就不再过多扩展，之后我们会聊到生成对抗网络GAN也是生成模型，如今人人都在提的AIGC应用，也是利用深度学习中生成模型，来进行各种内容生产。

AI编年史——深度学习的发展史（收藏向）

深度学习爆炸（ImageNet时代）

3. AlexNet

"Imagenet classification with deep convolutional neural networks." NeurIPS(2012)

2012年，我还在读高中，再回头想想，那一年也是不得了的一年，因为ImageNet项目诞生了，项目最初由斯坦福的华人教授李飞飞领导，这也直接开启了深度学习时代——2012年，多伦多大学的Hinton与两位学生Alex Krizhevskyh、Ilya Sutskever一起在ILSVRC12夺冠，发布了最著名的AlexNet，宣告CNN在图像领域取得重大突破，一般也被视作是深度学习的元年。

AI编年史——深度学习的发展史（收藏向）

Ilya Sutskever、Alex Krizhevsky和 Geoffrey Hinton

相比于之前的LeNet，三人重点强调了Dropout的使用，文章被NeurIPS会议收录，上面这张图是Hinton师生的合照，Sutskever是OpenAI的创始人之一，也是和马斯克、奥特曼、布罗格曼四位创始人中最懂技术的人，OpenAI首席科学家；Krizhevsky是Alexnet的一作，值得一提的是他们用了老黄的CUDA，想想当时我们最想要的就是一块680显卡拿来打游戏，谁也没想到外面的世界变化这么快。

AI编年史——深度学习的发展史（收藏向）

这里AlexNet当时文章发出来后，大家也对神经网络有种开盲盒的感觉，Dropout和ReLU就是很好用，像之前Hinton的BP算法也是在CNN中很好用，而且ReLU这些其实也不是他们自己发明的，就连BP算法其实也是David Rumelhart提出的，以前也有不少学者提出过反向传播算法类似的思路，Jürgen Schmidhuber也说自己是BP之父，整个深度学习的发展，很多工作都是站在前人肩膀上完成的，接下来ResNet、GAN、Transformer、BERT、GPT也是如此。

AI编年史——深度学习的发展史（收藏向）

4. VGGNet

"Very deep convolutional networks for large-scale image recognition." ICLR(2015)

AlexNet可以理解为是一个较深的卷积神经网络，与当年LeCun的LeNet对比，ALexnet可是有8层，没记错的话有5个卷积层和3个全连接层，但是到了2014年，更深的网络来了，牛津大学的Karen Simonyan和Andrew Zisserman，又在ILSVRC14比赛上取得第二名。

AI编年史——深度学习的发展史（收藏向）

牛津提供了大量的计算资源，堆GPU算力的狂飙突进时代开启，从VGGNet的名字Very deep convolutional networks也能窥见一二，VGGNet主要在于用了很多小的3×3、5×5这样的过滤器，还加入池化层（Pooling），哦对了，VGGNet同样也用了AlexNet采用的ReLU，来替代Sigmoid等激活函数。

AI编年史——深度学习的发展史（收藏向）

5. GoogLeNet

"Going deeper with convolutions." CVPR(2015)

VGGNet给人感觉并不是那么美，毕竟给人感官上就是卷积神经网络更深了，而接下来则是没有最深，只有更深，没有最壕，只有更壕。同年的ILSVRC14比赛上，不缺钱的谷歌直接引入Inception模块、1×1卷积，网络变得更深更宽。层数更多虽然得到更好的训练效果，但也会带来诸多比如过拟合、梯度爆炸、梯度消失等负作用。

AI编年史——深度学习的发展史（收藏向）

不过在Christian Szegedy和华人科学家贾扬清等努力下，谷歌还是在ILSVRC14夺冠，架构看起来依然不是很有艺术感，只是更宽更深了，但谷歌还是非常艺术地取名为GoogLeNet，为了致敬当初的LeNet，回想在2015年的时候，谷歌带头开卷，大家已经普遍非常看好英伟达了，当然那一年大家对大A更加热情。真是难忘的一年，对了，那一年还有初出茅庐的扩散模型（Diffusion Model），不仅成就了Stable Diffusion和DaLLE，也在2024年开年成为最闪亮的主角。

AI编年史——深度学习的发展史（收藏向）

何恺明时代

6. ResNet

15年是我开始写机器学习和深度学习博客的第一年，当时GoogLeNet足足有500万参数，直接把很多人都吓傻了，但是现在想想大模型，所有人都在熟练地喊着7B、13B，这才过了不到10年。进入16年，AlphaGo横空出世，谷歌Deepmind赚足了眼光，恰好我本人同时做深度学习也下围棋，阿尔法狗确实给我双重震撼的感觉，但是作为深度学习的发展史，阿尔法狗更大的作用可能是吸引到更多的眼光、更多投资进入深度学习领域，再回头看当时，最厉害的还是何恺明的ResNet。

AI编年史——深度学习的发展史（收藏向）

从LeNet到AlexNet，再到VGGNet和GoogLeNet，所有人都陷入了一种更深更大的焦虑中，而何恺明15年提出的残差学习ResNet，就像是众多论文中的一股清流，大多数人在看到论文的反应大概就是——我靠，这也行？结果也是出奇的好，ILSVRC&COCO 2015直接被ResNet屠榜，何恺明可以参考三年前我在小黑盒写的人物志AI学术巨佬——何恺明，从游戏中获得论文灵感。

AI编年史——深度学习的发展史（收藏向）

ResNet为啥好用也可以用很通俗的语言解释，在前面GoogLeNet越来越深其实也不太好用了，当时认为是梯度消失和梯度爆炸问题，上面ResNet有点像短路的结构，恰恰就是这个残差块的小Trick，直接有效缓解了梯度消失问题，此后的卷积神经网络能够变得更深更宽。这里比较感伤的是孙剑和汤晓鸥已经离我们远去……

AI编年史——深度学习的发展史（收藏向）

GAN时代

过去的十几年堪称疯狂，RNN、LSTM、GAN、BERT等经典模型，最终被GPT统治，其中GAN的诞生，也是最令人疯狂的时刻，说来生成对抗网络确实与游戏博弈有很强的相关性，深度学习炼金术师们只需要玩一个MiniMax的游戏，当时现场听李宏毅教授比喻，这个MiniMax游戏可以理解为周伯通左右手互搏，生成器Generator生成数据，判别器Discriminator将生成数据与真实数据进行判别。

AI编年史——深度学习的发展史（收藏向）

G和D是对抗的，这样生成的数据就能越来越接近真实数据，生成器和判别器在这个过程中不断对抗学习，最终左右手都成为顶尖高手。Ian Goodfellow的GAN与何恺明的ResNet一样，都是非常美丽的结构，不过最早的GAN也遇到了难以训练等很多问题，也就有了后面的DCGAN等一系列的GAN，后面的17、18、19几年基本上统治了CVPR等各大顶会，结合迁移学习、半监督学习、强化学习等方面都非常火。

AI编年史——深度学习的发展史（收藏向）

14年与GAN一起火的还有VAE、Flow等，而关于GAN的文章可能还可以写上几十上百篇，这里不做过多赘述，因为篇幅原因，像目标检测的RCNN、Fast RCNN、YOLO等众多领域也都略过，NLP自然语言处理留到后面的GPT单独成文。回顾17年，如果只挑一篇论文的话，应该就是谷歌的《Attention is all you need》，Attention机制和Transformer结构，也将彻底开启GPT时代。

AI编年史——深度学习的发展史（收藏向）

不少学者悲观地表示NLP已死，传统的文本挖掘、机器翻译、语音识别等领域直接被大模型锤爆，当然在深度学习爆火的时候，大家也是表示机器学习已死，总而言之其实就是在当下我们既见证一个新时代的到来，也告别一个百家争鸣的旧时代、但是换个角度思考，就LLM大模型来说，反而将NLP的上限拔到无限高，Sora的新模型也开拓了庞大LLM+扩散模型的文生视频领域，当然Sora也引发了新的大论战，谁是真正的世界模型，一切只能交由时间来印证！

AI编年史——深度学习的发展史（收藏向）