AI编年史2——GPT是如何诞生的?

2023年被称为GPT大模型元年,自16年阿尔法狗击败李世石和柯洁的标志性事件后,GPT成为引爆全球社交媒体又一个新技术,虽然人人都在聊GPT的应用,但是GPT作为技术本身的前世今生,却很少被人提起,本文承接上文的深度学习发展史,继续回顾GPT时代是如何诞生的。

AI编年史2——GPT是如何诞生的?

更早成立的商汤、旷视、依图和云从,更是成为中国CV四小龙,商汤科技巅峰时期是发论文发到手软,市值最高超过2000亿,国家和资金主要也是重注计算机视觉;对比当红炸子鸡CV领域,人工智能另一大方向NLP自然语言处理,看起来相对落寞。

AI编年史2——GPT是如何诞生的?

传统的NLP实际上就是计算机科学与语言学的交叉学科,按照很基础的思想,NLP需要我们先去用计算机来理解“自然语言”,然后根据理解去生成“自然语言”,也就是NLP两大核心任务自然语言理解(NLU)和自然语言生成(NLG),早期NLP领域最大的应用就是机器翻译,将一种语言的文本翻译成另一种语言。

AI编年史2——GPT是如何诞生的?

在大家不用深度学习的年代,更多的是用统计模型来处理自然语言,比较经典的有隐马尔可夫模型(HMM),用来描述含有隐含未知参数的马尔可夫过程,马尔可夫链可以理解为一种随机过程,下一个状态的概率只依赖于当前状态,用人话来说,马尔科夫链用在预测股票上,就是模拟随机游走过程ARMA时间序列,用于NLP上就是构建语言模型,来预测下一个单词出现的概率。

AI编年史2——GPT是如何诞生的?


语言模型

好了,GPT中经常提到的大型语言模型(LLM),这里的语言模型(Language Model)已经出现,上面的隐马尔可夫模型HMM是最经典的概率图模型,常见的还有条件随机场模型CRF、最大熵模型ME等,这些都是概率图模型PGM,能够用来非常直观地构建语言模型。

AI编年史2——GPT是如何诞生的?

概率图模型PGM,主要是由一系列的节点和边组成,每个节点代表一个随机变量,边代表随机变量之间的依赖关系,比如上图,ABC可以视作是自然语言,各边的代表各个单词之间的依赖关系,多个点和边构成了图,像HMM是有向图模型,CRF则是无向图模型,受篇幅影响,这里就不继续深入探讨。

AI编年史2——GPT是如何诞生的?

传统的NLP领域靠统计概率模型来处理自然语言,主要是因为统计的方法具有较强的鲁棒性,能够适应语言的变化;而进入到深度学习时代,CV领域过去一些像支持向量机SVM等传统算法逐渐“式微”(当然这种说法不太严谨,很多人认为Transformer也是一种SVM),卷积神经网络CNN登上历史舞台,而NLP也进入崭新的篇章。

AI编年史2——GPT是如何诞生的?

首先进入大家视野的是循环神经网络RNN,与BP反向传播、梯度下降算法类似,RNN同样也是在上世纪八十年代开始发展,在1986年,机器学习领域宗师迈克尔·乔丹(注:这位MJ是Ng的老师,并非篮球之神乔丹)在分布式并行处理提出Jordan网络,每个隐含层节点都与一个状态单元相连以实现延时输入,在BP算法被提出来后,使用Logistics作为激励函数,利用BP算法进行学习。

AI编年史2——GPT是如何诞生的?

之后的1990年,Jeffrey Elman提出了第一个全连接的RNN,也就是大名鼎鼎的Elman网络,对比乔丹,Elman网络多了一个承接层,比如在前向传播过程中,t时刻,输入层将输入信息传递给隐含层,隐含层根据当前的输入信息和来自承接层的历史信息,计算出一个输出,并将其传递给输出层,能够更好地处理序列数据,相比于HMM隐马尔可夫模型,RNN优点是能够记忆过去的信息,对未来输出进行预测,可以处理更加复杂的序列数据,学习其中复杂的非线性关系。

AI编年史2——GPT是如何诞生的?

虽然RNN循环神经网络能够处理无限长度的序列数据,但是也避免不了梯度下降Gradient Descend算法带来的梯度消失和梯度爆炸的问题。在1992年,另一位不逊于图灵奖三巨头的大佬登场——Jürgen Schmidhuber,他在92年提出了神经历史压缩器(Neural History Compressor)。

AI编年史2——GPT是如何诞生的?

而在1997年,LeNet5诞生,Schmidhuber推出改写NLP历史的LSTM,GRU门控循环单元成为神来之笔,先看下面结构,是不是看起来很像数电模电里的门电路?Schmidhuber在RNN的基础上进行改进,LSTM主要由四个“门”组成——输入门、输出门、状态向量和遗忘门,这里状态向量也被形象地成为“记忆细胞”。

AI编年史2——GPT是如何诞生的?

接下来四个步骤计算,遗忘门会根据当前的输入信息和隐含层的状态,来计算出一个遗忘向量;输入门会根据前一个隐含层的状态和当前的输入信息,计算出一个输入向量和一个候选状态向量;随后状态向量会根据遗忘向量、输入向量和当前的输入信息进行更新;输出门会根据前一个隐含层的状态和当前的状态向量,得到最终的输出。

AI编年史2——GPT是如何诞生的?

LSTM的优点在于进一步加强了记忆能力,使得下一个输出,能够“记忆”前面多个向量的特征输入,对比RNN,LSTM对处理长序列数据的能力更强,形成长期记忆依赖关系,克服梯度消失和梯度爆炸问题。对比HMM概率图模型,我们可以看到现在LSTM模型使用的是向量,如果是图像我们能理解向量数据,但毕竟计算机是不认得“字符串”的,或者说计算机无法理解字符串的语义,那么计算机是如何捕捉到英文的语义呢?

AI编年史2——GPT是如何诞生的?


文本数据

答案很简单,直接将文字词语映射到实数向量,这样就能够很好地利用循环神经网络来训练模型,接下来AI三巨头最后介绍的一位Bengio登场,他在2003年发表了一篇《Neural Probabilistic Language Models》神经概率语言模型的论文,但在当时并没有广泛关注,这篇论文中Bengio提出了词向量/词嵌入(Word Embeddings)的概念,能够捕捉词语的语义和句法信息,并用于各种NLP任务。

AI编年史2——GPT是如何诞生的?

但是在2000年的当下来看,老黄还没发力,这篇论文发光发热还要等到2013年Google提出的Word2Vec模型;Word2Vec模型基于学习词向量,主要包括连续词袋架构(CBOW)和Skip-gram架构——CBOW的思路是根据词的上下文预测目标词,比如给定句子“我喜欢吃苹果”,CBOW会根据“我喜欢吃”来预测“苹果”;Skip-gram架构主要是根据目标词预测其上下文,比如给定词“苹果”,Skip-gram模型会预测“我喜欢吃”。

AI编年史2——GPT是如何诞生的?

再进一步,我们OpenAI的首席科学家Ilya Sutskever,他2014年在谷歌发表了论文“Sequence to Sequence Learning with Neural Networks”,其中首次提出了Seq2Seq模型,Word2Vec是学习词向量,而Seq2Seq能够将一个序列转换为另一个序列,基于的不是词向量而是序列,Seq2Seq一般包括编码器和解码器,编码器负责将输入序列转换为一个向量,该向量可以表示输入序列的语义信息,通常使用循环神经网络 (RNN) 来实现。

AI编年史2——GPT是如何诞生的?

解码器负责根据编码器输出的向量生成输出序列,也是用RNN来实现,Seq2Seq模型的训练目标是最大化输出序列和目标序列之间的相似度,通常使用交叉熵损失函数来衡量相似度,这也使得Seq2Seq模型能够广泛用于机器翻译、语音识别、文本摘要、问答系统等任务,从传统的NLP任务,发展到Seq2Seq,可以说是提升了一大截,其中有很多经典的模型架构,不断推动NLP的发展,时间点来到了2016年,整个NLP领域最重要的一篇论文到来——Attention is ALL YOU Need!

AI编年史2——GPT是如何诞生的?

受篇幅影响,这篇文章只能暂时介绍到这里,讨论GPT的诞生过程,笔者预计是10篇文章左右的篇幅慢慢介绍,上面差不多3000多字为笔者一再浓缩精简后的NLP-GPT发展史,很多人选择直接从16年,甚至是23年GPT-3.5-Trubo的版本开始讲,但是如果没有NLP领域以上的发展,GPT是不可能凭空诞生,而如果想要弄懂BERT、GPT,以及当下时髦的MoE架构,上述需要学习的内容也是必不可少的,下篇文章会介绍的Transformer,也是整个GPT时代的开端。

AI编年史2——GPT是如何诞生的?


机器学习基础:

AI学术巨佬——何恺明,从游戏中获得论文灵感

AI领军人物——孙剑,重剑无锋的经典之作

AI传奇巨佬——汤晓鸥,中国人工智能领袖人物!

张益唐——黎曼猜想,华人数学家再创重大突破!

B站大学——线代不挂科,MIT传奇教授的最后一课!

机器学习——科学家周志华,成为中国首位AI顶会掌门人!

机器学习入门——数学基础(积分篇

机器学习入门——数学基础(代数篇

机器学习入门——数学基础(贝叶斯篇

游戏&AI系列:

巫师三——AI如何帮助老游戏画质重获新生

AI女装换脸——FaceAPP应用和原理

AI捏脸技术——你想在游戏中捏谁的脸?

Epic虚幻引擎——“元人类生成器”游戏开发(附教程)

脑机接口——特斯拉、米哈游的“魔幻未来技术”

白话科普——Bitcoin到底是如何诞生的?

永劫无间——肌肉金轮,AI如何帮助玩家捏脸?

Adobe之父——发明PDF格式,助乔布斯封神

论文相关:

毕业季杂谈——如何随时免费使用中国知网?

毕业季杂谈——论文降重的“奇技淫巧”

毕业季杂谈——大学教材如何获取

毕业论文——Latex论文排版语言介绍

#gd的ai&游戏杂谈#

#神来之作第九期#

#免责声明#

①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。

②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。

③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!

④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。

⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!

给TA打赏
共{{data.count}}人
人已打赏
生活杂谈

苹果搁置自动驾驶电动汽车项目:转向生成式人工智能

2024-2-28 0:00:00

生活杂谈

有点地狱,《奥本海默》将在日本广岛、长崎举办试映会

2024-3-1 0:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索