Skip to content

大语言模型发展的意义和价值

约 617 个字 1 张图片 预计阅读时间 3 分钟

大语言模型 LLM 的爆火始于 chatgpt 的横空出世,但是在 chatgpt 出现之前的 gpt1,gpt2 等模型的研究仍然是很有意义的事情。
大语言模型进入广大群众的身边很明显无论是在生产还是生活上都产生了巨大的变动,正如 jyy 老师所言的,大语言模型让一个普通人能够迅速的在某一方面和行业的专家不相上下。
大语言模型的飞速发展,中国模型在其中也有巨大的推动,特别是今年 deepseek 展现的能力,开源的技术和表现让人瞠目结舌。
image.png|500

语言模型的发展经历

一:统计语言模型(SLM)

建立在统计学习理论的框架上,利用前 n-1 个词汇来推断当前的词会出现什么的概率,但是缺点也很明显,可以证明,仍然能够保证语言模型的概率性质通常这种方式可以结合不同阶数估计方法的优势但仍然不能从根本解决数据稀疏性问题。

二:神经语言模型(NLM)

尝试利用神经网络,借助深度学习来实现,当时主流的架构是 RNN 即循环神经网络,相比于上一个阶段而言性能有了显著的提升

三:预训练语言模型(PLM)

通过在大量语料上进行无监督预训练后,其可以在特定下游任务或领域上微调并取得较好效果。
GPT,GPT-2 以及 bert 等模型都是这一个阶段的成果

大语言模型的时代的到来

  • 参数规模更大,到达百亿,千亿乃至万亿的模型
  • 需要更为复杂,精细的模型训练方法
  • 因此需要更多的参数,更多的数据知识

本节学习心得

大模型的飞速发展是这个时代的契机,不亚于工业革命所带来的生产方式的巨大变革,对于任何人而言,把握时代的风口,把 AI 尤其是LLM 作为一门必学的生活技能,不论是生活学习还是工作,我相信大模型都会给我们带来便利。