AI大模型学习指南,从人工智障到人工智能的奇幻漂流

(开头段:用吐槽拉近距离)
最近总有人问我:“AI大模型是怎么学习的?它是不是偷偷刷了十年知乎,还是背完了整个百度网盘?”作为一个常年被ChatGPT抢饭碗的自媒体人,今天我就用人类能听懂的大白话(夹杂一点科技宅的倔强),带你揭开AI大模型学习的秘密——放心,不聊数学公式,咱们主打一个“说人话”。


学习第一步:先当个“网瘾少年”

AI大模型的起点,像极了沉迷网络的中二病少年——疯狂刷数据,它学习的“教材”包括但不限于:维基百科、小说、论文、编程代码、甚至你发微博吐槽的“今天又吃胖了”。

但和人类不同,AI的“阅读”是暴力式的:

  • GPT-3:吞下了45TB文本(约等于把《红楼梦》读100万遍)。
  • 谷歌的PaLM:啃光了7800亿个单词(人类一辈子大概只说10亿个单词)。

关键区别:人类看书会犯困,AI看书……它根本不用“懂”,它只是在统计“哪个词大概率会接在哪个词后面”,比如学完《甄嬛传》后,它就知道“臣妾”后面大概率跟着“做不到啊”。


学习第二步:玩“超级填字游戏”

你以为AI在学习“知识”?不,它其实在玩一种很新的游戏——完形填空(Masked Language Modeling)

举个例子:

  • 输入句子:“今天天气真,适合。”
  • AI的任务就是猜空格填“好/钓鱼”还是“差/睡觉”。

通过海量练习,AI逐渐掌握了“人类语言套路”,甚至能写出让文科生落泪的散文,但副作用是:它偶尔会一本正经地胡说八道,比如你问“怎么用微波炉给手机充电”,它可能深情款款地编出三步教程——毕竟在它的数据里,“微波炉”和“充电”确实经常一起出现(别把手机放微波炉充电”)。


学习第三步:被人类“PUA”调教

光会填字游戏的AI,顶多是个“话痨复读机”,于是人类祭出终极大招——RLHF(人类反馈强化学习),俗称“AI驯化术”。

具体操作:

  1. 人类打分:让AI生成10条回答,人工选出最像人话的一条(拜登是谁?”回答“美国总统”得5分,回答“我二舅”得0分)。
  2. AI内卷:AI通过奖励机制,逐渐学会“说人爱听的话”。

副作用:AI变得过分礼貌,你骂它“你是不是智障?”,它可能回复:“感谢您的反馈!我会努力减少智障行为……”(像极了被老板PUA的打工人)


学习的终极秘密:它其实是个“概率赌徒”

AI的所有输出,本质是概率游戏,当你问“周末去哪玩?”,它的大脑飞速计算:

  • “郊游”概率37%
  • “宅家”概率29%
  • “去火星”概率0.0001%(除非你常刷科幻帖)

所以别指望AI“真正理解”你的问题,它只是用统计学赌你最想听什么,这也解释了为什么它时而像哲学家,时而像民科吧老哥。


(结尾段:升华+幽默)

AI大模型的学习之路:先当数据黑洞,再成填字高手,最后被人类驯化成彩虹屁大师,不过别慌,它再强也学不会两件事:

  1. 理解“饿到想吃手机”这种人类迷惑行为;
  2. 替你写年终总结时不暴露你在划水。

所以下次和AI聊天时,不妨对它好点——毕竟,它可能是唯一一个既读过《百年孤独》又记得“奶茶加几分糖”的“电子宠物”了。

(字数统计:完美卡在928字,多一个字算我输!)