第233章 GPT的魅力所在(2/2)
天才一秒记住本站地址:[笔趣阁]
https://www.ibqg.vip 最快更新!无广告!
而后者,则是已经在非常庞大的语言数据上学过语言的一般性规律和知识的聪慧模型。
站在巨人的肩膀上,模型学起新东西来,事半功倍。使用少很多的成本就能够取得成效。
“没错,在预训练阶段,我们可以使用大量没有人工打过标签的文本数据,避免了对大量标注数据的依赖。预训练的模型能够抽取出更丰富的语义信息,提高模型在各种自然语言处理任务中的性能。”
这是不论在图像领域、文本领域还是语音领域都已经成为基础的模式。孟繁岐觉得这点没有什么值得讨论的,毫无争议。
“其中的区别就是,究竟是使用特定数据去【微调】模型,还是使用【指令】去提示模型。”孟繁岐如此说道,这两点,就是BERT和GPT技术最大的区别所在了。
“通常来说,我们都会觉得应该做【微调】。预训练的模型学到的能力比较笼统,如果不专门针对某个任务去做【微调】的话,效果通常都会不大好。”伊利亚和阿里克斯等人都觉得这是常识。
不过如此做的话,显然就无法达到孟繁岐宣传的那种模式和效果了。
举一个很简单的例子,BERT和GPT都在大量的文本上做了预训练,现在它们有任务了,任务就是判定社交平台上的用户们发言的时候有没有在开车。
那么BERT的模式是【微调】,我会收集一大堆开车搞颜色的文本,然后把它们一个个标注清楚,喂给BERT去训练。
“你小子看清楚了,这样的人就是在开车。”
BERT大量观看开车文本,然后微微调整自己的参数,进行了二次学习,针对性学习。
摇身一变,它就变成了文字交警,专门抓捕社交平台上那些在开车的文本和用户。
但是同时,由于做了针对性的训练,它在其他方面的能力会有所损失,受到一定的影响。
如果让它再做别的任务,就不大行。
而GPT的模式,则是【指示】。
也就是说,模型不会做二次学习、针对性学习,它不改变自己的参数。
你要做的,是给它一个示范和引导。
“你看一下,帮我找找类似这样的句子。”
然后它就直接开展工作了。
下一次需要做别的任务的时候,BERT就很不方便,只能重新再做针对性学习。
GPT则看一下新的指示和样例,又能直接再次工作。