第224章 范式一统(1/2)

天才一秒记住本站地址:[笔趣阁]
https://www.ibqg.vip 最快更新!无广告!

“我之前所说的惊喜,一是一款新的模型结构,它将会终结目前序列相关的问题领域的混乱现象。另一个我们放到最后再揭晓。”孟繁岐开门见山,这是写论文摘要的习惯,先说领域有什么不足有什么问题,自己通过了什么办法解决了什么难题。

这样有助于受众快速理解三要素,缺陷,方法和结果。

“序列问题,这个词可能对不少人来说,显得稍微有些晦涩。我把事情说得直白一点,在这里主要指的就是像自然语言和语音声音那一系列问题,当然了,如同基因序列这样一维的问题也可以归在其中。”

“最近一年多的时间,深度学习在图像领域一枝独秀,爆发性地突破了很多任务的极限水平。但在自然语言领域,目前的局面仍旧显得比较混乱。”

孟繁岐说到这里,不少稍微懂得一些领域内幕的人心中免不了有些腹诽,“什么叫深度学习在图像领域一枝独秀,整个儿就是你一个人在秀。”

“在目前的序列问题领域,传统的语言技术,效果也还不错,有着不少的应用。基于深度学习的卷积网络和循环网络,相互之间各有千秋。我个人的感觉是,我们学界总体还是非常迷茫,不知道未来应该主要发展哪个方向,不知道哪个方向才是正确的。”

“对于这个现象,这个问题,我给出的答案是,它们都是不够好的。目前序列问题发展的最好方向既不是卷积网络,也不是循环网络,而应该是注意力机制。”

“基于这种机制,我们放弃了卷积和循环的模式,提供了一种全新的建模方式,它的名字叫做Transformer,T方法。”

孟繁岐说到这里,就没有再继续详细解释T方法的结构和原理了,这一次的宣布,主要目的还是为了流量和关注度,大部分民众,以及现在现场的人员,都是不大可能能够理解其中原理的。

继续往下说,只会是对牛弹琴,多说无益。

只有少部分在现场的人懂得这个新范式的意义,比如DeepMind的同事们。

不过他们早就已经接触到代码了,此刻并不会感到惊讶,也不需要孟繁岐过多的解释。

“具体的原理和推导,我们很快会有论文公布出来,在这里就不耽误大家的时间了。”孟繁岐非常清楚,这次最核心的地方还是要展现这种方法在海量问题和数据上的强大能力,应该抓着实验结果多吹一吹,如果尽量能用普通人可以感受到的方式,那就更好了。

“Transformer模型是一种先进的深度学习模型,既可以用于语音处理任务,也可以用于自然语言处理任务。我们已经在诸多领域使用它取得了巨大的进展,我在这里借用大家几分钟,做一个快速的展示。”

所有的观众们刚刚消化了阿尔法围棋这个围棋神明的事实,正是对人工智能有滤镜的时候。

“首先,机器翻译。我大量采用了注意力机制来捕获输入句子和输出句子之间的关联,从而使翻译质量得到了很大的提升。”

本章未完,点击下一页继续阅读。