本文来自微信公众号:品玩 (ID:pinwancool),作者:Neil Shen,原文标题:《ChatGPT的“底座”Transformer诞生六周年:在它之后世界地覆天翻》,头图来自:unsplash
理解了人类的语言,就理解了世界。
(资料图片)
一直以来,人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式,但进展始终不大。
因为人类的语言太复杂,太多样,而组成它背后的机制,往往又充满着不可名状的规律。
过去人们在自然语言处理中多采用 RNN 循环神经网络,它十分类似于人类逻辑上对语言的理解——强调上下文顺序、前后文逻辑关系。
但是这种顺序方式让 RNN 无法实现并行计算,也就是说,它的速度十分缓慢,而规模也很难扩大。
直到 2017 年 6 月 12 日,一篇名为Attention is All You Need的论文被提交到预印论文平台 arXiv 上。
一切从此改变。
Transformer 的提出直接导致了现在的生成式 AI 风暴。机器好像在一瞬间就学会了如何与人类自如交流。
在Transformer提出前,人们讨论的是如何让智能音箱听懂你的提问,而Transformer之后,人们讨论的重点变成了该如何防范AGI 通用智能对人类造成的危险。
Attention is All You Need这篇论文的重要性可见一斑,6 月 12 号正是它六周岁生日。
Transformer 这个名字据说来自论文联合作者之一的Llion Jones,原因无它,因为 attention (注意力)这个词听上去实在是有点不酷。
Llion Jones 也是目前八个论文联合作者中唯一一个还在谷歌上班的人。剩下的七个人都纷纷离职创业。最有名的大概是Character AI,创始人是论文作者之一的Noam Shazeer,他之前在谷歌工作了 20 年,负责构建了 LaMDA。
那么Transformer 究竟有什么点石成金的魔力呢?我们尽量用通俗易懂的话来解释。
Transformer 彻底抛弃了前面提到的 RNN 循环神经网络这套逻辑,它完全由自注意力机制组成。
大家都有过这样的经验,打乱个一子句中字词序顺的多很时候不并响影对你句子的解理。比如上面这句。
这是因为人脑在处理信息时会区分权重,也就是说,我们的注意力总是被最重要的东西吸引走,次要的细节则被忽略。
Transformer 模仿了这一点,它能够自动学习输入的序列中不同位置之间的依赖关系并计算其相关性(而不是对整个输入进行编码)。这让针对序列的建模变得更加容易和精准。
在深度学习中引入这种机制,产生了两个明显好处。
一方面,并行计算得以实现,基于Transformer架构的模型可以更好地利用 GPU 进行加速。由此,Transformer为预训练模型的兴起奠定了基础,随着模型的规模越来越大,神经网络开始出现所谓“智能涌现”,这正是人们认为像 GPT 这样的大模型打开了 AGI 通用人工智能大门的原因。
另一方面,尽管最开始Transformer的提出是被用来解决自然语言,更准确地说,机器翻译问题,但很快人们就发现,这种注意力机制可以推广到更多领域——比如语音识别和计算机视觉。基于Transformer的深度学习方法实际上适用于任何序列——无论是语言还是图像,在机器眼中它们不过是一个个带规律的向量。
在这两种优点的共同作用下,人工智能领域迎来了前所未有的爆发,后面的故事我们都知道了。
下面是关于Transformer的几个 fun facts。前面三个来自英伟达 AI 科学家 Jim Fan 庆祝Transformer架构被提出六周年的推文。
1. 注意力机制不是Transformer提出的。
注意力机制是深度学习三巨头之一的Yoshua Bengio于 2014 年提出的。这篇名为 Neural Machine Translation by Jointly Learning to Align and Translate 的论文中首次提出了注意力机制。堪称自然语言处理里程碑级的论文。在那之后许多人都投身于对注意力机制的研究,但直到Transformer论文的出现大家才明白——相对别的因素而言,只有注意力机制本身才是重要的。
2. Transformer和注意力机制最初都只为了解决机器翻译问题。
未来人们回溯 AGI 的起源,说不定要从谷歌翻译开始。尽管注意力机制几乎可以用在深度学习的所有领域,但一开始不管是Yoshua Bengio的论文还是Transformer架构,都单纯是为了提高机器翻译的效果。
3. Transformer一开始并未引人注意,至少对NeurIPS来说如此。
NeurIPS 2017上一共有 600 多篇论文被接受,Transformer 是其中之一,但也仅此而已。讽刺的是当年NeurIPS上的三篇最佳论文联合起来的引用次数只有五百多次。
4. OpenAI 在Transformer发布的第二天就 all in 。
虽然很多人一开始并没有意识到Transformer的威力,但这其中显然不包括 OpenAI。他们在Transformer 甫一发布就迅速意识到了这意味着什么,并迅速决定完全投入其中。
实际上,GPT 中的 T 正是Transformer。
5. Transformer几乎立刻取代了 LSTM 的地位。
在Transformer提出之前,自然语言处理使用广泛的是名叫长短期记忆网络 LSTM 的序列生成模型,它的一大缺陷是对输入内容的先后顺序敏感,因此无法大规模使用并行网络计算。
然而在Transformer被提出之前,许多人都认为 LSTM 将在很长一段时间内主导NLP的发展。
本文来自微信公众号:品玩 (ID:pinwancool),作者:Neil Shen
关键词:
(责任编辑:黄俊飞)推荐内容
- Transformer诞生六周年:在它之后世界地
- 焦点速递!气温≥35℃超过2天,猝死风险
- 恩威医药:丰富产品矩阵 受让新品上市许
- 世界观速讯丨嶫
- 每日热议!广西柳州莲藕抢鲜上市 藕农抢
- 环球速讯:业内:百度业务扩展趋势向好
- 全球热点评!珍惜杭州这几天舒服的初夏模
- 正负值尴尬!李梦出场时间创新高,三分球
- 南京医科大学积极推进医学教育改革 每日
- 官宣!上海二批次土拍将采用摇号模式,触
- 新国都6月14日快速回调
- 冠军+冠军+冠军!同济人,好样的!
- 青岛银行:6月13日融券卖出金额8.74万元
- 看热讯:国际乒联更新世界排名
- 厦门市第十二批拔尖人才选拔开始
- PCIe 6.0还没用上:PCIe 7.0这就来了!
- 速递!青岛今天多云转晴,市区最高气温25
- 出版专业资格考试《出版专业基础知识(中
- 应付账款借方表示 应付账款在借方表示什
- 经度地带性纬度地带性非地带性_经度地带
- 心苦心累的文案
- 全球新消息丨董建新_关于董建新的简介
- 每日看点!博俊科技拟通过全资子公司常州
- 【独家】2023法网,金花尽情绽放,少年崭
- 隆回县组织高二学生参加“高考” 学
- 世界热文:《碟中谍7:致命清算(上)》
- 今年前5个月上海口岸消费品进口同比增17%
- 陈二雷消音器怎么找到的(陈二雷) 视点
- 达尔马资本首席投资官加里·杜根:我们在
- 世界视点!2023年6月13日硫酸铵价格最新
- 鹏华基本面投教系列 |港交所双柜台模式
- 世界快资讯:A股市场轮动频繁 主动量化
- 陕西渭南市文旅局局长妻子长期吃空饷?涉
- 【新视野】目前已发现可能适合人类生存的
- 魔道祖师:美颜相机暴露真实年龄,羡羡是
- 胃肠道肿瘤是吃出来的?!这几类人需要去
- 全球快讯:淄博烧烤,凉了?
- 全球今头条!《极限国度》“红牛”模拟器
- 创新引擎更强劲 澎湃发展新动能!济南在
- 天天快播:钓鱼竿什么牌子好鱼竿品牌排行
- 《双向奔赴》——关爱新就业形态劳动者④
- 国产新车报道:腾势X官图 7座中型SUV/将
- 世界热点评!电气风电:6月12日融资买入2
- 全球快播:港股内房股走高
- 中国光伏企业高管在慕尼黑被带走?德国警
- 李斌:降价不完全是为销量 有车主有家充
- 6月12日鸿博股份发布公告,其股东减持158
- 项目技术负责人需要什么证书和资质_项目
- 温州一企业发文件禁止婚外情和出轨:家庭
- 官方售价24.95万元起 新款奔驰长轴距A级上市
- 环球最新:扎职迅雷下载国语_扎职迅雷下载
- 康方生物(09926.HK):6月12日南向资金
- 思茅松无性系-墨江通关永马14号
- 记者实探:可容纳20个千亿级参数模型训练
- word2013单独一页变成横向 word单独一页变横向
- 电影定军山下载_电影定军山
- 环球观热点:光字组词两个字(光字组词)
- 防范“黑维修”有新渠道:“中消协帮您查
- 每人奖励15万元 洛阳两人获得省级见义勇
- 当前热门:今日30吴尊哪里开新区多长时间
- 心苦心累的文案
- 全球新消息丨董建新_关于董建新的简介
- 每日看点!博俊科技拟通过全资子公司常州
- 【独家】2023法网,金花尽情绽放,少年崭
- 隆回县组织高二学生参加“高考” 学
- 世界热文:《碟中谍7:致命清算(上)》
- 今年前5个月上海口岸消费品进口同比增17%
- 陈二雷消音器怎么找到的(陈二雷) 视点
- 达尔马资本首席投资官加里·杜根:我们在
- 世界视点!2023年6月13日硫酸铵价格最新
- 鹏华基本面投教系列 |港交所双柜台模式
- 世界快资讯:A股市场轮动频繁 主动量化
- 陕西渭南市文旅局局长妻子长期吃空饷?涉
- 【新视野】目前已发现可能适合人类生存的
- 魔道祖师:美颜相机暴露真实年龄,羡羡是
- 胃肠道肿瘤是吃出来的?!这几类人需要去
- 全球快讯:淄博烧烤,凉了?
- 全球今头条!《极限国度》“红牛”模拟器
- 创新引擎更强劲 澎湃发展新动能!济南在
- 天天快播:钓鱼竿什么牌子好鱼竿品牌排行
- 《双向奔赴》——关爱新就业形态劳动者④
- 国产新车报道:腾势X官图 7座中型SUV/将
- 世界热点评!电气风电:6月12日融资买入2
- 全球快播:港股内房股走高
- 中国光伏企业高管在慕尼黑被带走?德国警
- 李斌:降价不完全是为销量 有车主有家充
- 6月12日鸿博股份发布公告,其股东减持158
- 项目技术负责人需要什么证书和资质_项目
- 温州一企业发文件禁止婚外情和出轨:家庭
- 官方售价24.95万元起 新款奔驰长轴距A级上市
- 环球最新:扎职迅雷下载国语_扎职迅雷下载
- 康方生物(09926.HK):6月12日南向资金
- 思茅松无性系-墨江通关永马14号
- 记者实探:可容纳20个千亿级参数模型训练
- word2013单独一页变成横向 word单独一页变横向
- 电影定军山下载_电影定军山
- 环球观热点:光字组词两个字(光字组词)
- 防范“黑维修”有新渠道:“中消协帮您查
- 每人奖励15万元 洛阳两人获得省级见义勇
- 当前热门:今日30吴尊哪里开新区多长时间
- 全球热资讯!小渔村里,非法捕捞缘何频频
- 为什么你应该把TikTok从你的手机上拿下来
- 今日热讯:西安市红会医院荣获国家卫健委
- 天天热推荐:老人误将手机、钱包当垃圾,
- 似蛇不是蛇!广西大明山保护区发现新记录
- 环球快看点丨眼镜来了!苹果大招终发布
- 假面骑士Geats:汇总剧中发售的武器价格
- 美国得州发生两起枪击事件 已致1死10伤
- 环球热消息:专家对当前英国房价的看法以
- 夏收进行时 | 地头来了“小药箱”
- 日常生活:网上挣钱的方法有哪些如何在网
- 良品铺子脆枣是油炸的(脆枣是油炸的)_
- 天天热资讯!二进制手表怎么调(二进制手
- 高质量发展调研行 | 在智慧港口见证大
- 虞书欣方否认与吴建豪恋情:不再陷入自证
- 科幻恐怖FPS新作《RIPOUT》预告 展示危
- 每日时讯!千名爱好者 秀“功夫”
- 银河系中心是外星人的信标?新算法专注聆
- 环球快报:毛巾怎么洗白 发黄的毛巾怎么
- 焦点快播:新台两地自媒体人:用镜头架起