跳至主要內容
基于Encoder和Decoder的三种架构

基于Encoder和Decoder的三种架构

Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。


最后的开神-wkyc大约 3 分钟语言模型Transformer
Unlimiformer 介绍

Unlimiformer 介绍

上海人工智能实验室联合商汤科技共同提出一种新的 UniFormer(Unified Transformer)框架, 它能够将卷积与自注意力的优点通过 Transformer 进行无缝集成。UniFormer 模块的相关性聚合在浅层与深层分别配备了局部全局token,能够同时解决冗余与依赖问题,实现了高效的特征学习。


研究生鱼皮-yjf大约 6 分钟语言模型摘要Transformer机器学习
大幅优化推理速度-ByteTransformer

大幅优化推理速度-ByteTransformer

论文提出了字节跳动的GPU Transformer推理库——ByteTransformer。针对自然语言处理常见的可变长输入,论文提出了一套优化算法,这些算法在保证运算正确性的前提下,成功避免了传统实现中的冗余运算,实现了端到端的推理过程的大幅优化。


猞猁-zlj大约 4 分钟语言模型Transformer优化字节