Transformer 标签

基于Encoder和Decoder的三种架构

Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。

最后的开神-wkyc大约 3 分钟

Unlimiformer 介绍

上海人工智能实验室联合商汤科技共同提出一种新的 UniFormer（Unified Transformer）框架，它能够将卷积与自注意力的优点通过 Transformer 进行无缝集成。UniFormer 模块的相关性聚合在浅层与深层分别配备了局部全局token，能够同时解决冗余与依赖问题，实现了高效的特征学习。

研究生鱼皮-yjf大约 6 分钟

大幅优化推理速度-ByteTransformer

论文提出了字节跳动的GPU Transformer推理库——ByteTransformer。针对自然语言处理常见的可变长输入，论文提出了一套优化算法，这些算法在保证运算正确性的前提下，成功避免了传统实现中的冗余运算，实现了端到端的推理过程的大幅优化。

猞猁-zlj大约 4 分钟