跳至主要內容
PowerInfer:消费级显卡运行大语言模型

PowerInfer:消费级显卡运行大语言模型

上海交大 IPADS 实验室推出的开源推理框架 PowerInfer,让大模型推理速度加快了 11 倍。而且不用量化,就用 FP16 精度,也能让 40B 模型在个人电脑上运行;如果加入量化,2080 Ti 也能流畅运行 70B 模型。


最后的开神-wkyc大约 9 分钟语言模型Llama推理
知识编辑分享

知识编辑分享

LLMs 受到知识截断和谬误问题的限制情况下,如何高效更新LLMs的参数化知识进而调整特定行为。为解决上述问题,本文介绍EasyEdit知识编辑框架和Memory based、Meta-learning 和 Locate-Then-Edit三种知识编辑方法。


shb大约 4 分钟语言模型LLM微调技术知识编辑
混合专家模型

混合专家模型

混合专家模型(Mixture-of-Experts,MoE)为由许多独立网络组成的系统提出了一种新的监督学习过程,每个网络都学习处理完整训练案例集的子集。新过程可以被视为多层监督网络的模块化版本,也可以被视为竞争性学习的关联版本。


最后的开神-wkyc大约 5 分钟语言模型模型架构
OpenAI可用大语言模型分类和信息

OpenAI可用大语言模型分类和信息

OpenAI包含许多大语言模型,主要分为两大类:文本补全模型和聊天补全模型。其中聊天补全模型本质是文本补全模型添加聊天Prompt框架之后进行文本补全。


最后的开神-wkyc大约 2 分钟语言模型OpenAI
ChatGLM2架构升级

ChatGLM2架构升级

ChatGLM2-6B使用了GLM的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B在MMLU(+23%)、CEval(+33%)、GSM8K(+571%)、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。


最后的开神-wkyc大约 6 分钟语言模型GLM
基于Encoder和Decoder的三种架构

基于Encoder和Decoder的三种架构

Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。


最后的开神-wkyc大约 3 分钟语言模型Transformer
GPT2论文分享与架构分析

GPT2论文分享与架构分析

GPT-2 模型由多层单向 Transformer 的解码器部分构成,本质上是自回归模型,自回归的意思是指,每次产生新单词后,将新单词加到原输入句后面,作为新的输入句。


最后的开神-wkyc大约 6 分钟语言模型GPT
PPO:从策略梯度算法到近端策略优化算法

PPO:从策略梯度算法到近端策略优化算法

近端策略优化算法(Proximal Policy Optimization,PPO)是一种策略梯度优化算法,它对标准的策略梯度方法做了改进,使得训练更加稳定。PPO的主要思想是:在每个更新步骤中,我们要确保当前的策略参数不会偏离旧策略参数太远。


最后的开神-wkyc大约 6 分钟语言模型模型强化学习
GPT论文分享:Improving Language Understanding by Generative Pre-Training

GPT论文分享:Improving Language Understanding by Generative Pre-Training

作者证明了通过在大量未标注文本上对语言模型进行生成式预训练,然后在每个特定任务上进行歧视性微调,可以在这些任务上实现巨大收益。与以前的方法相比,他们在微调期间利用面向任务的输入转换来实现有效的转移,同时对模型架构所需的更改最小。


最后的开神-wkyc大约 2 分钟语言模型模型深度学习
2