PowerInfer：消费级显卡运行大语言模型

PowerInfer：消费级显卡运行大语言模型

上海交大 IPADS 实验室推出的开源推理框架 PowerInfer，让大模型推理速度加快了 11 倍。而且不用量化，就用 FP16 精度，也能让 40B 模型在个人电脑上运行；如果加入量化，2080 Ti 也能流畅运行 70B 模型。

最后的开神-wkyc大约 9 分钟

知识编辑分享

知识编辑分享

LLMs 受到知识截断和谬误问题的限制情况下，如何高效更新LLMs的参数化知识进而调整特定行为。为解决上述问题，本文介绍EasyEdit知识编辑框架和Memory based、Meta-learning 和 Locate-Then-Edit三种知识编辑方法。

shb大约 4 分钟

混合专家模型

混合专家模型

混合专家模型（Mixture-of-Experts，MoE）为由许多独立网络组成的系统提出了一种新的监督学习过程，每个网络都学习处理完整训练案例集的子集。新过程可以被视为多层监督网络的模块化版本，也可以被视为竞争性学习的关联版本。

最后的开神-wkyc大约 5 分钟

OpenAI可用大语言模型分类和信息

OpenAI可用大语言模型分类和信息

OpenAI包含许多大语言模型，主要分为两大类：文本补全模型和聊天补全模型。其中聊天补全模型本质是文本补全模型添加聊天Prompt框架之后进行文本补全。

最后的开神-wkyc大约 2 分钟

ChatGLM2架构升级

ChatGLM2架构升级

ChatGLM2-6B使用了GLM的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B在MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。

最后的开神-wkyc大约 6 分钟

基于Encoder和Decoder的三种架构

基于Encoder和Decoder的三种架构

Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。

最后的开神-wkyc大约 3 分钟

GPT2论文分享与架构分析

GPT2论文分享与架构分析

GPT-2 模型由多层单向 Transformer 的解码器部分构成，本质上是自回归模型，自回归的意思是指，每次产生新单词后，将新单词加到原输入句后面，作为新的输入句。

最后的开神-wkyc大约 6 分钟

PPO：从策略梯度算法到近端策略优化算法

PPO：从策略梯度算法到近端策略优化算法

近端策略优化算法（Proximal Policy Optimization，PPO）是一种策略梯度优化算法，它对标准的策略梯度方法做了改进，使得训练更加稳定。PPO的主要思想是：在每个更新步骤中，我们要确保当前的策略参数不会偏离旧策略参数太远。

最后的开神-wkyc大约 6 分钟

GPT论文分享：Improving Language Understanding by Generative Pre-Training

GPT论文分享：Improving Language Understanding by Generative Pre-Training

作者证明了通过在大量未标注文本上对语言模型进行生成式预训练，然后在每个特定任务上进行歧视性微调，可以在这些任务上实现巨大收益。与以前的方法相比，他们在微调期间利用面向任务的输入转换来实现有效的转移，同时对模型架构所需的更改最小。

最后的开神-wkyc大约 2 分钟

LLM如何重映现实世界（一）：LLM的信息压缩能力与知识存储方式分享

LLM如何重映现实世界（一）：LLM的信息压缩能力与知识存储方式分享

本文主要分享的内容为以下两点。
(1) LLM的信息压缩能力与其智能水平的关系
(2) GPT对知识的提取与存储方式

shb大约 7 分钟

跳转到: