近似最近邻搜索算法Annoy
本文以 中的点集来作为案例,介绍 Annoy(APPROXIMATE NEAREST NEIGHBORS OH YEAH)算法的基本思想和算法原理。
本文以 R2 中的点集来作为案例,介绍 Annoy(APPROXIMATE NEAREST NEIGHBORS OH YEAH)算法的基本思想和算法原理。
ANN最近邻搜索广泛应用在各类搜索、分类任务中,在超大的数据集上因为效率原因转化为ANN,常见的算法有KD树、LSH、IVFPQ和本文提到的HNSW。
本文介绍了大型语言模型中的RAG(检索增强生成,Retrieval-Augmented Generation)技术,深入探讨了RAG的三大组成部分:检索、生成和增强,以及RAG的不同范式。
本文介绍了一篇关于RAG的论文,该文提出了一种称为自我反思检索增强生成(Self-RAG)的框架,其通过检索和自我反思来提高LM的质量和真实性。
上海交大 IPADS 实验室推出的开源推理框架 PowerInfer,让大模型推理速度加快了 11 倍。而且不用量化,就用 FP16 精度,也能让 40B 模型在个人电脑上运行;如果加入量化,2080 Ti 也能流畅运行 70B 模型。
LATS
是一种利用大型语言模型(LLMs)进行决策的框架,它将LLMs作为代理、价值函数和优化器,以增强决策能力。LATS采用蒙特卡罗树搜索作为模型,利用外部反馈的环境提供更加灵活和适应性的问题解决机制。LATS在HumanEval上使用GPT-4实现了94.4%的编程得分,在WebShop上使用GPT-3.5实现了平均得分75.9。
S-LoRA 将所有Adapter存储在主存中,并将当前运行的查询使用的Adapter获取到 GPU 内存。为了有效利用GPU内存并减少碎片,S-LoRA提出了统一分页(Unified Paging)。
该文介绍了一种名为XOT
的提示技术,它增强了像GPT-3和GPT-4这样的大型语言模型(llm)解决复杂问题的潜力。
测试集格式一致为少量的query和大量的corpus,根据query来搜索corpus,每个query对应一个corpus作为正确的召回结果。
本文介绍东南大学发表的一篇关于KBQA的论文综述,详细介绍了复杂事实性问题的处理框架。