近似最近邻搜索算法Annoy

近似最近邻搜索算法Annoy

本文以 $R^2$ 中的点集来作为案例，介绍 Annoy（APPROXIMATE NEAREST NEIGHBORS OH YEAH）算法的基本思想和算法原理。

最后的开神-wkyc大约 3 分钟

向量检索：从Delaunay graph到HNSW Graph

向量检索：从Delaunay graph到HNSW Graph

ANN最近邻搜索广泛应用在各类搜索、分类任务中，在超大的数据集上因为效率原因转化为ANN，常见的算法有KD树、LSH、IVFPQ和本文提到的HNSW。

最后的开神-wkyc大约 6 分钟

RAG增强技术研究综述

RAG增强技术研究综述

本文介绍了大型语言模型中的RAG（检索增强生成，Retrieval-Augmented Generation）技术，深入探讨了RAG的三大组成部分：检索、生成和增强，以及RAG的不同范式。

sunhb大约 10 分钟

Self-RAG：通过自我反思学习检索、生成和批判

Self-RAG：通过自我反思学习检索、生成和批判

本文介绍了一篇关于RAG的论文，该文提出了一种称为自我反思检索增强生成（Self-RAG）的框架，其通过检索和自我反思来提高LM的质量和真实性。

Memory-hjj大约 5 分钟

QA类信息文本检索模型和数据集汇总

QA类信息文本检索模型和数据集汇总

测试集格式一致为少量的query和大量的corpus，根据query来搜索corpus，每个query对应一个corpus作为正确的召回结果。

最后的开神-wkyc大约 4 分钟

复杂知识库问答综述

复杂知识库问答综述

本文介绍东南大学发表的一篇关于KBQA的论文综述，详细介绍了复杂事实性问题的处理框架。

猞猁-zlj大约 11 分钟

基于检索增强的文本生成调研

基于检索增强的文本生成调研

本文旨在对基于检索增强的文本生成方法进行调研。它首先强调了检索增强生成的泛化范式，然后根据不同的任务回顾了相应的方法,包括对话响应生成、机器翻译和其他生成任务。最后,它指出了一些在最近的方法之上促进未来研究的有前景的方向。

最后的开神-wkyc大约 7 分钟

如何通过大模型实现外挂知识库优化

如何通过大模型实现外挂知识库优化

大模型时代，通常采用向量召回的方式从文档库里召回和用户问题相关的文档片段，输入到LLM中来增强模型回答质量。本文分享两篇通过大模型的能力增强召回效果的文章，这两篇文章的内容都已经加入了langchain的标准组件，但是都有一些特定的使用场景。

猞猁-zlj大约 7 分钟

大语言模型应用中的文本分块策略

大语言模型应用中的文本分块策略

这篇博文讨论了在构建与大语言模型（LLM）相关的应用中使用的文本分块策略。分块是将大段文本分解为较小段的过程，它对于优化向量数据库返回内容相关性至关重要。

研究生鱼皮-yjf大约 11 分钟

学习稀疏检索的统一框架

学习稀疏检索的统一框架

学习稀疏检索是一种结合机器学习和信息检索的方法，旨在优化文本检索效果。通过学习模型，将查询和文档映射到稀疏表示空间，实现高效的检索。在训练阶段，利用已标记的查询-文档对和相关性标签，通过优化模型参数，学习如何选择、加权和组合特征，使相关文档在稀疏表示中更接近查询。学习稀疏检索方法可应用于大规模信息检索任务，如搜索引擎和推荐系统，以提高检索效率和准确性。

研究生鱼皮-yjf大约 13 分钟