LangChain:概念术语

12/31/2025 大模型LLM应用开发LangChain

目录


参考


# LangChain:概念术语

以下是LangChain学习中常见名词或概念的系统总结:


# 1. 核心概念

名词 解释
Loader(加载器) 从不同数据源(如PDF、网页、数据库)加载数据的工具,例如 DirectoryLoaderPDFLoader
Document(文档) Loader加载的原始数据会被转换成Document对象,包含文本内容和元数据。
Text Splitter(文本分割器) 将长文本分割为小片段(Chunk),以适应LLM的Token限制(如 RecursiveCharacterTextSplitter)。
Embedding(嵌入) 将文本转换为向量表示的技术(如OpenAI Embeddings),用于衡量文本相关性。
Vectorstores(向量数据库) 存储文档向量并支持相似性搜索的数据库(如Chroma、Milvus、Pinecone)。
Chain(链) 封装任务的工作流,例如 LLMChain(基础链)、RetrievalQA(检索问答链)。
Agent(代理) 动态选择工具(Tools)并执行复杂任务的组件,通过LLM决策调用顺序(如 Zero-shot React 代理)。
Tools(工具) Agent可调用的功能模块(如Google搜索、计算器、自定义工具)。
Memory(记忆) 存储对话历史,实现多轮对话上下文管理(如 ChatMessageHistory)。

# 2. 关键工具与技术

名词 解释
LoRA(低秩适配) 微调大模型的轻量级技术,通过矩阵分解减少参数量,适合低资源场景。
p-tuning v2 提示微调技术,优化提示模板提升模型效果。
Token(标记) LLM处理的最小文本单元,分词策略包括BPE(字节对编码)、子词分词等。
Milvus 云原生向量数据库,支持元数据和向量混合存储,适用大规模相似性搜索。
Faiss Facebook开源的向量索引库,高效支持稠密向量搜索(CPU/GPU)。
Pinecone 全托管云原生向量数据库,无需自建基础设施。
Gradio 快速构建AI交互界面的Python库,适合原型开发。
Streamlit 高级Web应用框架,支持复杂数据可视化,适合生产级应用。

# 4. 进阶概念

名词 解释
Structured Output(结构化输出) 使用 Output Parsers 将LLM输出解析为JSON等结构化数据。
RetrievalQA 结合向量检索与问答的链,从知识库中提取信息生成答案。
OpenAI Functions 调用外部API的工具集成(如Zapier连接Gmail/日历)。
Chain Types 链的类型:stuff(单次处理)、map_reduce(分段总结)、refine(迭代优化)。

上次更新时间: 6/19/2025, 4:12:57 PM