LangChain:概念术语
accttodo 12/31/2025 大模型LLM应用开发LangChain
目录
参考
# LangChain:概念术语
以下是LangChain学习中常见名词或概念的系统总结:
# 1. 核心概念
名词 | 解释 |
---|---|
Loader(加载器) | 从不同数据源(如PDF、网页、数据库)加载数据的工具,例如 DirectoryLoader 、PDFLoader 。 |
Document(文档) | Loader加载的原始数据会被转换成Document对象,包含文本内容和元数据。 |
Text Splitter(文本分割器) | 将长文本分割为小片段(Chunk),以适应LLM的Token限制(如 RecursiveCharacterTextSplitter )。 |
Embedding(嵌入) | 将文本转换为向量表示的技术(如OpenAI Embeddings),用于衡量文本相关性。 |
Vectorstores(向量数据库) | 存储文档向量并支持相似性搜索的数据库(如Chroma、Milvus、Pinecone)。 |
Chain(链) | 封装任务的工作流,例如 LLMChain (基础链)、RetrievalQA (检索问答链)。 |
Agent(代理) | 动态选择工具(Tools)并执行复杂任务的组件,通过LLM决策调用顺序(如 Zero-shot React 代理)。 |
Tools(工具) | Agent可调用的功能模块(如Google搜索、计算器、自定义工具)。 |
Memory(记忆) | 存储对话历史,实现多轮对话上下文管理(如 ChatMessageHistory )。 |
# 2. 关键工具与技术
名词 | 解释 |
---|---|
LoRA(低秩适配) | 微调大模型的轻量级技术,通过矩阵分解减少参数量,适合低资源场景。 |
p-tuning v2 | 提示微调技术,优化提示模板提升模型效果。 |
Token(标记) | LLM处理的最小文本单元,分词策略包括BPE(字节对编码)、子词分词等。 |
Milvus | 云原生向量数据库,支持元数据和向量混合存储,适用大规模相似性搜索。 |
Faiss | Facebook开源的向量索引库,高效支持稠密向量搜索(CPU/GPU)。 |
Pinecone | 全托管云原生向量数据库,无需自建基础设施。 |
Gradio | 快速构建AI交互界面的Python库,适合原型开发。 |
Streamlit | 高级Web应用框架,支持复杂数据可视化,适合生产级应用。 |
# 4. 进阶概念
名词 | 解释 |
---|---|
Structured Output(结构化输出) | 使用 Output Parsers 将LLM输出解析为JSON等结构化数据。 |
RetrievalQA | 结合向量检索与问答的链,从知识库中提取信息生成答案。 |
OpenAI Functions | 调用外部API的工具集成(如Zapier连接Gmail/日历)。 |
Chain Types | 链的类型:stuff (单次处理)、map_reduce (分段总结)、refine (迭代优化)。 |