LangChain：概念术语

accttodo 12/31/2025 大模型LLM应用开发LangChain

目录

1. 核心概念
- 2. 关键工具与技术
- 4. 进阶概念

参考

# LangChain：概念术语

以下是LangChain学习中常见名词或概念的系统总结：

# 1. 核心概念

名词	解释
Loader（加载器）	从不同数据源（如PDF、网页、数据库）加载数据的工具，例如 `DirectoryLoader`、`PDFLoader`。
Document（文档）	Loader加载的原始数据会被转换成Document对象，包含文本内容和元数据。
Text Splitter（文本分割器）	将长文本分割为小片段（Chunk），以适应LLM的Token限制（如 `RecursiveCharacterTextSplitter`）。
Embedding（嵌入）	将文本转换为向量表示的技术（如OpenAI Embeddings），用于衡量文本相关性。
Vectorstores（向量数据库）	存储文档向量并支持相似性搜索的数据库（如Chroma、Milvus、Pinecone）。
Chain（链）	封装任务的工作流，例如 `LLMChain`（基础链）、`RetrievalQA`（检索问答链）。
Agent（代理）	动态选择工具（Tools）并执行复杂任务的组件，通过LLM决策调用顺序（如 `Zero-shot React` 代理）。
Tools（工具）	Agent可调用的功能模块（如Google搜索、计算器、自定义工具）。
Memory（记忆）	存储对话历史，实现多轮对话上下文管理（如 `ChatMessageHistory`）。

# 2. 关键工具与技术

名词	解释
LoRA（低秩适配）	微调大模型的轻量级技术，通过矩阵分解减少参数量，适合低资源场景。
p-tuning v2	提示微调技术，优化提示模板提升模型效果。
Token（标记）	LLM处理的最小文本单元，分词策略包括BPE（字节对编码）、子词分词等。
Milvus	云原生向量数据库，支持元数据和向量混合存储，适用大规模相似性搜索。
Faiss	Facebook开源的向量索引库，高效支持稠密向量搜索（CPU/GPU）。
Pinecone	全托管云原生向量数据库，无需自建基础设施。
Gradio	快速构建AI交互界面的Python库，适合原型开发。
Streamlit	高级Web应用框架，支持复杂数据可视化，适合生产级应用。

# 4. 进阶概念

名词	解释
Structured Output（结构化输出）	使用 `Output Parsers` 将LLM输出解析为JSON等结构化数据。
RetrievalQA	结合向量检索与问答的链，从知识库中提取信息生成答案。
OpenAI Functions	调用外部API的工具集成（如Zapier连接Gmail/日历）。
Chain Types	链的类型：`stuff`（单次处理）、`map_reduce`（分段总结）、`refine`（迭代优化）。

LangChain：安装指南 Dify