LLM技术术语
2025/12/31大约 2 分钟
NPL 自然语言处理(Natural Language Processing)工具
面向计算机领域的文本分析与理解技术,通过算法与模型处理人类语言数据,核心工具包括:
基础文本处理库
- NLTK(Natural Language Toolkit):提供分词、词性标注、句法分析等基础功能,适合学术研究与教学场景。
- spaCy:工业级高性能库,支持多语言模型、依存句法分析与命名实体识别,处理速度比传统工具快10倍以上。
- jieba:专为中文设计的分词工具,支持自定义词典与并行处理,电商评论分析准确率达95%。
深度学习框架
- Hugging Face Transformers:集成BERT、GPT等预训练模型,支持快速微调以适应文本分类、问答系统等任务,覆盖100+语言。
- TensorFlow/PyTorch NLP扩展包:如TensorFlow Text、TorchText,提供词向量训练与序列建模接口。
端到端应用平台
- Dialogflow:构建对话式AI,支持意图识别与多轮对话管理;
- Rasa:开源对话系统框架,企业级客服机器人开发首选。
RAG
检索增强生成(RAG)的整体工作流程:

名词
英文术语 | 中文译法 | 适用场景 |
---|---|---|
Prompt | 提示词 | 用户与大模型交互的单次指令输入(如问题、描述、关键词) |
Prompt Enginnering | 提示工程 | 系统性优化提示词设计以提升模型输出质量的方法论(如模板设计、思维链技术) |
Embedding | 文本嵌入(推荐) | 通用场景,覆盖词/句/文档级向量化(如BERT、OpenAI Embeddings) |
嵌入(简称) | 非正式技术交流(如:“模型的嵌入层”) | |
Word Embedding | 词嵌入 | 仅限单词级向量化(如Word2Vec、GloVe) |
Vector Embedding | 嵌入向量 | 强调输出结果(如存储到向量数据库的数值) |