大模型
2025/8/8大约 28 分钟
全球AI大模型已形成中美双强格局,截至2025年12月,顶级模型在参数规模、多模态能力和推理效率上形成明显梯队。
一、国际巨头阵营
| 公司名称 | 成立时间/背景 | 旗舰大模型系列 | 核心技术方向 | 行业定位与优势 | 2025年最新动态 |
|---|---|---|---|---|---|
| OpenAI | 2015年成立,由埃隆·马斯克、山姆·阿尔特曼等联合创办,初始定位为非营利性AI研究公司 | GPT系列(GPT-5、GPT-5.1、GPT-5 mini、GPT-4o) | 动态路由机制、自适应思考时间、多模态融合、工具链集成 | 全球AI领域标杆企业,通用大模型性能领先,代码生成与工具调用能力突出,商业化落地成熟 | 推出GPT-5.1,新增24小时高级提示缓存、shell等工具;API日调用量超50亿次,企业用户超700万 |
| Anthropic | 2021年成立,创始团队多来自OpenAI,专注于AI安全对齐技术研究 | Claude系列(Claude Opus 4.5、Claude 3.5 Sonnet) | Constitutional AI安全框架、长文本处理、安全对齐技术 | AI安全领域领军者,有害内容生成率<0.001%,法律/金融等合规场景适配性强 | 推出开源版Claude 3.5 Sonnet;Claude Opus 4.5降价67%,性价比显著提升 |
| Google DeepMind | DeepMind 2010年成立,2022年与Google AI合并为Google DeepMind,依托Google全栈生态优势 | Gemini系列(Gemini 3 Pro、Gemini 2.5 Pro、Gemini Ultra) | 液态神经网络、动态参数调整、Deep Think深度推理模式、多模态实时交互 | 全栈生态优势显著(TPU芯片-YouTube数据),多模态能力与长上下文处理领先,科研与商业场景全面覆盖 | 2025年11月发布Gemini 3.0系列,LMSys Elo排行榜以1501分刷新纪录;整合进搜索AI Mode,覆盖20亿月活用户 |
| xAI | 2023年7月成立,创始团队含11名来自Google DeepMind、OpenAI等机构的成员,含4名华人 | Grok系列(Grok 4、Grok 4.1 Fast、Grok 4.1 Thinking) | 实时信息理解、极速响应架构、情感智能、X(推特)数据集成 | 依托X平台实时数据优势,聚焦C端实时资讯与个性化交互场景,情感智能与响应速度突出 | 2025年7月拟融资120亿美元用于芯片采购与数据中心建设;发布Grok 4,号称“世界上最强AI模型” |
| Meta | 2004年成立(前身为Facebook),2022年起加大AI领域投入,开源生态布局领先 | Llama系列(Llama 4 Maverick、Llama 3.1、Llama 3.2) | MoE架构、开源模型优化、边缘设备适配、多模态轻量化 | 开源大模型领域领军者,Apache 2.0协议支持免费商用,社区资源丰富,轻量化部署成本优势显著 | Llama 4 Maverick在Hugging Face下载量超1.2亿次;开源生态支持2000+插件开发,边缘推理成本低至0.0003美元/千tokens |
1. OpenAI
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| GPT-5 | 1.8万亿参数,128K上下文,支持文本与视觉模态,40万背景信息长度、13万最大输出标记数;具备动态路由机制(快速响应/深度推理双模式) | 代码生成能力突出,SWE-bench得分76.3%;动态路由机制适配不同复杂度任务 | 复杂编程、科学研究、企业战略规划 | 输入1.25美元/百万tokens,输出10.00美元/百万tokens |
| GPT-5.1 | 基于GPT-5架构,新增高级提示缓存(最长24小时)、无推理模式及apply_patch、shell工具;具备自适应思考时间机制 | GRIND测试87.3%,工具调用精准;幻觉率进一步下降;简单任务响应速度较前代提升2-3倍 | 通用聊天、内容创作、客服问答、轻量级数据分析、智能体工作流构建 | 缓存输入Token比未缓存便宜90%,API日调用量超50亿次 |
| GPT-5 mini | 支持文本与视觉模态,40万背景信息长度、13万最大输出标记数;延续动态路由机制,轻量化设计 | 核心机制稳定,适配中小规模任务,部署门槛低 | 轻量化内容生成、基础问答场景 | 输入0.25美元/百万tokens,输出2.00美元/百万tokens |
| GPT-4o(推理专用) | 聚焦高效推理任务优化,架构适配快速响应需求 | 响应速度快,推理任务适配性强 | 实时推理、简单工具调用场景 | 约10美元/百万tokens,企业用户超700万 |
2. Anthropic
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| Claude Opus 4.5 | 5000亿参数,200K上下文(可解析15万字合同),采用Constitutional AI安全框架 | 被称为“最安全对齐模型”,Coding能力SOTA,SWE-bench Verified 82%;数学GSM8K测试97.72%,法律文书处理准确率96%,有害内容生成率<0.001%;支持30+小时持续复杂任务,Tool-Use & Agentic能力领先 | 代码生成与维护、复杂项目级Agent、高安全要求对话、法律文书审查、金融风控、网络安全漏洞修补 | 降价67%后性价比突出 |
| Claude 3.5 Sonnet(开源) | 采用Constitutional AI安全框架,支持64K输出tokens;开源架构适配二次开发 | 具备基础长文本处理和安全合规能力,开源特性降低开发门槛 | 长文档分析、客户服务智能体、中小团队定制化开发场景 | 起价3美元/百万输入tokens、15美元/百万输出tokens,批量处理可省50% |
3. Google DeepMind
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| Gemini 3 Pro(预览版) | 液态神经网络架构,支持动态参数调整,开放media_resolution参数,支持10 FPS高帧率视频分析;10M token上下文业界最长 | 原生多模态能力突出,新推理模式Deep Think在ARC-AGI-2拿下45.1%突破性分数;MMMU-Pro测试81%,超GPT-5.1(76%),空间定位准确率85.5%,屏幕理解准确率72.7% | 长文档总结、跨模态搜索、科研助手、智能体工作流、长视频分析 | AI Studio免费开放测试 |
| Gemini 2.5 Pro | 液态神经网络架构,1M token上下文 | 实时交互性能优异,语音对话延迟<200ms | 实时交互系统、工业设计、软件自动化操作场景 | 未明确公开,聚焦企业级实时交互服务 |
| Gemini Ultra | 液态神经网络架构(动态调整至10万亿参数) | 多模态融合能力顶尖;因果推理能力强,可逐帧分析快速动作并解释原理 | 高端科研计算、复杂多模态内容创作、医疗影像诊断场景 | 未明确公开,面向高端科研与商业定制场景 |
4. xAI
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| Grok 4 | 基于Twitter数据训练,架构优化实时信息理解能力 | 实时资讯GPQA测试87.5%,新闻聚合与动态查询响应迅速,具备基础情感智能 | 社交媒体交互、实时新闻分析场景 | 未明确公开,聚焦C端实时资讯服务 |
| Grok 4.1 Fast | 聚焦极速响应优化,轻量化推理架构 | 推理速度达172 tokens/s,延迟仅0.18秒;实时信息获取与处理能力升级 | 实时热点问答、游戏开发实时交互模块 | 未明确公开,适配高频次快速交互场景 |
| Grok 4.1 Thinking | 优化情感理解架构,支持实时接入X(推特)数据 | 情商高、写作“人味”浓,幻觉率降低;情感智能突出,能精准识别和回应复杂情绪 | 营销文案创作、个性化对话交互场景 | 未明确公开,面向个性化内容创作场景 |
5. Meta
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| Llama 4 Maverick | 17B×128 MoE架构,原生多模态模型,700亿-405B参数区间,128K上下文;全开源(Apache 2.0协议),支持LoRA微调 | 与DeepSeek-V3同等代码能力但参数减一半,性价比突出;社区微调资源丰富,单个H100主机即可运行 | 学术实验、垂域微调、边缘设备推理、企业私域大模型开发 | 边缘设备推理成本0.0003美元/千tokens,开源免费商用,Hugging Face下载量超1.2亿次 |
| Llama 3.1(开源) | 全开源(Apache 2.0协议),支持LoRA微调;成熟开源架构 | 具备基础通用能力,开源生态成熟,支持2000+插件开发 | 学术研究、轻量化部署、中小规模企业私有部署 | 开源免费商用,推理成本低,适配成本敏感场景 |
| Llama 3.2(轻量级) | 轻量级架构设计,聚焦边缘设备适配优化 | 推理效率高,轻量化部署成本极低,适配低资源设备 | 边缘计算、移动设备集成、轻量化问答场景 | 开源免费商用,部署门槛低 |
大模型对比
| 大模型系列 | 技术特性 | 核心能力 | 适用场景 | 商业化表现 |
|---|---|---|---|---|
| OpenAI(GPT系列) | - 参数:GPT-5达1.8万亿,支持128K上下文 - 核心:动态路由机制、自适应思考时间 - 模态:文本+视觉 | - 代码生成(SWE-bench 76.3%) - 工具调用精准 - 动态任务适配 | - 复杂编程、科学研究 - 企业战略规划 - 智能体工作流构建 | - API日调用超50亿次,企业用户700万+ - GPT-5输入1.25美元/百万tokens |
| Anthropic(Claude系列) | - 参数:Claude Opus 4.5为5000亿,200K上下文 - 核心:Constitutional AI安全框架 - 模态:文本为主,长文本处理突出 | - 安全对齐(有害内容生成率<0.001%) - 法律/金融合规(准确率96%) - 30+小时持续复杂任务处理 | - 法律文书审查、金融风控 - 高安全要求对话 - 代码生成与维护 | - Claude Opus 4.5降价67% - 开源版Sonnet起价3美元/百万输入tokens |
| Google DeepMind(Gemini系列) | - 参数:Gemini 3 Pro支持10M token上下文(业界最长) - 核心:液态神经网络、动态参数调整 - 模态:全模态(支持10 FPS高帧率视频分析) | - 多模态融合(MMMU-Pro 81%) - 深度推理(ARC-AGI-2 45.1%) - 实时交互(延迟<200ms) | - 长文档总结、跨模态搜索 - 科研助手、长视频分析 - 实时交互系统 | - Gemini 3 Pro免费开放测试 - 整合进Google搜索(覆盖20亿月活) |
| xAI(Grok系列) | - 参数:未明确,基于Twitter实时数据训练 - 核心:实时信息理解、情感智能 - 模态:文本为主,实时资讯交互 | - 实时资讯响应(GPQA 87.5%) - 情感智能突出 - 极速推理(172 tokens/s) | - 社交媒体交互、实时新闻分析 - 个性化对话 - 高频快速交互场景 | - 拟融资120亿美元 - 聚焦C端免费服务,未公开定价 |
| Meta(Llama系列) | - 参数:Llama 4 Maverick为17B×128 MoE(700亿-405B) - 核心:MoE架构、轻量化部署 - 模态:原生多模态,支持边缘设备 | - 性价比高(同能力参数减半) - 开源生态成熟(2000+插件) - 边缘推理成本极低(0.0003美元/千tokens) | - 学术实验、垂域微调 - 边缘设备推理 - 企业私域大模型开发 | - Llama 4 Maverick下载量1.2亿次 - 开源免费商用,部署成本优势 |
二、中国大模型力量
| 公司名称 | 成立时间/背景 | 旗舰大模型系列 | 核心技术方向 | 行业定位与优势 | 2025年最新动态 |
|---|---|---|---|---|---|
| 阿里巴巴 | 1999年成立,互联网巨头,宣布未来三年投入超3800亿元用于云和AI硬件基础设施 | 千问(Qwen)系列(Qwen-480B、Qwen-VL、Qwen-Audio、Qwen-Video) | 全模态开源模型(Qwen系列)、办公/学习场景智能体、大模型低延迟推理优化、C端AI应用生态构建 | 开源大模型全球TOP3贡献者,C端办公/学习场景落地突出,用户增长速度领先,生态覆盖文档处理、教育辅助等高频需求 | 1. 千问APP公测23天月活破3000万,成全球增长最快AI应用之一; 2. 开源300+全模态模型,Hugging Face下载量超6亿,衍生模型破17万; 3. 推出AI PPT、AI写作、AI文库、AI讲题四大功能; 4. 成立千问C端事业群,目标打造AI时代“超级APP” |
| 百度 | 2000年成立,AI领域深耕超10年,十年研发投入超1800亿元(2024年占比19.44%) | 文心(ERNIE)系列(文心5.0、文心4.5 Turbo、文心X1 Turbo)、Apollo ADFM(自动驾驶大模型) | 原生全模态统一建模、企业级智能体(Agent)、自动驾驶大模型、飞桨深度学习框架、百舸AI计算平台优化 | 全栈AI能力领军者(芯片-框架-模型-应用),生成式AI/智能体专利中国第一,大模型专利全球第二,专利产业化率超90%,产业覆盖金融、交通、工业等数十领域 | 1. 发布全球首个原生全模态大模型文心5.0(2.4万亿参数); 2. 推出企业级智能体“伐谋”,落地金融风控、交通管理(鄂尔多斯车均延误降17.4%); 3. 百舸平台助力LLaVA-OneVision-1.5刷新训练效率(128卡4天完成8B模型预训练); 4. 萝卜快跑与Uber合作拓展全球无人驾驶市场 |
| 字节跳动 | 2012年成立,2024年AI资本开支达800亿元(接近百度、阿里、腾讯总和) | ByteDance AI系列(ByteDance AI Multimodal、ByteDance AI Code、ByteDance AI Agent) | 多模态融合(文本/图像/视频/语音)、大模型工程化落地、C端场景智能体开发 | 综合型AI巨头,工程化落地能力突出,多模态覆盖全场景,C端与B端协同发展 | 1. 组建顶尖AI团队(引入光年之外、谷歌、阿里等核心技术骨干); 2. 多模态模型落地内容创作、办公自动化场景,企业用户超100万; 3. 优化短视频生成能力,支持1080P高清视频实时生成 |
| DeepSeek | 核心团队2022年组建,创始人梁文锋,聚焦低成本高性能模型研发 | DeepSeek系列(DeepSeek-Math、DeepSeek-Coder、DeepSeek-VL) | 语言模型数理能力强化、极致工程优化(低成本训练)、全栈开源路线 | “技术奇兵”,低成本大模型标杆,聚焦数理与代码能力,开源生态适配中小开发者需求 | 1. 模型训练成本仅550万美元(远低于国际巨头数亿美元投入); 2. 数理推理能力在国内基准测试中持续领先; 3. 开源模型支持中小团队轻量化部署,边缘推理成本优化 |
| 阶跃星辰 | 核心团队2023年起组建,创始人姜大昕(微软前全球副总裁),2024年12月完成数亿美元B轮融资(投资方含上海国资、腾讯投资等) | Step系列(Step-2、Step-1V、Step-1X、Step-Video、Step-1o Audio) | 多模态统一建模(文本/图像/视频/语音)、垂直场景智能体(汽车/IoT)、高效模型训练优化 | “多模态卷王”,创业公司中首个发布万亿参数模型(Step-2),多模态能力覆盖全链条,垂直场景落地速度领先 | 1. 开源Step1X-Edit图像编辑模型(性能达同类开源SOTA); 2. 累计发布22款自研基座模型(16款为多模态模型); 3. 与Oppo、吉利汽车、千里科技合作,将Agent落地汽车、手机、IoT场景; 4. Step系列多次获国内权威大模型评测第一 |
| 智谱AI | 源自清华大学计算机系知识工程实验室技术转化,创始人张鹏(清华博士) | GLM(General Language Model)系列(GLM-4、GLM-4V、GLM-4 Agent) | 知识增强大模型、复杂推理优化、多模态融合、学术场景适配 | 知识增强大模型领军者,学术与产业结合紧密,复杂推理、学术研究场景适配性强 | 1. 优化知识增强架构,复杂学术问答准确率提升15%; 2. 落地教育领域“AI助教”场景,覆盖全国500+高校; 3. GLM-4在LMArena中文任务评测中位列中国前三 |
1. 阿里巴巴
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| Qwen-480B | 480B参数,全模态(文本/图像/语音/视频),开源架构(Apache 2.0协议) | 1. 通用能力覆盖编程、写作、推理,SWE-bench得分72%; 2. 支持开发者二次微调,适配垂直领域需求 | 企业级通用任务、开发者二次开发、复杂文档处理 | 1. 开源免费商用,Hugging Face下载量超2亿; 2. 衍生模型超5万个,覆盖金融、教育等领域 |
| Qwen-VL(视觉大模型) | 280B参数,支持1024×1024图像解析,OCR准确率98.5% | 1. 复杂图文理解能力突出,可解析表格、公式、手写体; 2. 支持实时图像生成与编辑 | 文档识别、设计辅助、视觉质检 | 1. 千问APP免费体验基础功能,企业版0.3美元/百万tokens; 2. 已服务超300家制造业客户 |
| 千问AI PPT | 基于Qwen-14B优化,支持39种输入格式(文档/图片/语音),内置500+模板 | 1. 输入指令后3分钟生成完整PPT; 2. 支持自然语言调整内容与设计 | 办公演示、培训课件制作、学术汇报 | 1. 千问APP免费使用(基础模板),高级模板9.9元/月; 2. 公测期间用户生成超100万份PPT |
2. 百度
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| 文心5.0 | 2.4万亿参数,原生全模态统一建模(文本/图像/音频/视频),飞桨超稀疏MoE架构(激活参数<3%),10M token上下文 | 1. 40+权威基准测试中,语言/多模态理解能力与Gemini-2.5-Pro、GPT-5-High持平; 2. 图像/视频生成能力媲美垂直领域专精模型; 3. 智能体工具调用准确率提升20% | 高端科研计算、企业复杂决策、多模态内容创作、智能体开发 | 1. 文心App开放预览版,企业通过百度千帆平台调用; 2. ERNIE-5.0-Preview-1022在LMArena文本任务全球并列第二、中国第一 |
| 文心4.5 Turbo | 千亿级参数,支持多模态输入,优化低延迟推理(响应速度<500ms) | 1. 通用对话准确率92%,幻觉率降至0.5%以下; 2. 适配中小规模企业任务,部署成本低 | 客服问答、轻量化内容生成、基础办公辅助 | 1. 千帆平台按需计费,输入0.15美元/百万tokens,输出0.75美元/百万tokens; 2. 企业用户超80万 |
| 伐谋(企业级智能体) | 基于文心大模型底座,支持“自我演化”算法优化,集成1000+行业工具 | 1. 自动开发算法并完成上百轮寻优,替代80%算法工程师人工工作; 2. 金融风控风险区分度提升18%,交通优化通行效率提升17.4% | 金融风控、交通管理、港口调度、能源优化 | 1. 企业定制化服务,年费数十万元起; 2. 已落地全国40+城市交通信控、600+金融机构 |
| Apollo ADFM | L4级自动驾驶大模型,5589件自动驾驶专利支撑,安全性高于人类驾驶员10倍 | 1. 实时路况响应速度<200ms; 2. 支持无安全员全场景运营 | 无人驾驶出行服务、港口/园区无人运输 | 1. 萝卜快跑服务按里程计费(约2元/公里); 2. 与Uber合作覆盖全球10+国家 |
3. 字节跳动
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| ByteDance AI Multimodal | 千亿级参数,支持文本/图像/视频/语音多模态交互,优化短视频生成 | 1. 1080P视频生成速度达1分钟/30秒,画面质量超行业平均20%; 2. 多模态内容理解准确率90% | 短视频创作、直播辅助、社交内容生成 | 1. 企业用户按流量计费(0.1元/GB); 2. 服务字节系APP,日均生成超1亿条内容 |
| ByteDance AI Agent(办公版) | 基于多模态模型优化,集成办公软件(文档/表格/PPT)接口 | 1. 自动化办公效率提升60%,支持多任务并行处理; 2. 适配企业私域数据,安全合规 | 企业办公自动化、跨部门协作、报告生成 | 1. 企业版年费1000元/账号起; 2. 企业用户超100万,覆盖互联网、电商等行业 |
4. DeepSeek
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| DeepSeek-Math(数理模型) | 70B参数,训练数据含1亿+数理题,优化符号推理 | 1. GSM8K测试准确率96.8%,MATH测试准确率68.5%(国内第一); 2. 支持微积分、线性代数等高等数学推导 | 数学教育、科研计算、工程建模 | 1. 开源免费(学术场景),企业版0.2美元/百万tokens; 2. 服务全国2000+中小学AI助教场景 |
| DeepSeek-Coder(代码模型) | 130B参数,支持20+编程语言,优化代码生成与调试 | 1. SWE-bench Verified得分74%,接近GPT-5; 2. 支持代码重构与漏洞修复 | 软件开发、自动化测试、代码审计 | 1. 开源版免费,企业版0.3美元/百万tokens; 2. 开发者超50万,生成代码超10亿行 |
5. 阶跃星辰
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| Step-2 | 万亿参数,国内首个创业公司万亿模型,多模态统一建模(文本/图像/语音) | 1. 多模态任务综合得分国内第一,超过GPT-4o 5%; 2. 支持72小时持续复杂任务处理 | 复杂多模态分析、科研协作、企业战略规划 | 1. 企业定制化服务,暂不公开定价; 2. 入选2025年“中国AI创新十佳模型” |
| Step1X-Edit(图像编辑) | 基于Step-1X优化,支持像素级编辑,开源架构 | 1. 图像修复、风格迁移准确率达95%,性能超Stable Diffusion 10%; 2. 支持开发者二次开发 | 设计创作、影视后期、广告制作 | 1. 开源免费商用(Apache 2.0协议); 2. Hugging Face下载量超500万次 |
| Step-Video(视频生成) | 支持1080P/60fps视频生成,训练数据涵盖8大场景 | 1. 文本生成视频准确率88%,画面流畅度超行业平均15%; 2. 生成速度达2秒/帧 | 短视频创作、产品宣传视频、影视片段制作 | 1. 企业版按次计费(1080P视频0.5元/秒); 2. 与吉利合作生成汽车营销视频,转化率提升22% |
6. 智谱AI
| 模型名称 | 核心参数与技术亮点 | 能力优势 | 适用场景 | 价格/关键数据 |
|---|---|---|---|---|
| GLM-4 | 1.2万亿参数,知识增强架构,支持128K上下文 | 1. 学术问答准确率93%,可解析复杂公式与论文; 2. 支持多轮学术对话,记忆能力达100+轮 | 学术研究、高校教育、科研协作 | 1. 高校免费使用,企业版0.4美元/百万tokens; 2. 覆盖全国500+高校,服务超10万科研人员 |
| GLM-4V(多模态) | 500B参数,优化学术场景视觉理解(图表/公式/实验图像) | 1. 科研图表解析准确率91%,公式识别准确率98%; 2. 支持实验数据可视化生成 | 学术论文辅助、科研数据分析、实验报告撰写 | 1. 与知网合作嵌入学术平台,按次计费(0.1元/次解析); 2. 助力1000+科研团队发表论文 |
大模型对比
| 大模型系列 | 技术特性 | 核心能力 | 适用场景 | 商业化表现 |
|---|---|---|---|---|
| 阿里巴巴(千问系列) | - 参数:Qwen-480B为480B,全模态 - 核心:开源架构(Apache 2.0)、低延迟推理 - 模态:文本/图像/语音/视频 | - 通用能力均衡(SWE-bench 72%) - C端应用增长快 - 多模态处理全面 | - 企业级通用任务、开发者二次开发 - 文档处理、办公工具(PPT/写作) - 视觉质检 | - 开源模型下载量超6亿,衍生模型17万+ - 千问APP免费基础功能,企业版0.3美元/百万tokens |
| 百度(文心系列) | - 参数:文心5.0达2.4万亿,10M上下文 - 核心:飞桨超稀疏MoE、原生全模态 - 模态:文本/图像/音频/视频 | - 全栈AI能力(芯片-框架-模型) - 智能体工具调用准确率提升20% - 自动驾驶安全性超人类10倍 | - 高端科研、企业复杂决策 - 交通管理、金融风控 - 无人驾驶出行服务 | - 文心5.0通过千帆平台调用 - 伐谋企业版年费数十万起,服务600+金融机构 |
| 字节跳动(ByteDance AI系列) | - 参数:千亿级,多模态融合 - 核心:工程化落地优化 - 模态:文本/图像/视频/语音(1080P视频生成) | - 短视频生成(1080P实时) - 办公自动化效率提升60% - 多模态理解准确率90% | - 短视频创作、直播辅助 - 企业办公自动化、跨部门协作 - 社交内容生成 | - 企业用户超100万,按流量计费(0.1元/GB) - 日均生成内容1亿+条 |
| DeepSeek系列 | - 参数:DeepSeek-Math 70B,DeepSeek-Coder 130B - 核心:低成本训练(550万美元) - 模态:文本为主(数理/代码) | - 数理推理(GSM8K 96.8%) - 代码生成(SWE-bench 74%) - 轻量化部署 | - 数学教育、科研计算 - 软件开发、自动化测试 - 代码审计 | - 开源免费(学术场景),企业版0.2-0.3美元/百万tokens - 服务2000+中小学 |
| 阶跃星辰(Step系列) | - 参数:Step-2为万亿参数(国内首个创业公司万亿模型) - 核心:多模态统一建模 - 模态:文本/图像/语音/视频(1080P/60fps) | - 多模态综合得分国内第一(超GPT-4o 5%) - 图像编辑准确率95% - 72小时持续复杂任务处理 | - 复杂多模态分析、科研协作 - 设计创作、影视后期 - 汽车营销、IoT场景 | - Step1X-Edit开源免费商用 - 企业定制化服务,与吉利、Oppo等合作落地 |
| 智谱AI(GLM系列) | - 参数:GLM-4为1.2万亿,128K上下文 - 核心:知识增强架构 - 模态:文本+视觉(学术场景优化) | - 学术问答准确率93% - 科研图表解析准确率91% - 多轮学术对话记忆100+轮 | - 学术研究、高校教育 - 科研数据分析、论文辅助 - 实验报告撰写 | - 高校免费,企业版0.4美元/百万tokens - 覆盖500+高校,10万+科研人员 |
三、大模型对比
| 模型名称 | 技术特性核心信息 | 核心能力亮点(关键指标) | 核心适用场景 | 商业化关键数据 |
|---|---|---|---|---|
| OpenAI(GPT-5/O3) | 1.8万亿参数,128K token上下文(中文约9.8万字符),文本+视觉模态,动态路由机制 | 代码生成(SWE-bench 76.3%),工具调用精准,O3模型GPQA 83.3分 | 复杂编程、科研、企业战略规划 | API日调用超50亿次,企业用户700万+;GPT-5输入1.25美元/百万tokens,O3订阅200美元/月 |
| Anthropic(Claude 4系列) | 200B+参数,200K token上下文,Constitutional AI安全框架,文本为主 | 安全对齐(有害内容生成率<0.001%),SWE-bench 72.5%,内容审核准确率97.22% | 法律文书、金融风控、高安全对话 | Opus输入15美元/百万tokens,Sonnet降价67%至3美元/百万tokens,API付费调用 |
| Google(Gemini 3 Pro) | 超万亿参数,1M token上下文(业界最长),液态神经网络,全模态(10 FPS视频分析) | 多模态推理(GPQA 91.9分),MMMU-Pro 81%,延迟<200ms | 长文档分析、跨模态搜索、长视频处理 | 免费开放测试,整合Google搜索(20亿月活),输入2美元/百万tokens |
| xAI(Grok 3) | 未明确参数,基于Twitter实时数据训练,文本为主,实时信息接入 | 实时资讯响应(GPQA 87.5%),情感智能突出,推理速度172 tokens/s | 社交媒体交互、实时新闻分析 | 拟融资120亿美元,C端免费服务,高端订阅300美元/月 |
| Meta(Llama 4) | 4000亿参数(仅170亿活跃参数),MoE架构,原生多模态,边缘部署优化 | 开源生态成熟,同能力参数成本减半,多模态适配边缘设备 | 学术实验、垂域微调、边缘推理 | 丑闻后日均下载量不足1万次,开源免费商用,边缘部署0.0003美元/千tokens |
| 阿里(千问系列) | 480B参数,Apache 2.0开源,128K上下文,全模态(文本/图像/音视频) | 通用能力均衡(SWE-bench 72%),低延迟推理,工具链丰富 | 企业通用任务、办公工具、二次开发 | 开源模型下载量超6亿,千问APP月活3000万+,企业版0.3美元/百万tokens,阶梯定价 |
| 百度(文心5.0) | 2.4万亿参数,10M token上下文,飞桨超稀疏MoE,全栈AI(芯片-框架-模型) | 智能体工具调用准确率+20%,用户规模4.3亿,日均调用15亿次 | 高端科研、企业决策、自动驾驶 | 企业版年费数十万起,服务600+金融机构,飞桨开发者2333万 |
| 字节跳动(ByteDance AI) | 千亿级参数,工程化优化,全模态(1080P视频生成),阶梯定价机制 | 短视频生成(实时1080P),办公自动化效率+60%,多模态准确率90% | 短视频创作、直播辅助、办公协同 | 企业用户超100万,输出≤200token 2元/百万tokens,超量则8元/百万tokens |
| DeepSeek系列 | 70B-130B参数,低成本训练(550万美元),文本为主(数理/代码) | 数理推理(GSM8K 96.8%),代码生成(SWE-bench 74%) | 数学教育、科研计算、软件开发 | 学术开源免费,企业版输出12元/百万tokens,取消夜间优惠 |
| 阶跃星辰(Step 3) | 万亿参数,多模态统一建模,1080P/60fps视频处理 | 多模态综合得分超GPT-4o 5%,图像编辑准确率95%,长任务处理72小时 | 复杂多模态分析、设计创作、影视后期 | Step1X-Edit开源免费,企业定制服务,合作吉利、Oppo等车企 |
| 智谱AI(GLM-4.5) | 1.2万亿参数,128K上下文,知识增强架构,学术场景优化 | 学术问答准确率93%,科研图表解析91%,100+轮学术对话记忆 | 学术研究、高校教育、科研协作 | 高校免费,企业版最高64元/百万tokens(高速推理),覆盖500+高校 |
核心差异提炼
- 技术路线分化:国际模型侧重超大参数(GPT-5、文心5.0均超万亿)和超长上下文(Gemini 3 Pro 1M token),中国模型聚焦开源生态(千问、Llama 4)和低成本部署(DeepSeek、Llama)。
- 能力侧重不同:代码/推理领域OpenAI、DeepSeek领先,多模态领域阶跃星辰、Gemini 3 Pro突出,学术场景智谱GLM-4.5、百度文心5.0更适配。
- 商业化模式:国际模型以高定价API(OpenAI、Anthropic)和订阅制为主,中国模型兼顾开源免费(千问、Step1X-Edit)与企业定制(百度伐谋、阶跃星辰),阶梯定价成主流。
- 生态布局:百度(全栈AI)、Google(搜索整合)走生态闭环路线,阿里、Meta以开源带动开发者生态(分别6亿+、2000+插件下载)。