Skip to content

模型评分卡

MetaChat 近期活跃模型的结构化评估,按使用热度排序。每张卡片包含官方定位、社区评价、能力评分与适用场景。

评分标准:⭐ 1-5 分(5 = 业界顶尖)


GPT-5

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 综合能力均衡,各项指标无明显短板;响应速度快;生态成熟,兼容性好

劣势: 非最强旗舰,深度推理不如 GPT-5.5/Claude Opus

适合: 通用对话、内容创作、翻译、日常编程、客服


Claude Sonnet 4.6

厂商: Anthropic | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 编程能力强且速度快;价格远低于 Opus 系列;指令遵循精准

劣势: 复杂多步推理不如 Opus;超长文档处理能力有限

适合: 日常编程、代码审查、文档生成、API 开发


Claude Opus 4.6

厂商: Anthropic | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐
性价比⭐⭐⭐

优势: 深度推理稳定可靠;长文写作质量高;社区口碑好,稳定性优于 4.7

劣势: 响应速度较慢;价格较高

适合: 复杂分析、长文档处理、需要高稳定性的生产环境


Claude Opus 4.7

厂商: Anthropic | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐
性价比⭐⭐

优势: one-shot coding 能力顶尖;xhigh 推理级别精细可控;会主动对代码做证明再动手

劣势: 社区反馈幻觉增多;tokenizer 产生 token 数比前代多约 35%;部分用户反馈不如 4.6 稳定

适合: 大型编程项目、代码架构设计、系统级开发


Gemini 3.5 Flash

厂商: Google | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐
多模态⭐⭐⭐⭐

优势: Flash 价格超越上代旗舰 3.1 Pro;速度是同级模型的 4 倍;编程和 Agent 基准优异

劣势: 创意写作和中文细腻度不如 Claude/GPT;刚发布社区数据仍在积累

适合: 高频 API 调用、Agent 编排、编程辅助、成本敏感的生产场景


GPT-5.5

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐
性价比⭐⭐⭐
多模态⭐⭐⭐⭐⭐

优势: 多模态理解能力强,图文混合推理业界领先;指令遵循精准,复杂任务拆解能力优秀;Terminal-Bench 82.7%,幻觉率降低 52.5%

劣势: 价格较高($5/$30),重度使用成本显著;中文创意写作偶有英文思维痕迹

适合: 深度分析、复杂编程、多模态任务、商业/法律/教育


Grok 4.3

厂商: xAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐

优势: AIME 93.3%,数学推理顶尖;Codeforces 2015 分;支持实时信息访问;256K 上下文

劣势: 中文能力缺乏独立评测;创意写作风格偏"干"

适合: 数学竞赛、编程、复杂推理、实时信息查询


DeepSeek V4 Pro

厂商: DeepSeek | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: SWE-bench 80.6% 逼近 Claude;价格仅 $0.435/$0.87(GPT-5.5 的 1/10);100 万 token 上下文;开源可本地部署

劣势: 综合知识理解排名中游;英文创意写作偏弱;Agent 多步任务不如 Claude/GPT

适合: 编程开发、中文对话、成本敏感的 API 调用、本地部署


DeepSeek V4 Flash

厂商: DeepSeek | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 速度极快;成本仅为 GPT 的 1/10;中文表现优秀

劣势: 深度推理不如 Pro 版本;复杂任务能力有限

适合: 中文对话、高频轻量任务、成本敏感的批量处理


Gemini 3.1 Pro

厂商: Google | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐
性价比⭐⭐⭐⭐
多模态⭐⭐⭐⭐⭐

优势: 超长上下文窗口(100 万 token);多模态能力强(视频/音频/图像理解)

劣势: 中文创意写作一般;响应速度中等

适合: 超长文档分析、多模态理解、视频/音频内容处理


GPT-5.4

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐
性价比⭐⭐⭐

优势: 性能稳定可靠;推理能力强;生态成熟

劣势: 已被 5.5 超越;价格不低

适合: 深度分析、复杂编程、商业写作


GPT-5.4 Mini

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 速度快价格低;日常任务够用;兼容性好

劣势: 深度推理和复杂编程能力有限

适合: 日常对话、简单问答、高频轻量任务


Grok 4.20

厂商: xAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 支持实时信息访问;响应速度快;推理能力不错

劣势: 中文表现一般;创意写作偏弱

适合: 需要最新信息的查询、快速问答、时事分析


Claude Haiku 4.5

厂商: Anthropic | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 极速响应;价格极低;指令遵循好

劣势: 深度推理能力有限;复杂任务不适合

适合: 分类、摘要、简单问答、高并发场景


GPT Image 2

厂商: OpenAI | 类型: 图像生成

维度评分
图像质量⭐⭐⭐⭐⭐
文字渲染⭐⭐⭐⭐⭐
风格多样性⭐⭐⭐⭐
中文文字⭐⭐⭐⭐
生成速度⭐⭐⭐
性价比⭐⭐⭐

优势: 文字渲染能力业界最强;支持复杂排版和多语言文字嵌入;图像质量高

劣势: 生成速度较慢;价格较高;纯艺术风格不如 Midjourney

适合: 海报/Logo 设计、产品图、社交媒体配图、需要精确文字的场景


Midjourney V7

厂商: Midjourney | 类型: 图像生成

维度评分
图像质量⭐⭐⭐⭐⭐
文字渲染⭐⭐⭐
风格多样性⭐⭐⭐⭐⭐
美学表现⭐⭐⭐⭐⭐
生成速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 美学表现顶尖;艺术风格多样;构图和光影出色

劣势: 文字渲染不如 GPT Image;精确控制能力有限

适合: 艺术创作、概念设计、品牌视觉、插画


Seedance 2.0

厂商: 字节豆包 | 类型: 视频生成

维度评分
视频质量⭐⭐⭐⭐
动作自然度⭐⭐⭐⭐⭐
中文场景⭐⭐⭐⭐⭐
生成速度⭐⭐⭐⭐
风格多样性⭐⭐⭐⭐

优势: 动作自然流畅;中文场景优化好;支持多种风格;最新一代

劣势: 英文场景表现不如 Sora;超长视频能力有限

适合: 短视频创作、产品展示、中文场景视频


Sora 2

厂商: OpenAI | 类型: 视频生成

维度评分
视频质量⭐⭐⭐⭐⭐
动作自然度⭐⭐⭐⭐
画面精细度⭐⭐⭐⭐⭐
生成速度⭐⭐⭐
风格多样性⭐⭐⭐⭐

优势: 画质精细;运动连贯性好;场景理解能力强

劣势: 生成速度较慢;价格较高

适合: 高画质视频、广告素材、产品宣传片


GPT-4o

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐
多模态⭐⭐⭐⭐⭐

优势: 多模态原生支持(视觉+语音);响应速度快;综合能力均衡

劣势: 已被 GPT-5 系列超越;深度推理不如新一代

适合: 多模态对话、语音交互、图像理解、通用任务


GPT-4o Mini

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 极低价格;速度极快;日常任务够用

劣势: 深度推理有限;已是上一代架构

适合: 高频轻量任务、成本敏感场景、简单问答


Gemini 3 Flash

厂商: Google | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 速度极快;价格低;适合轻量任务

劣势: 深度推理和创意写作一般

适合: 快速问答、摘要、分类、高频调用


Gemini 3.1 Flash Lite

厂商: Google | 类型: 文本对话

维度评分
推理能力⭐⭐
编程能力⭐⭐
创意写作⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: Google 最轻量模型;极速响应;成本极低

劣势: 仅适合简单任务;复杂场景能力不足

适合: 文本分类、摘要提取、高并发轻量任务


Gemini 2.5 Pro

厂商: Google | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐
性价比⭐⭐⭐⭐
多模态⭐⭐⭐⭐

优势: 100 万 token 超长上下文;多模态理解;价格合理

劣势: 已被 3.x 系列超越;中文表现一般

适合: 超长文档分析、代码库理解、多模态任务


Gemini 2.5 Flash

厂商: Google | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 速度快价格低;100 万 token 上下文;适合批量处理

劣势: 已被 3.5 Flash 超越;深度推理有限

适合: 批量文本处理、长文档摘要、高频轻量调用


GPT-4.1

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 综合能力均衡;100 万 token 上下文;价格适中

劣势: 已是上一代;被 GPT-5 系列全面超越

适合: 通用任务、长文档处理、历史项目兼容


GPT-4.1 Mini

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 经典轻量模型;兼容性好;价格极低

劣势: 深度推理有限;已是上一代

适合: 日常对话、简单问答、历史项目兼容


GPT-5.5 Pro

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐⭐
编程能力⭐⭐⭐⭐⭐
创意写作⭐⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐
性价比⭐⭐
多模态⭐⭐⭐⭐⭐

优势: OpenAI 最强推理模式;深度思考能力顶尖;适合最复杂的任务

劣势: 速度慢;价格最高;简单任务大材小用

适合: 极复杂推理、科研分析、高难度编程、数学证明


GPT-5 Mini

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: GPT-5 的轻量版;速度快价格低;日常够用

劣势: 深度推理有限

适合: 日常对话、轻量编程、高频任务


GPT-5.4 Nano

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐
编程能力⭐⭐
创意写作⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 最轻量的 GPT-5.4;极速极便宜

劣势: 仅适合最简单的任务

适合: 文本分类、格式转换、极简问答


GPT-OSS 120B

厂商: OpenAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: OpenAI 开源模型;可本地部署;性价比高

劣势: 不如闭源旗舰;中文和创意写作一般

适合: 本地部署、隐私敏感场景、成本优化


Grok 4.1 Fast

厂商: xAI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 快速响应;实时信息访问;推理能力不错

劣势: 中文和创意写作一般

适合: 快速问答、实时信息查询、日常编程


GLM-5

厂商: 智谱 AI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 中文深度理解顶尖;价格极低;长文本处理好

劣势: 英文能力不如国际模型;编程能力中等

适合: 中文长文本处理、知识问答、学术写作


GLM-5.1

厂商: 智谱 AI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 智谱最新旗舰;中文能力顶尖;编程能力提升明显

劣势: 英文场景不如国际模型

适合: 中文深度对话、编程辅助、内容创作


GLM-5 Turbo

厂商: 智谱 AI | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 极速响应;价格极低;中文日常任务表现好

劣势: 深度推理有限;复杂任务不适合

适合: 中文客服、高频轻量任务、成本敏感的批量处理


DeepSeek V3.2

厂商: DeepSeek | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 上一代主力;中文优秀;开源可部署;价格极低

劣势: 已被 V4 系列超越

适合: 中文对话、编程辅助、成本优化


DeepSeek R1

厂商: DeepSeek | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 深度推理增强模型;数学和逻辑能力强;开源

劣势: 响应较慢(思考链长);创意写作一般

适合: 数学推理、逻辑分析、复杂问题求解


MiniMax M2.7 Highspeed

厂商: MiniMax | 类型: 文本对话

维度评分
推理能力⭐⭐⭐
编程能力⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 中文多模态;极速响应;创意写作不错

劣势: 英文和编程能力有限

适合: 中文创意写作、多模态对话、高频中文任务


Claude Sonnet 4.5

厂商: Anthropic | 类型: 文本对话

维度评分
推理能力⭐⭐⭐⭐
编程能力⭐⭐⭐⭐
创意写作⭐⭐⭐⭐
中文表现⭐⭐⭐⭐
响应速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 上一代 Sonnet;稳定可靠;性价比好

劣势: 已被 4.6 超越

适合: 日常编程、文档生成、通用任务


Gemini 3.1 Flash Image

厂商: Google | 类型: 图像生成

维度评分
图像质量⭐⭐⭐⭐
文字渲染⭐⭐⭐
风格多样性⭐⭐⭐⭐
生成速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: Gemini 原生图像生成;速度快;价格低

劣势: 精细度不如 GPT Image/Midjourney

适合: 快速概念图、插图生成、多模态创作


Gemini 3 Pro Image

厂商: Google | 类型: 图像生成

维度评分
图像质量⭐⭐⭐⭐
文字渲染⭐⭐⭐
风格多样性⭐⭐⭐⭐
生成速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 多模态图像生成;质量稳定;理解能力强

劣势: 艺术风格不如 Midjourney

适合: 图像生成、多模态创作、产品图


NIJI-7

厂商: Midjourney | 类型: 图像生成

维度评分
图像质量⭐⭐⭐⭐⭐
动漫风格⭐⭐⭐⭐⭐
角色设计⭐⭐⭐⭐⭐
生成速度⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: 二次元/动漫风格顶尖;角色设计出色;场景表现好

劣势: 仅适合动漫风格;写实场景不适合

适合: 动漫插画、角色设计、二次元内容创作


Imagen 4 Fast

厂商: Google | 类型: 图像生成

维度评分
图像质量⭐⭐⭐⭐⭐
文字渲染⭐⭐⭐⭐
写实能力⭐⭐⭐⭐⭐
生成速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐

优势: Google 高质量文生图;写实能力强;速度快

劣势: 艺术风格不如 Midjourney

适合: 写实图像、产品图、广告素材


Z-Image Turbo

厂商: 通义 | 类型: 图像生成

维度评分
图像质量⭐⭐⭐
中文理解⭐⭐⭐⭐⭐
生成速度⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐

优势: 中文 prompt 理解好;速度极快;价格极低

劣势: 精细度不如国际模型

适合: 中文场景快速出图、批量生成


Grok Imagine Video

厂商: xAI | 类型: 视频生成

维度评分
视频质量⭐⭐⭐⭐
创意风格⭐⭐⭐⭐⭐
动作自然度⭐⭐⭐
生成速度⭐⭐⭐⭐

优势: AI 想象力视频;创意风格独特;适合探索性创作

劣势: 写实场景不如 Sora;动作自然度有限

适合: 创意短片、概念视频、艺术探索

MetaChat 元语 — 一站式 AI 模型聚合服务平台