12阅读
2回复

[数码讨论]刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了 [复制链接]

上一主题下一主题查看指定楼层

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 260967

金币: 1018248

道行: 2006

原创: 2478

奖券: 3735

斑龄: 47

道券: 1645

获奖: 0

座驾

设备

摄影级

在线时间: 53677(小时)
注册时间: 2008-10-01
最后登录: 2026-06-29

只看楼主倒序阅读楼主发表于: 昨天 09:34

就在刚刚，GPT-5.6 系列正式发布，不过，它并没有直接全面开放，而是以「有限预览」的方式先行试水。

文章配图-1

作为 OpenAI 最强的一代， GPT-5.6 一口气端出三款型号，名字起得颇有诗意：

Sol（太阳）是旗舰模型，也是 OpenAI 口中目前最强的模型；

Terra（地球/大地）是面向日常工作的平衡型模型，性能可以与 GPT-5.5 竞争，同时价格便宜一半；

Luna（月亮）主打速度和低成本，是 GPT-5.6 系列中最便宜的模型。

从这命名方式来看，奥特曼私底下没少学习 Anthropic 营销的精髓。而借着 GPT-5.6 的发布，OpenAI 也顺手把命名体系重新梳理了一遍：

数字表示代际，Sol、Terra、Luna 对应不同能力层级，便于区分智能水平、速度与成本。产品定位上，Sol 面向高难复杂任务，Terra 覆盖日常工作流，Luna 主打低成本调用。

换句话说，GPT-5.6 不只是一次能力升级，也是 OpenAI 对模型产品线的一次重新分层。

文章配图-1

🔗 https://openai.com/index/previewing-gpt-5-6-sol/

GPT-5.6 深夜突袭，能力全系霸榜

作为 OpenAI 迄今最强模型。GPT-5.6 Sol 的能力展示，主要集中在编程、生物信息学和网络安全三个方向。

这三类场景有一个共同特征：

复杂、长链条、强依赖上下文。模型需要在任务中持续规划、推理、调用工具、修正错误，并不断推进流程。OpenAI 把这种能力称为 agentic capabilities——让模型更像一个能独立执行任务的 agent。

在编程场景中，GPT-5.6 Sol 已经不再停留在代码补全，而是深入到命令行环境中的复杂操作。

OpenAI 称，Sol 在 Terminal-Bench 2.1 上刷新了表现。Terminal-Bench 2.1 测试的是命令行工作流，任务要求模型具备规划、迭代和工具协调能力。

文章配图-2

基准测试成绩显示，GPT-5.6 Sol Ultra 在 Terminal-Bench 2.1 上得分 91.9%，GPT-5.6 Sol 得分 88.8%。作为对照，GPT-5.5 为 88.0%，GPT-5.6 Terra 为 82.5%，GPT-5.6 Luna 为 84.3%。

横向对比其它模型，Claude Mythos 5 为 84.3%，Claude Fable 5 为 83.4%，Claude Opus 4.8 为 78.9%，Gemini 3.1 Pro Preview 为 70.7%。

文章配图-3

Sol Ultra 的成绩，也对应 GPT-5.6 的核心功能。

一方面，max 级别的推理强度让模型可以投入更多时间进行深度推理；另一方面，新增的 Ultra 模式会调度多个子 Agent，把复杂任务拆分处理，再统一汇总结果。

在真实开发场景里，模型经常需要理解项目结构、读取文件、修改代码、运行命令、分析报错、继续修改。一个复杂任务通常无法靠一次回答完成。Ultra 模式的方向，是让多个子 Agent 分别处理不同环节，再把结果汇总起来，从而提高复杂任务的完成效率。

生物方向上，GPT-5.6 Sol 的提升体现在 GeneBench v1 上。这个评测主要面向长周期基因组学和定量生物分析任务。OpenAI 称，Sol 相比 GPT-5.5 取得了更强结果，而且使用的输出 tokens 更少。

文章配图-4

文章配图-5

文章配图-6

向左更多内容

这一点对科研场景尤为关键。生物信息学、基因组学和定量生物分析，经常需要模型持续分析数据、解释结果、选择方法、比较假设，并在多轮操作中保持上下文一致。模型能不能完成这类任务很重要，能不能用更低 tokens 成本完成长链条分析同样重要。

如果 Sol 能在更少输出 tokens 下取得更强结果，意味着它在专业科研工作流中有更好的成本效率。对实验室、企业研发团队和生物医药场景来说，tokens 消耗直接影响调用成本，也影响模型能否进入大规模工作流。

网络安全则是 GPT-5.6 Sol 最敏感的能力方向。

OpenAI 称，Sol 是其迄今最强的网络安全模型，能够推进长周期安全任务的性能和效率边界，包括漏洞研究和 exploitation 相关任务。

在 ExploitBench 上，GPT-5.6 Sol 的表现接近 Mythos Preview，但只使用了大约三分之一的输出 tokens。

文章配图-7

同时，OpenAI 还提到 ExploitGym——一个由 UC Berkeley 联合多家前沿实验室打造的评测体系，用于衡量模型在安全任务中的能力。随着推理能力提升，Sol、Terra、Luna 在这一领域都有明显进步。

文章配图-8

不过，OpenAI 对这部分表述明显踩了刹车。

基于这些结果，OpenAI 判断 GPT-5.6 Sol 尚未跨过 Preparedness Framework 中的网络安全关键风险阈值。

文章配图-9

System Card 🔗：https://deploymentsafety.openai.com/gpt-5-6-preview/introduction

这种踩刹车的判断显然是为了避免重走「Mythos」的老路。

一方面，OpenAI 要证明 Sol 在网络安全任务上确实强了很多；另一方面，它也要说明 Sol 还没有达到必须极端限制的风险级别。更讽刺的是，这种压力很大程度上来自 OpenAI 自己参与塑造的 AI 行业炒作叙事。

与此同时，OpenAI 也承认，基准测试无法覆盖所有现实用法。没有任何评测可以代表所有产品配置、多步骤攻击和真实工作流。模型可能被接入其他工具，也可能被放进更复杂的攻击链条里。

正是这种不确定性，让 GPT-5.6 的发布方式变得格外谨慎。

性能最强，但戏份却给了 AI 安全

GPT-5.6 的发布说明中，安全罕见地占据了较大篇幅。

OpenAI 为 Sol、Terra、Luna 配置了分级防护体系，能力越强，防护越严，目标是在压制攻击性用途的同时保留代码审查、漏洞研究等合法场景。

这套机制被称为分层安全栈，涵盖模型拒答、实时检测、账号审查、差异化访问与持续测试。多层协同用于应对复杂滥用，同时尽量减少对正常工作的干扰。

面向企业客户，OpenAI 还提出了隐私保护检测、自主安全控制以及风险分级访问等方案，试图在安全与数据保护之间找到平衡点。

文章配图-10

为了避免重蹈覆辙，OpenAI 在自动化红队测试上投入了超过 70 万 A100 等效 GPU 小时，重点寻找通用 jailbreak（越狱），并辅以专家人工测试。OpenAI 还建立快速响应流程，对新漏洞进行复现、评估与修复，并纳入持续评测体系。

可用性方面，GPT-5.6 目前仍处于有限预览阶段。

OpenAI 表示，模型将先通过 API 和 Codex 向一部分可信合作伙伴开放，随后再逐步扩展到 ChatGPT、Codex 和更广泛的 API 用户。

同时，OpenAI 也强调，自己相信前沿模型应该尽可能广泛地开放，并计划在未来几周内，让 GPT-5.6 Sol、Terra 和 Luna 进入更普遍的可用状态。

文章配图-11

看起来评价不太妙

价格体系也同步公布：

按每百万 tokens 计费，Sol 输入 5 美元、输出 30 美元；Terra 输入 2.5 美元、输出 15 美元；Luna 输入 1 美元、输出 6 美元。

文章配图-12

同时，GPT-5.6 引入了更可预测的 prompt caching 机制，支持显式 cache breakpoints，并提供至少 30 分钟缓存生命周期。缓存写入按未缓存输入价格的 1.25 倍计费，读取则享受 90% 折扣。

当然，想要用上还需要一些时日， OpenAI 宣布 GPT-5.6 Sol 将在 7 月登陆 Cerebras，最高速度可达每秒 750 tokens。这个版本初期同样只面向部分客户开放，后续会随着容量扩展逐步放开。

换句话说，GPT-5.6 的「有限预览」并不只是产品灰度发布，更是一套安全验证流程。OpenAI 需要在能力、风险与开放之间，找到一个可控的平衡点。

前沿模型发布节奏，进入新周期

两周前，Anthropic 停用了其最强模型之一 Fable 5，因为美国政府要求该公司限制美国境内外外国公民使用相关模型，理由是国家安全。

而在 GPT-5.6 的发布流程中，第一批使用用户同样不完全由 OpenAI 自己决定。

OpenAI 在官方博客中披露，在发布前已向美国政府展示 GPT-5.6 的能力与发布计划。根据美国政府要求，模型将以有限预览形式上线，仅向少数可信合作伙伴开放，并且这些合作伙伴的信息已与政府共享。

文章配图-13

《华盛顿邮报》的报道提到，美国联邦政府将审核哪些公司可以访问 OpenAI 的最新技术。且目前只有获得美国政府批准的公司可以访问新模型，个人用户没有申请通道。

彭博社则报道称， GPT-5.6 首批开放对象约为 20 家合作伙伴，其中一个入口可能是亚马逊的 Bedrock 平台。

对此，OpenAI 的态度显然是有些模凌两可。OpenAI 在博客中表示，不认为美国政府参与模型访问流程应当成为长期默认机制，因为这会让最好的工具远离用户、开发者、企业、网络防御者和全球合作伙伴。

文章配图-14

但现实是，OpenAI 仍选择接受这一安排，理由是希望争取更广泛开放，同时与美国政府共同制定一套可复制的模型发布流程。

这一变化背后，是前沿 AI 模型逐渐被纳入国家安全框架。

过去，新模型发布主要是公司产品节奏问题。现在，一旦模型在编程、网络安全、生物和代理式工作流上跨过新的能力区间，发布节奏就可能被纳入安全和出口控制讨论。

对 OpenAI 来说，GPT-5.6 既是一次旗舰模型预览，也是一次政策试探。OpenAI 需要证明 Sol 足够强，也需要证明安全体系足够严密，还要在美国政府审查和商业开放之间找到可执行路径。

山庄提示：道行不够，道券不够？---☆点此充值☆

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 260967

金币: 1018248

道行: 2006

原创: 2478

奖券: 3735

斑龄: 47

道券: 1645

获奖: 0

座驾

设备

摄影级

在线时间: 53677(小时)
注册时间: 2008-10-01
最后登录: 2026-06-29

只看该作者沙发发表于: 昨天 09:35

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

GPT-5.6全系列深度解读：太阳系三款新品首发，性能霸榜、分级定价，受限监管开启限量预览
北京时间6月27日凌晨，OpenAI正式推出GPT-5.6完整产品线，抛弃过往Pro/Mini命名规则，采用Sol（太阳）、Terra（大地）、Luna（月亮）天体体系全新分层，主打Agent智能体自主工作能力，在编程、生物信息、网络安全三大硬核领域实现全面升级。本次并未全面公开发布，受美国政府监管要求，仅开启有限预览白名单机制，首批仅20余家审批通过的可信企业可接入，标志着全球顶尖大模型正式进入性能升级+安全管控+政策约束的全新发布周期。

一、三款模型精准定位，完整重构OpenAI产品线
本次三款产品覆盖顶级科研、日常商用、低成本高频调用全场景，层级清晰，性价比策略明确：
1. GPT-5.6 Sol（太阳）｜旗舰顶配版
OpenAI官宣当下最强模型，专攻长链条复杂推理、多步骤自主Agent任务，面向高端研发、代码工程、生物医药、网络安全攻防等高难度专业场景。新增Max高强度推理模式，可预留算力深度思考；独家Ultra多子Agent协同模式，能够自动拆解复杂任务、多线程分工处理，最后整合输出结果，是本次技术革新的核心。
2. GPT-5.6 Terra（大地）｜均衡主力版
对标上代GPT-5.5综合性能，能力基本持平前代旗舰，但调用价格直接减半，专为企业日常办公、批量文案、常规数据分析、通用开发等全量日常工作流打造，是企业规模化商用的主力型号。
3. GPT-5.6 Luna（月亮）｜高速低价版
全系列成本门槛最低的型号，侧重响应速度与海量高频吞吐，适合批量内容处理、简单自动化脚本、轻量客服等刚需低成本场景，大幅降低中小企业常态化调用门槛。

官方分级定价（每百万Tokens）
| 型号 | 输入单价 | 输出单价 | 核心定位 |
| ---- | ---- | ---- | ---- |
| Sol 旗舰 | 5美元 | 30美元 | 复杂科研、网络安全、大型工程开发 |
| Terra 均衡 | 2.5美元 | 15美元 | 企业日常办公、常规商用全场景 |
| Luna 轻量 | 1美元 | 6美元 | 高频批量任务、低成本轻量化调用 |

配套升级长效Prompt缓存机制，缓存有效期最低30分钟，读取缓存享9折优惠，大幅降低企业重复上下文调用的长期成本；7月Sol版本将登陆Cerebras硬件平台，最高推理速度可达750tokens/秒，后续随算力扩容逐步放开。

二、核心性能实测：三大专业赛道全面霸榜
Sol旗舰版的能力提升集中在长上下文链式任务，各项基准测试全面超越Claude、Gemini同级竞品：
1. 编程能力（Terminal-Bench 2.1）登顶
标准版Sol得分88.8%，Ultra多智能体模式飙升至91.9%，远超GPT-5.5（88.0%）、Claude Mythos 5（84.3%）、Gemini 3.1 Pro（70.7%）。模型可完整完成命令行全流程操作：读取项目文件、批量改代码、运行调试、分析报错迭代修复，真正实现完整开发流程自主执行。
2. 生物基因组科研：高效省Token
在GeneBench v1基因组评测中，Sol性能全面超越GPT-5.5，完成同等复杂的长周期基因数据分析、定量生物演算，输出Token消耗量更少，在生物医药实验室长期大规模科研场景中，兼顾精度与调用成本。
3. 网络安全攻防：高效轻量化推理
ExploitBench漏洞测试中，Sol性能逼近Claude Mythos Preview，但仅使用对方约1/3的输出Token，长周期漏洞挖掘、渗透研究效率大幅提升。
OpenAI明确判定：该模型网络安全能力尚未触及内部安全框架的高危临界阈值，因此不会执行极端封禁，但安全管控力度全面升级。

三、安全体系全面加码，分层防护应对滥用风险
鉴于前代顶级模型的安全争议，GPT-5.6搭建分级分层安全栈，模型性能越强，防护规则越严苛，兼顾合法研究与风险防控：
1. 多层防护机制：内置模型原生拒答规则、实时调用行为检测、企业账号资质审核、差异化权限访问、常态化红队持续测试五层体系，精准拦截恶意攻击类请求，同时放行代码审计、合规漏洞研究等合法安全工作。
2. 高强度前置测试：投入超70万A100等效GPU算力开展自动化红队越狱测试，搭配安全专家人工核验，针对新型越狱漏洞建立快速修复响应流程，动态更新安全规则库。
3. 企业专属隐私方案：面向商用客户开放数据隐私检测、本地自主安全管控、风险分级权限等功能，平衡模型能力、数据隐私与合规安全。

四、开放规则大变：政府前置审核，白名单限量预览
本次发布最大的变化，是前沿大模型首次将政府审批纳入访问准入流程，完全区别于以往公开发售的模式：
1. 首批准入范围极小：初期仅对约20家经过美国政府完整审核的本土可信合作伙伴开放API与Codex通道，合作企业名单同步报备监管部门，个人普通用户暂无申请入口，无法在ChatGPT客户端直接体验新版模型。
2. 开放节奏规划：OpenAI计划在未来几周，逐步扩大API合作范围，后续视安全验证结果与政策协商进度，再推进面向大众ChatGPT用户的上线计划。入口优先开放亚马逊Bedrock企业平台。
3. OpenAI的矛盾立场
官方表态：政府逐一审核访问权限，不该成为长期常态，会持续和美方监管部门协商，争取更广泛、透明的市场化开放路径；但现阶段为顺利推进后续全面放开，主动接受本次限量审批的安排。

两周前Anthropic王牌模型Fable 5因国家安全要求受限停用，两大头部AI厂商先后受政策约束，预示着全球顶级大模型的迭代发布，已经跳出单纯的产品商业节奏，正式纳入国家安全、出口管制、地缘监管的框架之中。

五、行业深层总结
1. 产品线战略成型
GPT-5.6完成了高、中、低三档模型的完整布局，Sol对标高端科研算力市场，Terra承接企业主力商用，Luna下沉轻量化海量场景，精准卡位不同价位赛道，正面全线对标Anthropic全系Claude产品。
2. Agent自主智能成为下一阶段核心赛道
本次迭代不再单纯堆砌上下文长度、通用对话能力，全力深耕多智能体协同、长任务自主规划纠错，AI正在从“问答工具”，向可独立完成完整工作流的智能代理快速进化。
3. AI行业进入“性能与管制双向博弈”时代
顶级大模型性能突破的同时，各国监管收紧已成必然趋势。未来顶尖模型的发布、开放、海外准入，都会附带严格的安全审查与权限管控，技术发展、商业落地、国家安全三者的平衡，将成为所有AI企业必须面对的核心课题。

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 190605

金币: 709640

道行: 20100

原创: 769

奖券: 545

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 24295(小时)
注册时间: 2012-06-21
最后登录: 2026-06-29

只看该作者板凳发表于: 昨天 10:59

GPT-5.6确实以“史上最强”的姿态发布，但受多重因素制约，出现了“被自己坑惨了”的争议局面，核心矛盾集中在发布受限、技术风险、市场乱象三大方面：

一、发布节奏被“截胡”：史上最强模型沦为“特权产品”
政府强制分阶段上线
美国政府要求OpenAI对GPT-5.6采取“一客一审”的严格准入机制，仅向20家经过审批的“可信合作伙伴”开放有限预览，普通用户无法直接体验。OpenAI CEO萨姆·奥特曼在内部备忘录中无奈表示：“这并非我们长期倾向的运营模式”，但不得不配合政府的“逐客户审批”要求
。

打破AI行业“唯快不破”规则
过去大模型竞争的核心是“首发速度”，但GPT-5.6的发布标志着这一规则被颠覆——模型能否上线不再由厂商决定，而是取决于政府审批。Anthropic的Claude Mythos 5同样因安全审查被迫延迟发布，AI行业的“发布自由”时代或已终结
。

二、技术能力“双刃剑”：超强性能引发监管担忧
安全能力过强，被质疑“接近国家级黑客工具”
GPT-5.6旗舰版Sol在网络安全任务中表现过于突出：在漏洞挖掘、渗透测试等长链条攻击场景中，仅需1/3的Token输出就能达到竞品Claude Mythos 5的攻击效果；在ExploitBench测试中，其漏洞利用能力被美国国土安全部评估为“接近国家级黑客工具水平”，存在被恶意利用的风险
。

自主智能体能力失控风险
该模型支持多步骤任务自主拆解、工具链自动调用和跨天级长周期执行，能独立完成代码审计、系统漏洞修复等复杂工作。监管部门担忧，这种高度自主的AI系统若缺乏管控，可能引发不可预测的安全事故
。

三、市场乱象频发：虚假宣传干扰行业判断
80%的“实测内容”为造假
发布后网络上涌现大量GPT-5.6实测视频/文章，但媒体调查显示，超80%内容为造假：要么是用GPT-4o套壳并修改模型标识，要么是搭建仿冒UI界面，甚至直接编造测试数据。OpenAI官方已提醒用户警惕，部分开发者社区曝光了27个造假案例
。

性能优势被夸大，企业价值存疑
尽管官方宣称GPT-5.6在代码生成、智能体协作等领域有显著提升（如开发周期缩短35%、代码缺陷率降低28%），但多数企业用户因无法接触真实模型，难以验证这些数据的真实性，导致市场对其商业价值存在分歧
。

四、OpenAI的“被动反击”：技术升级与舆论博弈
技术层面：用“分层定价”抢占企业市场
为对冲发布受限的影响，OpenAI推出三款差异化模型：旗舰版Sol（面向高难任务）、均衡版Terra（覆盖日常工作）、入门版Luna（低成本调用），价格仅为竞品Claude Fable 5的1/3，试图通过性价比优势吸引企业客户
。

舆论层面：奥特曼公开质疑政府“挑选客户”
萨姆·奥特曼在X平台回应：“大规模安全测试并非坏事，我只是不喜欢政府挑选客户的做法”，并强调OpenAI正与美国政府协商“更可持续的模型发布机制”，试图在合规与商业自由之间寻找平衡
。

总结：GPT-5.6的“被坑”本质是AI监管与商业化的冲突
GPT-5.6的困境折射出AI行业的新矛盾：技术能力的指数级增长与监管体系的滞后性之间的错位。政府出于安全考量强制限制发布，厂商在合规与市场竞争中陷入被动，而市场乱象则进一步稀释了技术升级的实际价值。未来，AI模型的“发布权”或将长期处于政府与企业的博弈中，普通用户真正体验到GPT-5.6的全貌，仍需等待监管框架的明确落地。

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[数码讨论]刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了 [复制链接]