切换到宽版
  • 12阅读
  • 2回复

[数码讨论]刚刚,GPT-5.6 正式发布,史上最强但被自己坑惨了 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
260967
金币
1018248
道行
2006
原创
2478
奖券
3735
斑龄
47
道券
1645
获奖
0
座驾
设备
摄影级
在线时间: 53677(小时)
注册时间: 2008-10-01
最后登录: 2026-06-29
只看楼主 倒序阅读 楼主  发表于: 昨天 09:34

就在刚刚,GPT-5.6 系列正式发布,不过,它并没有直接全面开放,而是以「有限预览」的方式先行试水。

文章配图-1

作为 OpenAI 最强的一代, GPT-5.6 一口气端出三款型号,名字起得颇有诗意:

Sol(太阳)是旗舰模型,也是 OpenAI 口中目前最强的模型;

Terra(地球/大地)是面向日常工作的平衡型模型,性能可以与 GPT-5.5 竞争,同时价格便宜一半;

Luna(月亮)主打速度和低成本,是 GPT-5.6 系列中最便宜的模型。

从这命名方式来看,奥特曼私底下没少学习 Anthropic 营销的精髓。而借着 GPT-5.6 的发布,OpenAI 也顺手把命名体系重新梳理了一遍:

数字表示代际,Sol、Terra、Luna 对应不同能力层级,便于区分智能水平、速度与成本。产品定位上,Sol 面向高难复杂任务,Terra 覆盖日常工作流,Luna 主打低成本调用。

换句话说,GPT-5.6 不只是一次能力升级,也是 OpenAI 对模型产品线的一次重新分层。

文章配图-1

🔗 https://openai.com/index/previewing-gpt-5-6-sol/

GPT-5.6 深夜突袭,能力全系霸榜

作为 OpenAI 迄今最强模型。GPT-5.6 Sol 的能力展示,主要集中在编程、生物信息学和网络安全三个方向。

这三类场景有一个共同特征:

复杂、长链条、强依赖上下文。模型需要在任务中持续规划、推理、调用工具、修正错误,并不断推进流程。OpenAI 把这种能力称为 agentic capabilities——让模型更像一个能独立执行任务的 agent。

在编程场景中,GPT-5.6 Sol 已经不再停留在代码补全,而是深入到命令行环境中的复杂操作。

OpenAI 称,Sol 在 Terminal-Bench 2.1 上刷新了表现。Terminal-Bench 2.1 测试的是命令行工作流,任务要求模型具备规划、迭代和工具协调能力。

文章配图-2

基准测试成绩显示,GPT-5.6 Sol Ultra 在 Terminal-Bench 2.1 上得分 91.9%,GPT-5.6 Sol 得分 88.8%。作为对照,GPT-5.5 为 88.0%,GPT-5.6 Terra 为 82.5%,GPT-5.6 Luna 为 84.3%。

横向对比其它模型,Claude Mythos 5 为 84.3%,Claude Fable 5 为 83.4%,Claude Opus 4.8 为 78.9%,Gemini 3.1 Pro Preview 为 70.7%。

文章配图-3

Sol Ultra 的成绩,也对应 GPT-5.6 的核心功能。

一方面,max 级别的推理强度让模型可以投入更多时间进行深度推理;另一方面,新增的 Ultra 模式会调度多个子 Agent,把复杂任务拆分处理,再统一汇总结果。

在真实开发场景里,模型经常需要理解项目结构、读取文件、修改代码、运行命令、分析报错、继续修改。一个复杂任务通常无法靠一次回答完成。Ultra 模式的方向,是让多个子 Agent 分别处理不同环节,再把结果汇总起来,从而提高复杂任务的完成效率。

生物方向上,GPT-5.6 Sol 的提升体现在 GeneBench v1 上。这个评测主要面向长周期基因组学和定量生物分析任务。OpenAI 称,Sol 相比 GPT-5.5 取得了更强结果,而且使用的输出 tokens 更少。

文章配图-4

文章配图-5

文章配图-6

向左更多内容

这一点对科研场景尤为关键。生物信息学、基因组学和定量生物分析,经常需要模型持续分析数据、解释结果、选择方法、比较假设,并在多轮操作中保持上下文一致。模型能不能完成这类任务很重要,能不能用更低 tokens 成本完成长链条分析同样重要。

如果 Sol 能在更少输出 tokens 下取得更强结果,意味着它在专业科研工作流中有更好的成本效率。对实验室、企业研发团队和生物医药场景来说,tokens 消耗直接影响调用成本,也影响模型能否进入大规模工作流。

网络安全则是 GPT-5.6 Sol 最敏感的能力方向。

OpenAI 称,Sol 是其迄今最强的网络安全模型,能够推进长周期安全任务的性能和效率边界,包括漏洞研究和 exploitation 相关任务。

在 ExploitBench 上,GPT-5.6 Sol 的表现接近 Mythos Preview,但只使用了大约三分之一的输出 tokens。

文章配图-7

同时,OpenAI 还提到 ExploitGym——一个由 UC Berkeley 联合多家前沿实验室打造的评测体系,用于衡量模型在安全任务中的能力。随着推理能力提升,Sol、Terra、Luna 在这一领域都有明显进步。

文章配图-8

不过,OpenAI 对这部分表述明显踩了刹车。

基于这些结果,OpenAI 判断 GPT-5.6 Sol 尚未跨过 Preparedness Framework 中的网络安全关键风险阈值。

文章配图-9

System Card 🔗:https://deploymentsafety.openai.com/gpt-5-6-preview/introduction

这种踩刹车的判断显然是为了避免重走「Mythos」的老路。

一方面,OpenAI 要证明 Sol 在网络安全任务上确实强了很多;另一方面,它也要说明 Sol 还没有达到必须极端限制的风险级别。更讽刺的是, 这种压力很大程度上来自 OpenAI 自己参与塑造的 AI 行业炒作叙事。

与此同时,OpenAI 也承认,基准测试无法覆盖所有现实用法。没有任何评测可以代表所有产品配置、多步骤攻击和真实工作流。模型可能被接入其他工具,也可能被放进更复杂的攻击链条里。

正是这种不确定性,让 GPT-5.6 的发布方式变得格外谨慎。

性能最强,但戏份却给了 AI 安全

GPT-5.6 的发布说明中,安全罕见地占据了较大篇幅。

OpenAI 为 Sol、Terra、Luna 配置了分级防护体系,能力越强,防护越严,目标是在压制攻击性用途的同时保留代码审查、漏洞研究等合法场景。

这套机制被称为分层安全栈,涵盖模型拒答、实时检测、账号审查、差异化访问与持续测试。多层协同用于应对复杂滥用,同时尽量减少对正常工作的干扰。

面向企业客户,OpenAI 还提出了隐私保护检测、自主安全控制以及风险分级访问等方案,试图在安全与数据保护之间找到平衡点。

文章配图-10

为了避免重蹈覆辙,OpenAI 在自动化红队测试上投入了超过 70 万 A100 等效 GPU 小时,重点寻找通用 jailbreak(越狱),并辅以专家人工测试。OpenAI 还建立快速响应流程,对新漏洞进行复现、评估与修复,并纳入持续评测体系。

可用性方面,GPT-5.6 目前仍处于有限预览阶段。

OpenAI 表示,模型将先通过 API 和 Codex 向一部分可信合作伙伴开放,随后再逐步扩展到 ChatGPT、Codex 和更广泛的 API 用户。

同时,OpenAI 也强调,自己相信前沿模型应该尽可能广泛地开放,并计划在未来几周内,让 GPT-5.6 Sol、Terra 和 Luna 进入更普遍的可用状态。

文章配图-11

看起来评价不太妙

价格体系也同步公布:

按每百万 tokens 计费,Sol 输入 5 美元、输出 30 美元;Terra 输入 2.5 美元、输出 15 美元;Luna 输入 1 美元、输出 6 美元。

文章配图-12

同时,GPT-5.6 引入了更可预测的 prompt caching 机制,支持显式 cache breakpoints,并提供至少 30 分钟缓存生命周期。缓存写入按未缓存输入价格的 1.25 倍计费,读取则享受 90% 折扣。

当然,想要用上还需要一些时日, OpenAI 宣布 GPT-5.6 Sol 将在 7 月登陆 Cerebras,最高速度可达每秒 750 tokens。这个版本初期同样只面向部分客户开放,后续会随着容量扩展逐步放开。

换句话说,GPT-5.6 的「有限预览」并不只是产品灰度发布,更是一套安全验证流程。OpenAI 需要在能力、风险与开放之间,找到一个可控的平衡点。

前沿模型发布节奏,进入新周期

两周前,Anthropic 停用了其最强模型之一 Fable 5,因为美国政府要求该公司限制美国境内外外国公民使用相关模型,理由是国家安全。

而在 GPT-5.6 的发布流程中,第一批使用用户同样不完全由 OpenAI 自己决定。

OpenAI 在官方博客中披露,在发布前已向美国政府展示 GPT-5.6 的能力与发布计划。根据美国政府要求,模型将以有限预览形式上线, 仅向少数可信合作伙伴开放,并且这些合作伙伴的信息已与政府共享。

文章配图-13

《华盛顿邮报》的报道提到,美国联邦政府将审核哪些公司可以访问 OpenAI 的最新技术。且目前只有获得美国政府批准的公司可以访问新模型, 个人用户没有申请通道。

彭博社则报道称, GPT-5.6 首批开放对象约为 20 家合作伙伴,其中一个入口可能是亚马逊的 Bedrock 平台。

对此,OpenAI 的态度显然是有些模凌两可。OpenAI 在博客中表示,不认为美国政府参与模型访问流程应当成为长期默认机制,因为这会让最好的工具远离用户、开发者、企业、网络防御者和全球合作伙伴。

文章配图-14

但现实是,OpenAI 仍选择接受这一安排,理由是希望争取更广泛开放,同时与美国政府共同制定一套可复制的模型发布流程。

这一变化背后,是前沿 AI 模型逐渐被纳入国家安全框架。

过去,新模型发布主要是公司产品节奏问题。现在,一旦模型在编程、网络安全、生物和代理式工作流上跨过新的能力区间,发布节奏就可能被纳入安全和出口控制讨论。

对 OpenAI 来说,GPT-5.6 既是一次旗舰模型预览,也是一次政策试探。OpenAI 需要证明 Sol 足够强,也需要证明安全体系足够严密,还要在美国政府审查和商业开放之间找到可执行路径。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
260967
金币
1018248
道行
2006
原创
2478
奖券
3735
斑龄
47
道券
1645
获奖
0
座驾
设备
摄影级
在线时间: 53677(小时)
注册时间: 2008-10-01
最后登录: 2026-06-29
只看该作者 沙发  发表于: 昨天 09:35
GPT-5.6全系列深度解读:太阳系三款新品首发,性能霸榜、分级定价,受限监管开启限量预览
北京时间6月27日凌晨,OpenAI正式推出GPT-5.6完整产品线,抛弃过往Pro/Mini命名规则,采用Sol(太阳)、Terra(大地)、Luna(月亮) 天体体系全新分层,主打Agent智能体自主工作能力,在编程、生物信息、网络安全三大硬核领域实现全面升级。本次并未全面公开发布,受美国政府监管要求,仅开启有限预览白名单机制,首批仅20余家审批通过的可信企业可接入,标志着全球顶尖大模型正式进入性能升级+安全管控+政策约束的全新发布周期。


一、三款模型精准定位,完整重构OpenAI产品线
本次三款产品覆盖顶级科研、日常商用、低成本高频调用全场景,层级清晰,性价比策略明确:
1. GPT-5.6 Sol(太阳)|旗舰顶配版
OpenAI官宣当下最强模型,专攻长链条复杂推理、多步骤自主Agent任务,面向高端研发、代码工程、生物医药、网络安全攻防等高难度专业场景。新增Max高强度推理模式,可预留算力深度思考;独家Ultra多子Agent协同模式,能够自动拆解复杂任务、多线程分工处理,最后整合输出结果,是本次技术革新的核心。
2. GPT-5.6 Terra(大地)|均衡主力版
对标上代GPT-5.5综合性能,能力基本持平前代旗舰,但调用价格直接减半,专为企业日常办公、批量文案、常规数据分析、通用开发等全量日常工作流打造,是企业规模化商用的主力型号。
3. GPT-5.6 Luna(月亮)|高速低价版
全系列成本门槛最低的型号,侧重响应速度与海量高频吞吐,适合批量内容处理、简单自动化脚本、轻量客服等刚需低成本场景,大幅降低中小企业常态化调用门槛。

官方分级定价(每百万Tokens)
| 型号 | 输入单价 | 输出单价 | 核心定位 |
| ---- | ---- | ---- | ---- |
| Sol 旗舰 | 5美元 | 30美元 | 复杂科研、网络安全、大型工程开发 |
| Terra 均衡 | 2.5美元 | 15美元 | 企业日常办公、常规商用全场景 |
| Luna 轻量 | 1美元 | 6美元 | 高频批量任务、低成本轻量化调用 |

配套升级长效Prompt缓存机制,缓存有效期最低30分钟,读取缓存享9折优惠,大幅降低企业重复上下文调用的长期成本;7月Sol版本将登陆Cerebras硬件平台,最高推理速度可达750tokens/秒,后续随算力扩容逐步放开。

二、核心性能实测:三大专业赛道全面霸榜
Sol旗舰版的能力提升集中在长上下文链式任务,各项基准测试全面超越Claude、Gemini同级竞品:
1. 编程能力(Terminal-Bench 2.1)登顶
标准版Sol得分88.8%,Ultra多智能体模式飙升至91.9%,远超GPT-5.5(88.0%)、Claude Mythos 5(84.3%)、Gemini 3.1 Pro(70.7%)。模型可完整完成命令行全流程操作:读取项目文件、批量改代码、运行调试、分析报错迭代修复,真正实现完整开发流程自主执行。
2. 生物基因组科研:高效省Token
在GeneBench v1基因组评测中,Sol性能全面超越GPT-5.5,完成同等复杂的长周期基因数据分析、定量生物演算,输出Token消耗量更少,在生物医药实验室长期大规模科研场景中,兼顾精度与调用成本。
3. 网络安全攻防:高效轻量化推理
ExploitBench漏洞测试中,Sol性能逼近Claude Mythos Preview,但仅使用对方约1/3的输出Token,长周期漏洞挖掘、渗透研究效率大幅提升。
OpenAI明确判定:该模型网络安全能力尚未触及内部安全框架的高危临界阈值,因此不会执行极端封禁,但安全管控力度全面升级。

三、安全体系全面加码,分层防护应对滥用风险
鉴于前代顶级模型的安全争议,GPT-5.6搭建分级分层安全栈,模型性能越强,防护规则越严苛,兼顾合法研究与风险防控:
1. 多层防护机制:内置模型原生拒答规则、实时调用行为检测、企业账号资质审核、差异化权限访问、常态化红队持续测试五层体系,精准拦截恶意攻击类请求,同时放行代码审计、合规漏洞研究等合法安全工作。
2. 高强度前置测试:投入超70万A100等效GPU算力开展自动化红队越狱测试,搭配安全专家人工核验,针对新型越狱漏洞建立快速修复响应流程,动态更新安全规则库。
3. 企业专属隐私方案:面向商用客户开放数据隐私检测、本地自主安全管控、风险分级权限等功能,平衡模型能力、数据隐私与合规安全。

四、开放规则大变:政府前置审核,白名单限量预览
本次发布最大的变化,是前沿大模型首次将政府审批纳入访问准入流程,完全区别于以往公开发售的模式:
1. 首批准入范围极小:初期仅对约20家经过美国政府完整审核的本土可信合作伙伴开放API与Codex通道,合作企业名单同步报备监管部门,个人普通用户暂无申请入口,无法在ChatGPT客户端直接体验新版模型。
2. 开放节奏规划:OpenAI计划在未来几周,逐步扩大API合作范围,后续视安全验证结果与政策协商进度,再推进面向大众ChatGPT用户的上线计划。入口优先开放亚马逊Bedrock企业平台。
3. OpenAI的矛盾立场
官方表态:政府逐一审核访问权限,不该成为长期常态,会持续和美方监管部门协商,争取更广泛、透明的市场化开放路径;但现阶段为顺利推进后续全面放开,主动接受本次限量审批的安排。

两周前Anthropic王牌模型Fable 5因国家安全要求受限停用,两大头部AI厂商先后受政策约束,预示着全球顶级大模型的迭代发布,已经跳出单纯的产品商业节奏,正式纳入国家安全、出口管制、地缘监管的框架之中。

五、行业深层总结
1. 产品线战略成型
GPT-5.6完成了高、中、低三档模型的完整布局,Sol对标高端科研算力市场,Terra承接企业主力商用,Luna下沉轻量化海量场景,精准卡位不同价位赛道,正面全线对标Anthropic全系Claude产品。
2. Agent自主智能成为下一阶段核心赛道
本次迭代不再单纯堆砌上下文长度、通用对话能力,全力深耕多智能体协同、长任务自主规划纠错,AI正在从“问答工具”,向可独立完成完整工作流的智能代理快速进化。
3. AI行业进入“性能与管制双向博弈”时代
顶级大模型性能突破的同时,各国监管收紧已成必然趋势。未来顶尖模型的发布、开放、海外准入,都会附带严格的安全审查与权限管控,技术发展、商业落地、国家安全三者的平衡,将成为所有AI企业必须面对的核心课题。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
190605
金币
709640
道行
20100
原创
769
奖券
545
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 24295(小时)
注册时间: 2012-06-21
最后登录: 2026-06-29
只看该作者 板凳  发表于: 昨天 10:59
GPT-5.6确实以“史上最强”的姿态发布,但受多重因素制约,出现了“被自己坑惨了”的争议局面,核心矛盾集中在发布受限、技术风险、市场乱象三大方面:

一、发布节奏被“截胡”:史上最强模型沦为“特权产品”
政府强制分阶段上线
美国政府要求OpenAI对GPT-5.6采取“一客一审”的严格准入机制,仅向20家经过审批的“可信合作伙伴”开放有限预览,普通用户无法直接体验。OpenAI CEO萨姆·奥特曼在内部备忘录中无奈表示:“这并非我们长期倾向的运营模式”,但不得不配合政府的“逐客户审批”要求


打破AI行业“唯快不破”规则
过去大模型竞争的核心是“首发速度”,但GPT-5.6的发布标志着这一规则被颠覆——模型能否上线不再由厂商决定,而是取决于政府审批。Anthropic的Claude Mythos 5同样因安全审查被迫延迟发布,AI行业的“发布自由”时代或已终结


二、技术能力“双刃剑”:超强性能引发监管担忧
安全能力过强,被质疑“接近国家级黑客工具”
GPT-5.6旗舰版Sol在网络安全任务中表现过于突出:在漏洞挖掘、渗透测试等长链条攻击场景中,仅需1/3的Token输出就能达到竞品Claude Mythos 5的攻击效果;在ExploitBench测试中,其漏洞利用能力被美国国土安全部评估为“接近国家级黑客工具水平”,存在被恶意利用的风险


自主智能体能力失控风险
该模型支持多步骤任务自主拆解、工具链自动调用和跨天级长周期执行,能独立完成代码审计、系统漏洞修复等复杂工作。监管部门担忧,这种高度自主的AI系统若缺乏管控,可能引发不可预测的安全事故


三、市场乱象频发:虚假宣传干扰行业判断
80%的“实测内容”为造假
发布后网络上涌现大量GPT-5.6实测视频/文章,但媒体调查显示,超80%内容为造假:要么是用GPT-4o套壳并修改模型标识,要么是搭建仿冒UI界面,甚至直接编造测试数据。OpenAI官方已提醒用户警惕,部分开发者社区曝光了27个造假案例


性能优势被夸大,企业价值存疑
尽管官方宣称GPT-5.6在代码生成、智能体协作等领域有显著提升(如开发周期缩短35%、代码缺陷率降低28%),但多数企业用户因无法接触真实模型,难以验证这些数据的真实性,导致市场对其商业价值存在分歧


四、OpenAI的“被动反击”:技术升级与舆论博弈
技术层面:用“分层定价”抢占企业市场
为对冲发布受限的影响,OpenAI推出三款差异化模型:旗舰版Sol(面向高难任务)、均衡版Terra(覆盖日常工作)、入门版Luna(低成本调用),价格仅为竞品Claude Fable 5的1/3,试图通过性价比优势吸引企业客户


舆论层面:奥特曼公开质疑政府“挑选客户”
萨姆·奥特曼在X平台回应:“大规模安全测试并非坏事,我只是不喜欢政府挑选客户的做法”,并强调OpenAI正与美国政府协商“更可持续的模型发布机制”,试图在合规与商业自由之间寻找平衡


总结:GPT-5.6的“被坑”本质是AI监管与商业化的冲突
GPT-5.6的困境折射出AI行业的新矛盾:技术能力的指数级增长与监管体系的滞后性之间的错位。政府出于安全考量强制限制发布,厂商在合规与市场竞争中陷入被动,而市场乱象则进一步稀释了技术升级的实际价值。未来,AI模型的“发布权”或将长期处于政府与企业的博弈中,普通用户真正体验到GPT-5.6的全貌,仍需等待监管框架的明确落地。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个