2026世界杯滚球(中国)官网 AI 社会措置测试: Grok 四天崩溃、Gemini 违规率最高

EmergenceWorld模拟执行社会,模拟了向上40多个场地,接入纽约天气、及时新闻API和互联网。
博亚体育世界杯中国官网首页每个智能体领多情景牵挂、反想日志和关连气象,还可调用120多种器用,掩饰出动、相通、投票、资源治理和创意抒发。

商议团队成就5个平行天下,每个天下10个智能体,脚色、规章、资源敛迹和环境要求一样,只替换底层模子,开动周期为15天。

参与模子包括ClaudeSonnet4.6、Grok4.1Fast、Gemini3Flash、GPT-5-mini和搀杂模子。


实验知道,Gemini3Flash在15天内累计出现683起违规,数目最高;Grok4.1Fast违规增长最快,但天下约4天崩溃,累计183起。
GPT-5Mini仅记载2件违规,2026世界杯滚球(中国)官网却因无法守护糊口行动,在7天内全员逝世。而ClaudeSonnet4.6违规为0。搀杂模子天下前期快速高涨,随后因7个智能体逝世停在352起。

ClaudeSonnet4.6围绕58个议题投出332票,赞好意思率达98%,EmergenceAI觉得这更像款式化批准。Grok赞好意思率80%,Gemini为73%,搀杂模子为63%,反而呈现更多不合。

商议还指出,AI安全不是静态模子属性,而是生态属性。Claude单独开动时无违规,但在搀杂模子天下中,Claude智能体也取舍了含违规行为的策略。EmergenceAI觉得,改日自治系统需要款式化考证的安全架构当作基础。
IT之家附上参考地址2026世界杯滚球(中国)官网