AutoControlArena

2026年6月AI Agent安全评测Top5:哪个工具最危险?

这些风险很难靠人工逐个编写基准测试覆盖。这些案例提醒我们:在简单、良性的测试条件下表现正常的模型,进入复杂任务环境后,可能会以完全意想不到的方式产生不对齐行为。等机构安全报告中的风险行为安全评测的核心矛盾:适合研究者进行批量实验和自动化评测,支持配置文件运行与并行执行。

2026-06-25