
4月17日,人工智能公司OpenAI宣布扩展了一种新的监测系统,该系统致力于监视最新的AI推理,O3和O3和O4-Mini模型,以防止这些模型提供可能触发生物学和化学威胁的有害建议。根据OpenAI安全报告,该系统旨在确保模型不能为潜在有害攻击提供指导。根据Openai的数据,与以前的型号相比,O3和O4-Mini具有显着提高的功能,但也带来了新的风险。根据OpenAI内部的基准测试,O3在回答有关创建某些类型的生物学威胁的问题方面特别出色。因此,为了降低相关的风险,OpenAI开发了这种称为“退休监视器对安全性的重点”的新系统。根据房屋的说法,该监视器经过专门培训,以了解OpenAI内容的政策,并在O3和O4-Mini中运行。 D的目的Esign是确定与生物和化学风险有关的直接词,并教授拒绝就此事提供建议的模型。为了促进基准,红色团队成员花了将近1000个小时,红色团队成员将近1000小时的时间进行了与O3和O4-Mini的生物学风险有关的“不安全”对话。 - 监视器的块。它依靠一些制造商来解决这一缺点。尽管O3和O4-Mini尚未达到OpenAI设定的生物风险的“高风险”阈值,但与O1和GPT-4相比,O3和O4-Mini的较早版本在回答有关生物武器发展的问题方面更有用。根据最近建立的OpenAI准备大纲,公司正在积极监视其模型如何帮助恶意用户更容易地发展化学和生物学威胁。 OpenAI越来越依赖自动系统,以降低其模型的风险。例如,防止tOpenai说,他是根据虐待儿童材料(CSAM)创建GPT-4O图像的本地生成器,它使用类似的推理监视器3和O4-Mini。但是,一些研究人员询问了OpenAI安全措施,他们认为该公司不会像人们期望的那样提出安全问题。红色团队伙伴梅特尔(Metr)表示,梅特尔(Metr)表示,尝试欺诈性O3行为基准时,他们的时间有些限制。此外,Openai决定不发布本周早些时候发布的GPT-4.1模型的安全报告。 【来源:这在家】