内容目录
文章来源于互联网:刚刚,OpenAI安全副总裁、北大校友Lilian Weng宣布离职,有时间写博客了
翁荔的技术博客深入、细致,具有前瞻性,被很多 AI 研究者视为重要的参考资料。如今,她离开了 OpenAI,开启新的征程。而且她表示,之后可能有更多时间频繁更新博客。
-
我们训练模型使其明白,通过遵循一套定义明确的模型安全行为政策,可以让其很好地拒绝敏感或不安全的请求,包括何时拒绝或不拒绝,从而在安全性和实用性之间取得良好的平衡。 -
在每次模型发布时,我们都提高了其对抗稳健性,包括防御越狱攻击、指令层次结构以及通过推理大幅提升稳健性。我们在透明度方面的承诺都已体现在我们详细的模型系统卡中。 -
我们开发了业界领先的具有多模态能力的审核模型,并免费分享给了公众。我们目前在更通用的监控框架和增强的安全推理能力方面的工作将为更多的安全工作流提供支持。 -
我们为安全数据记录、指标、仪表板、主动学习管道、分类器部署、推理时间过滤和全新的快速响应系统建立了工程开发基础。