OpenAI推出隐私过滤器:开源本地化数据清理模型,移除企业数据中的个人信息
在向本地优先隐私基础设施的重大转变中,OpenAI发布了隐私过滤器,这是一款专门的开源模型,旨在检测并删除个人身份信息(PII),防止其到达云服务器。该工具今日在AI代码共享社区Hugging Face上以宽松的Apache 2.0许可发布,解决了日益增长的一个行业瓶颈:敏感数据“泄露”到训练集或在高吞吐量推理过程中暴露的风险。通过提供可运行在标准笔记本电脑或直接在网页浏览器中的15亿参数模型,该公司为开发者提供了一套“隐私设计原则”工具包,功能如同先进的、具备上下文感知能力的数字粉碎机。
尽管OpenAI创立时专注于此类开源模型,但在ChatGPT时代,该公司转向提供更多专有(“闭源”)模型,仅通过其网站、应用程序和API提供——直到去年通过推出gpt-oss语言模型系列,才大规模回归开源。结合OpenAI最近开源的智能体编排工具和框架,可以肯定地说,这位生成式AI巨头仍在大力培育AI生态系统中这一即时盈利能力较低的部分。
技术:具备双向令牌分类器的gpt-oss变体,可双向读取
从架构上看,隐私过滤器是OpenAI今年早些时候发布的开源权重推理模型gpt-oss系列的衍生品。然而,标准大型语言模型(LLMs)通常是自回归的——预测序列中的下一个令牌,而隐私过滤器是双向令牌分类器。这一区别对准确性至关重要:通过同时从两个方向查看句子,模型能获得单向模型可能错过的对上下文的更深层理解。
关注微信号:智享开源 关注微博:IMCN开源资讯网 ,可及时获取信息
评论列表
发表评论
为你推荐

[blog_mailer_subscribe]
关注微信
近期评论
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!