OpenAI推出隐私过滤器：开源本地化数据清理模型，移除企业数据中的个人信息

当前位置：首页
» 科技 » OpenAI推出隐私过滤器：开源本地化数据清理模型，移除企业数据中的个人信息

OpenAI推出隐私过滤器：开源本地化数据清理模型，移除企业数据中的个人信息

在向本地优先隐私基础设施的重大转变中，OpenAI发布了隐私过滤器，这是一款专门的开源模型，旨在检测并删除个人身份信息（PII），防止其到达云服务器。该工具今日在AI代码共享社区Hugging Face上以宽松的Apache 2.0许可发布，解决了日益增长的一个行业瓶颈：敏感数据“泄露”到训练集或在高吞吐量推理过程中暴露的风险。通过提供可运行在标准笔记本电脑或直接在网页浏览器中的15亿参数模型，该公司为开发者提供了一套“隐私设计原则”工具包，功能如同先进的、具备上下文感知能力的数字粉碎机。

尽管OpenAI创立时专注于此类开源模型，但在ChatGPT时代，该公司转向提供更多专有（“闭源”）模型，仅通过其网站、应用程序和API提供——直到去年通过推出gpt-oss语言模型系列，才大规模回归开源。结合OpenAI最近开源的智能体编排工具和框架，可以肯定地说，这位生成式AI巨头仍在大力培育AI生态系统中这一即时盈利能力较低的部分。

技术：具备双向令牌分类器的gpt-oss变体，可双向读取

从架构上看，隐私过滤器是OpenAI今年早些时候发布的开源权重推理模型gpt-oss系列的衍生品。然而，标准大型语言模型（LLMs）通常是自回归的——预测序列中的下一个令牌，而隐私过滤器是双向令牌分类器。这一区别对准确性至关重要：通过同时从两个方向查看句子，模型能获得单向模型可能错过的对上下文的更深层理解。

原文链接：https://venturebeat.com/data/openai-launches-privacy-filter-an-open-source-on-device-data-sanitization-model-that-removes-personal-information-from-enterprise-datasets

关注微信号：智享开源 关注微博：IMCN开源资讯网 ，可及时获取信息

0 0