GitHub将用户数据用于AI训练

张开发
2026/4/6 10:11:39 15 分钟阅读

分享文章

GitHub将用户数据用于AI训练
GitHub调整策略决定将用户数据用于AI训练自4月24日起除非你选择退出否则你的数据将被用于训练“章鱼猫”某机构旗下的GitHub计划从下个月开始使用客户交互数据——特别是“输入、输出、代码片段及相关上下文”——来训练其AI模型。该代码托管平台修订后的政策适用于Copilot Free、Pro和Pro用户自4月24日起生效。Copilot Business和Copilot Enterprise用户因其合同条款而豁免。使用Copilot的学生和教师也将不受影响。受影响的用户可以根据“既定的行业惯例”选择退出——这意味着按照美国规范而不是通常要求主动选择加入的欧洲规范。要选择退出GitHub用户应访问/settings/copilot/features并在“隐私”标题下禁用“允许GitHub使用我的数据进行AI模型训练”。GitHub的首席产品官更希望你不要退出。他在一篇博客文章中写道“通过参与你将帮助我们的模型更好地理解开发工作流程提供更准确、更安全的代码模式建议并提高它们在代码进入生产环境前帮助你发现潜在错误的能力。”为了给其数据收集行为辩解GitHub在其常见问题解答中指出某机构、JetBrains及其母公司某机构都实行类似的“选择退出”数据使用政策。根据产品官的说法这一变更的理由是交互数据能使公司AI模型表现更好。他声称添加来自某机构员工的交互数据带来了有意义的改进例如AI模型建议的接受率提高了。GitHub想要的数据包括已被接受或修改的模型输出模型输入包括显示的代码片段光标位置周围的代码上下文你编写的注释和文档文件名和仓库结构与Copilot功能的交互例如聊天反馈例如点赞/点踩评分。这一政策转变确实在某种程度上改变了GitHub私有仓库的含义私有仓库名义上“仅供你、你明确授予访问权限的人以及组织仓库中的某些组织成员访问”。这些或许更准确地应描述为“GitHub私有*仓库”其中的星号表示GitHub对“私有”一词定义的局限性。正如常见问题解答中解释的那样“如果Copilot用户在其设置中启用了基于交互数据进行模型训练那么当用户在该仓库中活跃使用Copilot时来自私有仓库的代码片段可以被收集并用于模型训练。”GitHub社区近期的讨论中对此计划并无太多热情。仅从表情投票来看用户给出了59个点踩只有三个火箭表情这被认为表示某种程度的兴奋。但在这篇文章提交时发表的39条评论中除了GitHub开发者关系副总裁之外实际上没有人真正支持这个想法。如果GitHub用户认识到OpenAI的Codex——用于GitHub Copilot——是“一个基于GitHub上公开代码微调的GPT语言模型”用户的愤慨可能会有所缓解。这种表述表明数据饕餮的AI之马可以这么说早已跑出了马厩。此时关门并不能改变这样一个事实AI行业是建立在未经强烈同意表示就收集的数据之上的。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

更多文章