手握ChatGPT作弊检测工具却未发布，OpenAI在权衡什么？

在试图决定如何处理该检测工具时，OpenAI员工在这家初创公司所宣称的对透明度的承诺与吸引和留住用户的愿望之间摇摆不定。图片来源：Emil Lendof/WSJ, iStock 图片来源：Emil Lendof/WSJ, iStock

2024年8月5日13:28 CST 更新

OpenAI有一种方法可以可靠地检测出有人使用ChatGPT写论文或研究论文。尽管人们普遍担心学生使用人工智能(AI)作弊，但该公司并未发布这项方法。

根据知情人士的消息和《华尔街日报》(The Wall Street Journal)看到的内部文件，该项目在OpenAI内部陷入争论有近两年时间，并且大约一年前就已做好发布的准备。“只需要按一个键就行了，”其中一位知情人士说。

在试图决定如何处理该检测工具时，OpenAI员工在这家初创公司所宣称的对透明度的承诺与吸引和留住用户的愿望之间摇摆不定。该公司对ChatGPT忠实用户进行的一项调查发现，近三分之一的用户会因为反作弊技术而放弃使用。

OpenAI一位发言人表示，该公司担心这一工具可能会对母语非英语的人士等群体产生过大影响。“我们正在开发的文本水印方法在技术上很有前景，但也存在我们正在权衡的重要风险，我们同时也在研究替代方案，”她表示。“我们认为，考虑到所涉及的复杂性及其可能对OpenAI以外的更广泛生态系统产生的影响，我们采取的谨慎做法是必要的。”

包括参与开发该工具的员工在内，支持发布该工具的员工在公司内部表示，与这种技术可能带来的好处相比，这些论点显得苍白无力。

今年春天在巴黎举行的一次推广OpenAI的会议。

图片来源：julien de rosa/Agence France-Presse/Getty Images

生成式AI花数秒时间就可以基于一个简单的提示免费生成一整篇文章或研究论文。有教师和教授表示，他们在打击对生成式AI的滥用方面亟需帮助。

“这是一个大问题，”纽约市的高中英语和新闻教师Alexa Gutterman说。“与我共事的每一位老师都已经在谈论这个问题。”

科技政策领域非营利性组织民主与科技中心(Center for Democracy & Technology)最近进行的一项调查发现，有59%的受访初高中教师确信一些学生已使用AI来帮助完成学业，这一比例较前一学年上升了17个百分点。

OpenAI首席执行官阿尔特曼(Sam Altman)和首席技术官Mira Murati参与了有关这款防作弊工具的讨论。一些知情人士表示，阿尔特曼对推进该项目给予了鼓励，但没有推动发布这款工具的工作。

《华尔街日报》母公司新闻集团(News Corp)与OpenAI建立了内容授权合作关系。

99.9%起效

ChatGPT由一个AI系统驱动，该AI系统可预测句子中接下来应会出现哪个词或词片——被称为词元(token)。OpenAI讨论中的反作弊工具将略微改变词元的选择方式。此类变化会留下一种名为水印的图案。

这些水印用肉眼将无法察觉，但可以借助OpenAI的检测技术来识别。该检测器会给出一个衡量整个文档或部分文档由ChatGPT编写的可能性的分数。

据内部文件，当由ChatGPT创建的新文本足够多时，这些水印99.9%起效。

“这篇学期论文不带水印的可能性比明天太阳消失的可能性还小，”斯坦福大学(Stanford)研究员John Thickstun说。Thickstun所属的一个团队开发了一种为AI文本添加水印的类似方法。

不过，据一位知情的OpenAI员工称，工作人员担忧水印可能通过简单的技术加以抹除，比如用谷歌(Google)把文本翻译成另一种语言然后再翻译回来，或者让ChatGPT在文本中添加表情符然后手动删除表情符。

该公司内部普遍认为，确定谁可以使用这款检测器将是个挑战。如果使用的人太少，此项工具就派不上多少用场。如果太多人能够使用，不良行为者或许会破解该公司的水印添加技术。

OpenAI员工已讨论把这款检测器直接提供给教育工作者，或者提供给帮助学校识别AI生成的论文以及剽窃来的作品的外部公司。

员工在OpenAI位于旧金山的办公室工作。

图片来源：Clara Mokri for The Wall Street Journal

谷歌开发了一款添加水印的工具，可以检测由其Gemini AI生成的文本。该工具名为SynthID，目前处于测试阶段，尚未广泛使用。

OpenAI有一款工具可以判定图像是不是使用其文本转图像生成器DALL-E 3创建的；该生成器于今春发布用来进行测试。据知情员工称，OpenAI已优先考虑给音频和视觉素材添加水印，而非给文本添加，因为与前者有关的危害更大，尤其是在美国今年这个繁忙的选举年。

莫名含有“蝙蝠侠”的文章

2023年1月，OpenAI发布了一个算法，旨在检测由包括OpenAI自家模型在内的多个AI模型生成的文本。但其成功率仅为26%，OpenAI在七个月后撤回了该算法。

外部公司和研究人员还开发了其他工具来检测用AI生成的文本，许多教师表示用过这些工具。但这些工具有时无法检测出由高级大语言模型编写的文本，并且可能会出现误报。

起初，学生们“以为我们掌握了各种神奇的魔法，可以判断他们是否在使用AI”，为最近在佐治亚州一所私立高中任教的教育工作者提供AI咨询的Mike Kentz说。“到了年底……他们就会觉得‘等等，我的老师根本不知道这事’。”

一些教师鼓励学生使用AI来协助进行研究或对想法给出反馈。问题在于，当学生使用像ChatGPT这样的应用完成所有作业时，他们甚至不知道自己提交的是什么。

去年，犹他大学(University of Utah)政治学教授Josh McCrain给学生布置了一项写作作业，而作业须知以难以看清的小号字体呈现，其中提到了蝙蝠侠(Batman)。如果学生将作业整个复制粘贴到AI中，这些作业须知就会被一并添加。

果然，少数学生交的论文中莫名其妙地提到了蝙蝠侠。展望未来，McCrain正在对写作作业进行调整，将更多地关注AI不太熟悉的时事，并劝说学生不要将自己的作业外包给AI。“我试图向学生们反复强调的重点是：你需要学习这些东西，”他说。

OpenAI首席执行官阿尔特曼一直在参与有关反作弊工具的讨论。

图片来源：David Paul Morris/Bloomberg News

多年的争论

知情人士称，关于前述水印工具的讨论早在2022年11月OpenAI推出ChatGPT之前就开始了，并且一直是导致各方关系紧张的一个根源。该工具由得克萨斯大学(University of Texas)计算机科学教授Scott Aaronson开发，过去两年里他一直休假，在OpenAI从事安全方面的研究。

2023年初，OpenAI的联合创始人John Schulman在一份共享的谷歌文档中概述了该工具的利弊。OpenAI的高管随后决定，在采取进一步行动之前，他们将征求多方人士的意见。

在接下来的一年半时间里，OpenAI高管反复讨论了这项技术，并寻找新数据来帮他们决定是否发布该技术。

内部文件显示，2023年4月，OpenAI委托进行的一项调查结果显示，全球受访者以4比1的比例支持使用AI检测工具的想法。

同月，OpenAI对ChatGPT用户进行的调查发现，69%的用户认为作弊检测技术会导致对AI使用者的错误指控。近30%的用户表示，如果ChatGPT部署了水印而竞品没有这么做，他们会减少使用ChatGPT。

一个反复出现的内部担忧是，相关反作弊工具可能会影响ChatGPT的写作质量。知情人士说，OpenAI今年早些时候进行了一项测试，发现水印没有损害ChatGPT的性能。

据这些内部文件，参与测试的员工总结道：“既然我们知道这个工具不会降低输出质量，那么我们为不使用文本水印辩护就不那么有说服力了。”

6月初，OpenAI高级员工和研究人员再次开会讨论了该项目。他们一致认为上述水印技术运行良好，但去年ChatGPT用户调查的结果仍然非常重要。据了解会议情况的人士称，工作人员表示，OpenAI应该研究其他可能在用户中争议较小但未经证实的方法。

内部文件显示，与会者还表示，OpenAI需要在今年秋季之前制定一项计划，以引导公众对AI透明度的看法，以及可能就该主题颁布的新法律。

“如果做不到这一点，我们作为责任行为人的信誉就会受到威胁，” 6月份会议的一份摘要称。