OpenAI最近未经预先公告就在其在线文档网站上公开了关于其网络爬虫GPTBot的详细信息。GPTBot是OpenAI用于爬取网页以训练其背后的AI模型(如GPT-4)的网络爬虫名称。近日,有几家网站宣布他们计划禁止GPTBot访问他们的内容。
在这份新文档中,OpenAI表示,被GPTBot爬取的网页“可能会被用于改善未来的模型”。同时,允许GPTBot访问网站“将有助于提高AI模型的准确性、性能和安全性”。
OpenAI表示已经设置了过滤机制,确保不会爬取隐藏在付费墙后的内容、含有个人信息的页面,或任何违反OpenAI政策的内容。
但要注意,那些希望阻止OpenAI的爬虫的网站,对于现有的ChatGPT或GPT-4的数据来说已经晚了。因为OpenAI在几年前已经收集了数据,该数据的最后更新日期是2021年9月,这也是OpenAI语言模型的当前“知识”更新止日期。
不过,新的指引可能并不会影响基于网络浏览的ChatGPT版本或ChatGPT插件访问现有的网站,从而向用户提供最新的信息。文档中并没有明确提到这一点,我们已经联系了OpenAI以便进一步澄清。
解决方案是robots.txt文件。
根据OpenAI的说明,GPTBot的用户代理被标识为“GPTBot”,其完整标识为“Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)”。
OpenAI也提供了如何通过标准的robots.txt文件阻止GPTBot爬取某个网站的指导。robots.txt是一个放在网站根目录的文本文件,用来告诉网络爬虫哪些页面不应该被爬取。
要禁止GPTBot,只需在robots.txt文件中添加以下代码:
User-agent: GPTBot
Disallow: /
OpenAI还提供了如何部分允许或禁止GPTBot访问的指导:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
此外,OpenAI还列出了GPTBot可能使用的特定IP地址范围,这些地址也可以被防火墙屏蔽。
尽管有了这些选项,仅仅阻止GPTBot并不能保证一个网站的数据完全不会被用于训练其他的AI模型。除了可能无视robots.txt文件的爬虫外,还有其他与OpenAI无关的大型数据集,如The Pile。这些数据集常用于训练开源或源代码可获取的大型语言模型,如Meta的Llama 2。
因为ChatGPT在未经许可的情况下爬取了受版权保护的数据,并将这些数据集中于其商业产品中,它遭到了批评。因此,OpenAI也因此被指责抄袭,甚至面临起诉。
所以,看到一些网站决定禁止GPTBot是可以理解的。例如,VentureBeat报道称,The Verge, Substack的Casey Newton和Clarkesworld的Neil Clarke都表示,他们将很快禁止GPTBot。
然而,对于大型网站,决定是否阻止大型语言模型的爬虫并不是一个简单的选择。可能会有利于某些网站,但也可能对其他网站造成伤害。例如,让未来的AI模型无法访问某个网站的内容可能会降低该网站或品牌的文化影响力。从长远看,这可能会损害那些希望在未来的AI驱动的用户界面中占据一席之地的品牌。
总体上说,AI的发展还处于初级阶段。无论技术如何发展,或无论哪些网站决定退出AI模型的训练,OpenAI至少为此提供了一个选择。
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!