OpenAI現(xiàn)允許網(wǎng)站阻止其網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù),避免數(shù)據(jù)被用于訓(xùn)練AI模型
發(fā)布時(shí)間:2023-08-08 17:09:18 文章來(lái)源:中關(guān)村在線
OpenAI近日推出了一項(xiàng)新功能,允許網(wǎng)站阻止其網(wǎng)絡(luò)爬蟲(chóng)從其網(wǎng)站上抓取數(shù)


(資料圖片)

OpenAI近日推出了一項(xiàng)新功能,允許網(wǎng)站阻止其網(wǎng)絡(luò)爬蟲(chóng)從其網(wǎng)站上抓取數(shù)據(jù)訓(xùn)練GPT模型,以解決可能涉及到的數(shù)據(jù)隱私和版權(quán)問(wèn)題。網(wǎng)絡(luò)爬蟲(chóng)是一種自動(dòng)化的程序,可以在互聯(lián)網(wǎng)上搜索和獲取信息。OpenAI的網(wǎng)絡(luò)爬蟲(chóng)名為GPTBot,其會(huì)以一定的頻率訪問(wèn)各種網(wǎng)站,并將網(wǎng)頁(yè)內(nèi)容保存下來(lái),用于訓(xùn)練GPT模型。 OpenAI表示,網(wǎng)站運(yùn)營(yíng)者可以通過(guò)在其網(wǎng)站的Robots.txt文件中禁止GPTBot的訪問(wèn),或者通過(guò)屏蔽其IP地址,來(lái)阻止GPTBot從其網(wǎng)站上抓取數(shù)據(jù)。OpenAI還表示,“使用GPTBot用戶(hù)代理抓取的網(wǎng)頁(yè)可能會(huì)被用于改進(jìn)未來(lái)的模型,并且會(huì)過(guò)濾掉那些需要付費(fèi)訪問(wèn)、已知收集個(gè)人身份信息(PII)、或者有違反我們政策的文本的來(lái)源?!睂?duì)于不符合排除標(biāo)準(zhǔn)的來(lái)源,“允許GPTBot訪問(wèn)您的網(wǎng)站可以幫助AI模型變得更加準(zhǔn)確,并提高它們的通用能力和安全性。” 然而,這并不會(huì)追溯性地從ChatGPT的訓(xùn)練數(shù)據(jù)中刪除之前從網(wǎng)站上抓取的內(nèi)容?;ヂ?lián)網(wǎng)為大型語(yǔ)言模型(如OpenAI的GPT模型和谷歌的Bard)提供了大部分的訓(xùn)練數(shù)據(jù),為AI訓(xùn)練獲取數(shù)據(jù)已經(jīng)變得越來(lái)越有爭(zhēng)議。一些網(wǎng)站,包括Reddit和Twitter,已經(jīng)采取措施打擊AI公司免費(fèi)使用其用戶(hù)帖子的行為,而一些作者和其他創(chuàng)作者也因?yàn)樯嫦游唇?jīng)授權(quán)使用其作品而提起訴訟。

標(biāo)簽:

資訊播報(bào)

樂(lè)活HOT

娛樂(lè)LOVE

精彩推送