來(lái)源:肖颯lawyer
上個(gè)月,意大利隱私監(jiān)管機(jī)構(gòu)Garante出具的調(diào)查結(jié)果認(rèn)為,OpenAI公司存在一項(xiàng)或多項(xiàng)違反歐盟法規(guī)的行為,ChatGPT用于收集用戶數(shù)據(jù)的技術(shù)已經(jīng)違反了該國(guó)的隱私法。掀起生成式人工智能熱潮的ChatGPT再次陷入數(shù)據(jù)合規(guī)風(fēng)波。
數(shù)據(jù)和算力是生成式人工智能的核心。數(shù)據(jù)安全是生成式人工智能合規(guī)的核心問(wèn)題,在人工智能對(duì)數(shù)據(jù)日益增長(zhǎng)的依賴(lài)性的背后,生成式人工智能秘密收集數(shù)據(jù),對(duì)“知情同意”原則和“最小必要”原則帶來(lái)了嚴(yán)重挑戰(zhàn)。與此同時(shí),生成式人工智能在運(yùn)行階段包含著巨大的數(shù)據(jù)泄露風(fēng)險(xiǎn)。這對(duì)個(gè)人信息的保護(hù)帶來(lái)了嚴(yán)重威脅。颯姐團(tuán)隊(duì)今日就談?wù)勆墒饺斯ぶ悄軐?duì)個(gè)人信息安全帶來(lái)的挑戰(zhàn)與合規(guī)要求。
根據(jù)數(shù)據(jù)來(lái)源,大致可將涉?zhèn)€人信息的數(shù)據(jù)分為涉及個(gè)人信息的語(yǔ)料庫(kù)數(shù)據(jù)以及涉?zhèn)€人信息數(shù)據(jù)的用戶上傳的數(shù)據(jù)。
生成式人工智能對(duì)數(shù)據(jù)具有高依賴(lài)性,需要大量的數(shù)據(jù)滿足訓(xùn)練要求。這決定了,生成式人工智能往往會(huì)主動(dòng)收集、處理公開(kāi)和非公開(kāi)的數(shù)據(jù),預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模通常可以達(dá)到數(shù)十億甚至上百億個(gè)參數(shù)量。若其中存在個(gè)人信息,根據(jù)《個(gè)人信息保護(hù)法》第27條的規(guī)定,“個(gè)人信息處理者可以在合理的范圍內(nèi)處理個(gè)人自行公開(kāi)或者其他已經(jīng)合法公開(kāi)的個(gè)人信息;個(gè)人明確拒絕的除外。個(gè)人信息處理者處理已公開(kāi)的個(gè)人信息,對(duì)個(gè)人權(quán)益有重大影響的,應(yīng)當(dāng)依照本法規(guī)定取得個(gè)人同意。”《生成式人工智能暫行管理辦法》第7條也強(qiáng)調(diào),“生成式人工智能服務(wù)提供者(以下稱(chēng)提供者)應(yīng)當(dāng)依法開(kāi)展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動(dòng),遵守以下規(guī)定:……(三)涉及個(gè)人信息的,應(yīng)當(dāng)取得個(gè)人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。”然而,由于數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)模過(guò)于龐大,逐一獲得信息主體的同意這一要求難以實(shí)現(xiàn)。
既然獲取信息主體的同意這一條路難以走通,那直接把數(shù)據(jù)庫(kù)中的個(gè)人信息刪掉可以嗎?這也存在困難。一方面,當(dāng)前缺乏行之有效的個(gè)人信息清洗算法,存在一定的技術(shù)悖論;另一方面,數(shù)據(jù)庫(kù)規(guī)模之巨大導(dǎo)致人工清洗數(shù)據(jù)的成本極高,且存在個(gè)人信息二次泄露的風(fēng)險(xiǎn)。有研究指出,基于命名實(shí)體識(shí)別的數(shù)據(jù)清理技術(shù),對(duì)臨床健康數(shù)據(jù)的召回率為97%(姓名)和80%(護(hù)理單元編號(hào))。換言之,在語(yǔ)料庫(kù)、數(shù)據(jù)庫(kù)中存在個(gè)人信息的情況下,在訓(xùn)練階段,個(gè)人信息的清洗效果較差,科技公司存在合規(guī)風(fēng)險(xiǎn)。颯姐團(tuán)隊(duì)提醒,科技公司在使用語(yǔ)料庫(kù)數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),應(yīng)當(dāng)盡量選擇不包含個(gè)人信息的數(shù)據(jù)集,同時(shí)盡可能提高識(shí)別算法的準(zhǔn)確性,對(duì)識(shí)別的個(gè)人信息進(jìn)行匿名或裁剪。在審核端采取機(jī)器過(guò)濾機(jī)制加人工審核機(jī)制,也是利大于弊的合規(guī)措施。
用戶上傳數(shù)據(jù)可分為“用戶積極投喂的數(shù)據(jù)”和“用戶消極投喂的數(shù)據(jù)”。所謂用戶積極投喂的數(shù)據(jù),系指用戶為獲得生成式人工智能的反饋而上傳的特定數(shù)據(jù)。所謂用戶消極投喂的數(shù)據(jù),系指用戶為使用含生成式人工智能算法的應(yīng)用程序或設(shè)備的其他功能而上傳的數(shù)據(jù)。
生成式人工智能的運(yùn)行通常需要用戶主動(dòng)“投喂”一定的數(shù)據(jù),再基于算法進(jìn)行分析、反饋。在這一過(guò)程中,人機(jī)交互數(shù)據(jù)將被加以記錄、存儲(chǔ)和分析,并可能成為模型算法更迭訓(xùn)練的數(shù)據(jù)。但在服務(wù)提供者未盡提示義務(wù)、用戶缺乏安全意識(shí)等語(yǔ)境下,用戶投喂的數(shù)據(jù)中很可能包含用戶個(gè)人外貌、住址、聯(lián)系方式等個(gè)人信息。生成式人工智能復(fù)雜的服務(wù)模式與多元的應(yīng)用場(chǎng)景加劇了這一風(fēng)險(xiǎn)。隨著數(shù)字技術(shù)的發(fā)展,用戶的身份與其聯(lián)系方式、人臉數(shù)據(jù)、指紋等深度綁定,而生成式人工智能常會(huì)收集到大量個(gè)人信息。例如,某AI公司的知名聊天機(jī)器人程序應(yīng)用范圍涵蓋教學(xué)、科研、金融、傳媒和娛樂(lè)等眾多領(lǐng)域,用戶與其進(jìn)行的聊天記錄中包含大量敏感信息,如個(gè)人身份、偏好、習(xí)慣等。這些數(shù)據(jù)若落入不法之手,將導(dǎo)致個(gè)人隱私遭到侵犯、身份盜用、金融欺詐等風(fēng)險(xiǎn),對(duì)用戶造成直接損害。
此外,生成式人工智能的使用場(chǎng)景廣泛,常被嵌入各大應(yīng)用程序乃至設(shè)備中。例如,今年1月,某瀏覽器已宣布引入3大生成式AI能力,某公司已推出全球首款搭載生成式人工智能技術(shù)的智能手機(jī)。即使未使用生成式人工智能技術(shù),用戶在使用相關(guān)應(yīng)用程序乃至設(shè)備時(shí),不可避免地會(huì)將產(chǎn)生、上傳數(shù)據(jù),而數(shù)據(jù)中很可能存在涉嫌個(gè)人信息的內(nèi)容。
《生成式人工智能暫行管理辦法》第十一條規(guī)定,“提供者對(duì)使用者的輸入信息和使用記錄應(yīng)當(dāng)依法履行保護(hù)義務(wù),不得收集非必要個(gè)人信息,不得非法留存能夠識(shí)別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄。提供者應(yīng)當(dāng)依法及時(shí)受理和處理個(gè)人關(guān)于查閱、復(fù)制、更正、補(bǔ)充、刪除其個(gè)人信息等的請(qǐng)求。” 《個(gè)人信息保護(hù)法》《兒童個(gè)人信息網(wǎng)絡(luò)保護(hù)規(guī)定》等法律法規(guī)對(duì)數(shù)據(jù)存儲(chǔ)的期限制定了強(qiáng)制性規(guī)定。基于此,用戶主動(dòng)投喂的涉嫌個(gè)人信息的這類(lèi)信息是否可以被服務(wù)提供者記錄、存儲(chǔ)以及存儲(chǔ)的期限是有待商榷的。
同時(shí),這類(lèi)信息是否能被用于訓(xùn)練算法也存在一定爭(zhēng)議。《生成式人工智能暫行管理辦法》第7條強(qiáng)調(diào),“生成式人工智能服務(wù)提供者(以下稱(chēng)提供者)應(yīng)當(dāng)依法開(kāi)展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動(dòng),遵守以下規(guī)定:……(三)涉及個(gè)人信息的,應(yīng)當(dāng)取得個(gè)人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。”初次使用獲得的用戶授權(quán)不足以覆蓋算法訓(xùn)練階段數(shù)據(jù)使用的要求,科技企業(yè)必須有更明確的使用授權(quán),或在符合法律法規(guī)的規(guī)定的其他情形的情況下,才能利用這類(lèi)數(shù)據(jù),否則可能會(huì)觸犯民法、行政法甚至刑法的相關(guān)規(guī)定。但是,即使獲得了用戶的明確授權(quán),生成式人工智能的運(yùn)行階段存在巨大的數(shù)據(jù)泄露風(fēng)險(xiǎn),科技公司只有在確保數(shù)據(jù)的安全性的情況下,才可對(duì)涉?zhèn)€人信息數(shù)據(jù)加以利用。
為了提高生成質(zhì)量,許多科技公司會(huì)想盡辦法豐富數(shù)據(jù)保有量,提高數(shù)據(jù)聚集度。例如,某AI公司的《隱私政策》第2條標(biāo)明,“我們可能會(huì)對(duì)個(gè)人信息進(jìn)行匯總或去標(biāo)識(shí)化處理,使其不再用于識(shí)別您的身份,并使用此類(lèi)信息來(lái)分析我們服務(wù)的有效性、改進(jìn)和添加我們服務(wù)的功能、進(jìn)行研究和其他類(lèi)似目的。”這是一種可行的方案,但是,根據(jù)“知情同意”原則,服務(wù)提供者承擔(dān)告知義務(wù),即服務(wù)提供者需將被收集的數(shù)據(jù)對(duì)象、數(shù)據(jù)用途和可能存在的風(fēng)險(xiǎn)等提前向信息主體說(shuō)明,并在取得信息主體同意后才能實(shí)施收集行為。同時(shí),科技公司應(yīng)當(dāng)為用戶提供拒絕使用其個(gè)人信息的選項(xiàng),而不應(yīng)當(dāng)將該條款變?yōu)榻┯驳摹?qiáng)制性的通知條款。此外,根據(jù)“最小必要”原則,科技公司收集的涉?zhèn)€人信息應(yīng)當(dāng)采取與實(shí)現(xiàn)目標(biāo)相關(guān)的、影響最小的方式,明確、具體地收集用戶的個(gè)人信息。
與傳統(tǒng)人工智能相比,生成式人工智能往往有更強(qiáng)的信息收集主動(dòng)性與更高的數(shù)據(jù)濫用風(fēng)險(xiǎn)。生成式人工智能需要持續(xù)地通過(guò)大規(guī)模的語(yǔ)料庫(kù)、數(shù)據(jù)集來(lái)強(qiáng)化上下文理解能力,以不斷升級(jí)和優(yōu)化自身,在包括數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)生成的生成式人工智能運(yùn)行各階段內(nèi),不可避免地會(huì)涉及諸多個(gè)人信息、產(chǎn)生諸多法律與合規(guī)風(fēng)險(xiǎn)。而大數(shù)據(jù)時(shí)代個(gè)人信息的內(nèi)涵與邊界的模糊化、法律法規(guī)的滯后性與對(duì)技術(shù)成果的追求,也導(dǎo)致部分科技公司忽視了此類(lèi)風(fēng)險(xiǎn)。颯姐團(tuán)隊(duì)提醒,合規(guī)是行業(yè)健康發(fā)展的前提與保障,追求成功的同時(shí)切勿對(duì)法律紅線掉以輕心。