OpenAI 再惹禍？個人信息合規成“鎖喉”難題？

訪客 2年前 (2024-02-20) 閱讀數 288 #區塊鏈

文章標簽前沿文章

來源：肖颯lawyer

上個月，意大利隱私監管機構Garante出具的調查結果認為，OpenAI公司存在一項或多項違反歐盟法規的行為，ChatGPT用于收集用戶數據的技術已經違反了該國的隱私法。掀起生成式人工智能熱潮的ChatGPT再次陷入數據合規風波。

數據和算力是生成式人工智能的核心。數據安全是生成式人工智能合規的核心問題，在人工智能對數據日益增長的依賴性的背后，生成式人工智能秘密收集數據，對“知情同意”原則和“最小必要”原則帶來了嚴重挑戰。與此同時，生成式人工智能在運行階段包含著巨大的數據泄露風險。這對個人信息的保護帶來了嚴重威脅。颯姐團隊今日就談談生成式人工智能對個人信息安全帶來的挑戰與合規要求。

01?語料庫數據的收集與使用

根據數據來源，大致可將涉個人信息的數據分為涉及個人信息的語料庫數據以及涉個人信息數據的用戶上傳的數據。

生成式人工智能對數據具有高依賴性，需要大量的數據滿足訓練要求。這決定了，生成式人工智能往往會主動收集、處理公開和非公開的數據，預訓練數據的規模通常可以達到數十億甚至上百億個參數量。若其中存在個人信息，根據《個人信息保護法》第27條的規定，“個人信息處理者可以在合理的范圍內處理個人自行公開或者其他已經合法公開的個人信息；個人明確拒絕的除外。個人信息處理者處理已公開的個人信息，對個人權益有重大影響的，應當依照本法規定取得個人同意。”《生成式人工智能暫行管理辦法》第7條也強調，“生成式人工智能服務提供者（以下稱提供者）應當依法開展預訓練、優化訓練等訓練數據處理活動，遵守以下規定：……（三）涉及個人信息的，應當取得個人同意或者符合法律、行政法規規定的其他情形。”然而，由于數據庫數據規模過于龐大，逐一獲得信息主體的同意這一要求難以實現。

既然獲取信息主體的同意這一條路難以走通，那直接把數據庫中的個人信息刪掉可以嗎？這也存在困難。一方面，當前缺乏行之有效的個人信息清洗算法，存在一定的技術悖論；另一方面，數據庫規模之巨大導致人工清洗數據的成本極高，且存在個人信息二次泄露的風險。有研究指出，基于命名實體識別的數據清理技術，對臨床健康數據的召回率為97%(姓名)和80%(護理單元編號)。換言之，在語料庫、數據庫中存在個人信息的情況下，在訓練階段，個人信息的清洗效果較差，科技公司存在合規風險。颯姐團隊提醒，科技公司在使用語料庫數據進行訓練時，應當盡量選擇不包含個人信息的數據集，同時盡可能提高識別算法的準確性，對識別的個人信息進行匿名或裁剪。在審核端采取機器過濾機制加人工審核機制，也是利大于弊的合規措施。

02?用戶上傳信息的收集與使用

用戶上傳數據可分為“用戶積極投喂的數據”和“用戶消極投喂的數據”。所謂用戶積極投喂的數據，系指用戶為獲得生成式人工智能的反饋而上傳的特定數據。所謂用戶消極投喂的數據，系指用戶為使用含生成式人工智能算法的應用程序或設備的其他功能而上傳的數據。

生成式人工智能的運行通常需要用戶主動“投喂”一定的數據，再基于算法進行分析、反饋。在這一過程中，人機交互數據將被加以記錄、存儲和分析，并可能成為模型算法更迭訓練的數據。但在服務提供者未盡提示義務、用戶缺乏安全意識等語境下，用戶投喂的數據中很可能包含用戶個人外貌、住址、聯系方式等個人信息。生成式人工智能復雜的服務模式與多元的應用場景加劇了這一風險。隨著數字技術的發展，用戶的身份與其聯系方式、人臉數據、指紋等深度綁定，而生成式人工智能常會收集到大量個人信息。例如，某AI公司的知名聊天機器人程序應用范圍涵蓋教學、科研、金融、傳媒和娛樂等眾多領域，用戶與其進行的聊天記錄中包含大量敏感信息，如個人身份、偏好、習慣等。這些數據若落入不法之手，將導致個人隱私遭到侵犯、身份盜用、金融欺詐等風險，對用戶造成直接損害。

此外，生成式人工智能的使用場景廣泛，常被嵌入各大應用程序乃至設備中。例如，今年1月，某瀏覽器已宣布引入3大生成式AI能力，某公司已推出全球首款搭載生成式人工智能技術的智能手機。即使未使用生成式人工智能技術，用戶在使用相關應用程序乃至設備時，不可避免地會將產生、上傳數據，而數據中很可能存在涉嫌個人信息的內容。

《生成式人工智能暫行管理辦法》第十一條規定，“提供者對使用者的輸入信息和使用記錄應當依法履行保護義務，不得收集非必要個人信息，不得非法留存能夠識別使用者身份的輸入信息和使用記錄，不得非法向他人提供使用者的輸入信息和使用記錄。提供者應當依法及時受理和處理個人關于查閱、復制、更正、補充、刪除其個人信息等的請求。” 《個人信息保護法》《兒童個人信息網絡保護規定》等法律法規對數據存儲的期限制定了強制性規定。基于此，用戶主動投喂的涉嫌個人信息的這類信息是否可以被服務提供者記錄、存儲以及存儲的期限是有待商榷的。

同時，這類信息是否能被用于訓練算法也存在一定爭議。《生成式人工智能暫行管理辦法》第7條強調，“生成式人工智能服務提供者（以下稱提供者）應當依法開展預訓練、優化訓練等訓練數據處理活動，遵守以下規定：……（三）涉及個人信息的，應當取得個人同意或者符合法律、行政法規規定的其他情形。”初次使用獲得的用戶授權不足以覆蓋算法訓練階段數據使用的要求，科技企業必須有更明確的使用授權，或在符合法律法規的規定的其他情形的情況下，才能利用這類數據，否則可能會觸犯民法、行政法甚至刑法的相關規定。但是，即使獲得了用戶的明確授權，生成式人工智能的運行階段存在巨大的數據泄露風險，科技公司只有在確保數據的安全性的情況下，才可對涉個人信息數據加以利用。

為了提高生成質量，許多科技公司會想盡辦法豐富數據保有量，提高數據聚集度。例如，某AI公司的《隱私政策》第2條標明，“我們可能會對個人信息進行匯總或去標識化處理，使其不再用于識別您的身份，并使用此類信息來分析我們服務的有效性、改進和添加我們服務的功能、進行研究和其他類似目的。”這是一種可行的方案，但是，根據“知情同意”原則，服務提供者承擔告知義務，即服務提供者需將被收集的數據對象、數據用途和可能存在的風險等提前向信息主體說明，并在取得信息主體同意后才能實施收集行為。同時，科技公司應當為用戶提供拒絕使用其個人信息的選項，而不應當將該條款變為僵硬的、強制性的通知條款。此外，根據“最小必要”原則，科技公司收集的涉個人信息應當采取與實現目標相關的、影響最小的方式，明確、具體地收集用戶的個人信息。

03?寫在最后

與傳統人工智能相比，生成式人工智能往往有更強的信息收集主動性與更高的數據濫用風險。生成式人工智能需要持續地通過大規模的語料庫、數據集來強化上下文理解能力，以不斷升級和優化自身，在包括數據收集、數據存儲、數據處理和數據生成的生成式人工智能運行各階段內，不可避免地會涉及諸多個人信息、產生諸多法律與合規風險。而大數據時代個人信息的內涵與邊界的模糊化、法律法規的滯后性與對技術成果的追求，也導致部分科技公司忽視了此類風險。颯姐團隊提醒，合規是行業健康發展的前提與保障，追求成功的同時切勿對法律紅線掉以輕心。

上一篇：投資理財的重要性（投資理財的重要性的認識）下一篇：Arweave的潛力是復興亞歷山大圖書館而非Filecoin替代品