• / 21
  • 下載費用:30 金幣  

針對好奇推薦器的隱私保護.pdf

摘要
申請專利號:

CN201380071863.1

申請日:

2013.08.07

公開號:

CN104995631A

公開日:

2015.10.21

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回IPC(主分類):G06F 21/62申請公布日:20151021|||實質審查的生效IPC(主分類):G06F 21/62申請日:20130807|||公開
IPC分類號: G06F21/62; G06Q30/02; H04N21/466 主分類號: G06F21/62
申請人: 湯姆遜許可公司
發明人: E.埃奧安尼迪斯; E.溫斯伯格; S.巴加特; N.法瓦茲; A.F.蒙塔納里; N.A.塔夫特
地址: 法國伊西萊穆利諾
優先權: 61/761,330 2013.02.06 US
專利代理機構: 北京市柳沈律師事務所11105 代理人: 呂曉章
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201380071863.1

授權公告號:

||||||

法律狀態公告日:

2018.05.08|||2016.03.09|||2015.10.21

法律狀態類型:

發明專利申請公布后的視為撤回|||實質審查的生效|||公開

摘要

描述一種用于在推薦器系統中保護用戶隱私的方法和裝置,其包括:確定針對電影將什么信息發布給用戶;將信息傳送給用戶;接受來自用戶的迷惑輸入;以及估計用戶的非隱私特征向量。還描述一種用于在推薦器系統中保護用戶隱私的方法和裝置,其包括:接收電影信息;接受用戶的電影反饋;接受用戶的隱私信息;計算迷惑值;以及傳送迷惑值。

權利要求書

權利要求書
1.  一種用于在推薦器系統中保護用戶隱私的方法,所述方法包括:
確定針對電影將什么信息發布給用戶;
將所述信息傳送給所述用戶;
接受來自所述用戶的迷惑輸入;以及
估計所述用戶的非隱私特征向量。

2.  根據權利要求1所述的方法,其中來自所述用戶的所述迷惑輸入包括被迷惑以保護用戶隱私信息的電影反饋。

3.  根據權利要求2所述的方法,其中所述電影反饋包括電影評級或電影評定。

4.  一種用于在推薦器系統中保護用戶隱私的方法,所述方法包括:
接收電影信息;
接受用戶的電影反饋;
接受用戶的隱私信息;
計算迷惑值;以及
傳送所述迷惑值。

5.  根據權利要求4所述的方法,其中來自所述用戶的迷惑輸入包括被迷惑以保護用戶隱私信息的電影反饋。

6.  根據權利要求5所述的方法,其中所述電影反饋包括電影評級或電影評定。

7.  根據權利要求4所述的方法,其中所述用戶隱私信息包括特性、特征、值或數據。

8.  根據權利要求4所述的方法,其中通過從所述用戶的電影反饋中減去所述用戶的隱私信息的貢獻來計算所述迷惑值。

9.  一種用于在推薦器系統中保護用戶隱私的裝置,包含:
用于確定針對電影將什么信息發布給用戶的部件;
用于將所述信息傳送給所述用戶的部件;
用于接受來自所述用戶的迷惑輸入的部件;以及
用于估計所述用戶的非隱私特征向量的部件。

10.  根據權利要求9所述的裝置,其中來自所述用戶的所述迷惑輸入包括 被迷惑以保護用戶隱私信息的電影反饋。

11.  根據權利要求10所述的裝置,其中所述電影反饋包括電影評級或電影評定。

12.  根據權利要求9所述的裝置,其中所述裝置是所述推薦器系統的推薦器部分。

13.  一種用于在推薦器系統中保護用戶隱私的裝置,包含:
用于接受用戶的電影反饋的部件;
用于接受用戶的隱私信息的部件;
用于計算迷惑值的部件;以及
用于傳送所述迷惑值的部件。

14.  根據權利要求13所述的裝置,其中來自所述用戶的迷惑輸入包括被迷惑以保護用戶隱私信息的電影反饋。

15.  根據權利要求14所述的裝置,其中所述電影反饋包括電影評級或電影評定。

16.  根據權利要求13所述的裝置,其中所述用戶隱私信息包括特性、特征、值或數據。

17.  根據權利要求13所述的裝置,其中通過從所述用戶的電影反饋中減去所述用戶隱私信息的貢獻來計算所述迷惑值。

說明書

說明書針對好奇推薦器的隱私保護
相關申請的交叉引用
本申請要求于2013年2月6日提交的、標題為“PRIVACY PROTECTION AGAINST CURIOUS RECOMMENDERS”的美國臨時申請序列號61/761,330的優先權,通過引用將其并入本文。
技術領域
本發明涉及在允許推薦器(recommender)提供相關個性化推薦的同時保護隱私信息。
背景技術
若干最近的公開研究從用戶生成的數據推斷人口統計學的威脅。與本發明最接近的Weinsberg等人的“Blurme:inferring and obfuscating user gender based on ragings”(Proceedings of the Sixth ACM Conference on Recommender Systems,2012年)示出可以從電影評級推斷性別,并且提出減輕由此引起的隱私風險的啟發法。但是,Weinsberg提出的迷惑方法明確地以推斷性別的邏輯回歸方法作為目標。與此相反,本發明追求原則性方法,使得證明是防任意推斷方法的有力的隱私保障。
本發明中的隱私的定義受差分隱私(differential privacy)的概念激發,并且作為差分隱私的概念的限制性情況。差分隱私已經應用于諸如數據挖掘、社交推薦和推薦器系統這樣的領域。這些工作假設受信任的數據庫所有者并且集中在使應用的輸出是差分隱私的。與此相反,在本發明中,研究一種配置,其中推薦器是好奇的(curious),并且用戶希望防范根據他們提交給推薦器的反饋對隱私信息進行統計推斷。
存在若干在準確度約束下對防統計推斷的隱私進行建模的理論框架。這些方法假設關聯隱私和非隱私變量的一般概率模型,并且通過在非隱私變量的發布之前使它們失真來確保隱私。雖然具有一般性,但是這些框架的應用需要隱私數據和將發布的數據之間的聯合分布的知識,這在實際設置中可能 難以獲得。被實驗證據強有力地支持的本發明中的線性模型的假設致使問題易于處理。更重要地,其允許本發明的方法表征在推薦器側所必需的數據公開的程度,以實現最佳的隱私準確度權衡,這是所有前述工作中沒有的方面。
發明內容
推薦器系統可以從用戶反饋推斷諸如性別、年齡或政治派別這樣的人口統計信息。本發明提出一種推薦器與用戶之間的數據交換協議(步驟、動作)的框架,捕捉推薦的準確度、用戶隱私與推薦器所公開的信息之間的權衡。
本發明允許用戶以推薦器無法推斷用戶希望隱藏的一些人口統計信息的方式將他/她的評級的失真版本傳達到推薦器系統,同時允許推薦器仍然向用戶提供相關的個性化推薦。
在線服務的用戶被常規地要求提供關于他們的經驗和偏好的反饋。該反饋可以是隱式的或顯式的,并且可以采取許多形式,從完整評論到五星評級,到從菜單選擇。這樣的信息常規地由推薦器系統使用,以提供有針對性的推薦并且個性化提供給用戶的內容。用于生成推薦的統計方法往往產生用戶“簡檔(profile)”或特征向量。這樣的簡檔能夠暴露用戶可能視為隱私的個人信息,諸如他們的年齡、性別和政治派別。這種可能性已經被廣泛記載在公共數據集上。這種可能性要求允許具有隱私意識的用戶受益于推薦器系統,同時還確保他們希望保護的信息不會通過他們的反饋而非有意地公開或泄露,從而鼓勵用戶參與到服務中的機制。
減少這樣的公開或泄露的通常的方法是通過使報告給推薦器的反饋失真。在推薦質量和用戶隱私之間存在自然的權衡。更大的失真可以導致更好的迷惑但是也導致不太準確的簡檔。本發明的貢獻是標識出在該權衡中存在第三項(a third term),其為推薦器公開給用戶以便迷惑他們的隱私值的數據。為了例示這一點,注意到如果推薦器向用戶公開用于產生用戶簡檔的所有數據和算法,則可以實現絕對隱私。然后,用戶能夠運行推薦系統的本地拷貝,而不用總是向推薦器發送任何反饋。這顯然是隱私的。但是,從推薦器的角度來看,這仍是不能維持的,無論出于實際的原因(效率和代碼維護),還是至關重要地出于商業原因,因為推薦器可能正在收取費用、將它收集的數據以及它開發的算法這兩者貨幣化。向用戶或可能的競爭者公開數據和算法顯然是不利的。
另一方面,一些數據公開也是必要的。如果用戶在發布他/她的反饋之前希望隱藏他/她的政治派別,用戶可以使用政治派別所帶來的任何偏向的知識來否定該效果。從所收集的數據中檢測這樣的偏向的推薦器可以將其揭示給具有隱私意識的用戶。
這種情況提出若干問題。推薦器需要公開給具有隱私意識的用戶以便鼓勵他們參與的信息最小量和種類(nature)是什么?該信息如何可以用于使一個人的反饋失真以保護一個人的隱私特征(諸如性別、年齡、政治派別等)同時允許推薦器估計剩余的非隱私特征?當被應用于失真的反饋時,什么估計方法得到最高的準確度?
本發明提出一種用于解決上述問題的形式化數學框架,其包括三個協議:
(a)推薦器參與的數據公開,
(b)被應用于用戶評級的迷惑方法,以及
(c)被應用以推斷非隱私用戶特征的估計方法。
以上三個協議的具體實現方式提供對用戶隱私信息的完美保護,同時也確保推薦器以最佳的可能的準確度來估計非隱私信息。至關重要地,推薦器的數據公開最小。沒有更少的公開可以得到與所提出的實現方式相同或比其更好的準確度。
所提出的協議在真實的數據集上評估,證實它們在實踐中確實提供出色的隱私保障,而不顯著地影響推薦準確度。
描述一種用于在推薦器系統中保護用戶隱私的方法和裝置,其包括:確定針對電影將什么信息發布給用戶;將信息傳送給用戶;接受來自用戶的迷惑輸入;以及估計用戶的非隱私特征向量。還描述一種用于在推薦器系統中保護用戶隱私的方法和裝置,其包括:接收電影信息;接受用戶的電影反饋;接受用戶的隱私信息;計算迷惑值;以及傳送迷惑值。
附圖說明
根據下面的詳細描述,在結合附圖一起閱讀的情況下,本發明得以最好地理解。附圖包括下面簡要描述的以下圖:
圖1(a)和1(b)示出使用MovieLens數據集選擇和邏輯推斷的在迷惑之前、在標準迷惑方案和選擇之后的男性和女性的推斷概率的分布;
圖1(c)示出RMSE-AUC權衡;
圖2是本發明的推薦器系統的流程圖;
圖3是本發明的推薦器系統的推薦器部分的放大圖;
圖4是本發明的推薦器系統的用戶部分的放大圖;
圖5是本發明的推薦器系統的推薦器部分的框圖;以及
圖6是本發明的推薦器系統的用戶部分的框圖。
具體實施方式
在本發明中所考慮的配置包含推薦器和用戶。推薦器請求關于項目的用戶反饋,為了具體性,將項目稱為“電影”。對每個項目的用戶反饋(例如,1-5星等級)從通過兩個向量即電影簡檔vi和用戶簡檔x來參數化的概率分布獨立地采樣。用戶簡檔x是(x0;x)的形式,其中x0是用戶希望保留隱私(例如,他/她的性別)的可區分的二元特征,并且x是非隱私分量。應當注意,雖然用戶知道x0,但是他/她并不知道x:在例如推薦器所使用的特征對用戶是未知的、或者甚至是通過被稱為矩陣因子分解的處理來計算出并且因此是潛在的情況下,這將是如此。
推薦器知道電影簡檔vi并且希望學習用戶的簡檔x。推薦器的目的是預測其他電影的用戶反饋并且做出推薦。用戶希望受益于推薦,但是關于他/她的變量x0是具有隱私意識的,并且不希望將其發布給推薦器。為了鼓勵用戶的參與,本發明的目標是設計一種在推薦器和用戶之間交換信息的協議,其具有三個突出的性質。非形式化地,三個突出的性質是:
(a)在協議結束時,推薦器盡可能準確地估計x,即x的非隱私分量;
(b)關于x0,即用戶的隱私變量,推薦器什么也不學習;
(c)關于每個項目i的電影簡檔vi,用戶盡可能少地學習。
第一性質確保在協議結束時推薦器學習用戶簡檔的非隱私分量并且可以將其用于向用戶建議新的電影,這使推薦器的主要功能成為可能。第二性質確保具有隱私意識的用戶受益于推薦而不公開他/她的隱私變量,從而鼓勵參與。最后,第三性質確保電影簡檔在其整體上不會變得公共可用。這確保推薦器的競爭者不能使用簡檔,簡檔的計算需要資源并且通過推薦而被貨幣化。
為了突出這三個性質之間的相互影響,討論三種“非解(non-solution)”。 首先,考慮用戶“以明文”向推薦器公開他/她的反饋的協議:這滿足(a)和(c),但是不滿足(b),因為其將允許推薦器通過適當的推斷方法來估計x和x0二者。在第二協議中,推薦器首先向用戶揭示所有電影簡檔vi;推薦器再次通過推斷在本地估計x,并且隨后將其發送給推薦器。這滿足(a)和(b),但是不滿足(c)。最后,“空(empty)”協議(沒有信息交換)滿足(b)和(c),但是不滿足(a)。
更具體地,假設用戶由特征向量來表征。該特征向量具有對應于用戶想要保持隱私的特性的一個分量。假設該特征是二元的,泛化成多個二元特征是直接了當的。形式化地,x=(x0,x),其中并且x0∈{+1,-1}是隱私特征。作為運行的示例,可以假設用戶想要將他/她的性別保持隱私,其被編碼為x0∈{+1,-1}。
推薦器請求對M個電影的反饋,其集合表示為[M]≡{1,…,M}。具體地,每個電影由特征向量來表征,其中注意被限制到vi,使得vi≠0。將所有這樣的向量的集合表示為并且將請求反饋的電影的特征向量表示為
假設推薦器在數據庫中維護特征向量。常規地,構造這樣的數據庫通過推薦器算法來完成。典型地,特征通過矩陣因子分解技術(并且因此是潛在的)以及電影描述符的顯式函數(諸如例如體裁、劇情概要或演職人員的聲望等)的組合來計算。在兩種情況下,這些向量(或者甚至被識別為相關的特征)可以由競爭者使用,并且因此以不公開為條件(subject to non-disclosure)。
對電影i∈[M]的用戶反饋由來表示。ri被限制到特定的雙線性模型,其目的對于推薦器和用戶兩者是已知的。具體地,假設中的通常的標量積。假設在上存在概率分布Q,使得對于所有i∈[M]:
ri=<vi,x>+zi=<vi,x>+vi0+zi,zi~Q,  (1)
其中,zi是獨立的“噪聲”變量,其中E(z)=0、E(z2)=σ2<∞。
盡管簡單,但是該模型被實驗證據強有力地支持。實際上,它是諸如矩陣因子分解、奇異值分解等基于低秩近似(low-tank approximation)的許多預測方法的底層模型。應當注意到,限制到中的電影向量在(1)下有意義。實際上,如果推薦器的目的是檢索x,則對v=0的電影的反饋是 明顯沒有信息的。假設推薦器在數據庫中維護特征向量常規地,構造這樣的數據庫通過推薦器算法來完成。典型地,特征通過矩陣因子分解技術(并且因此是潛在的)以及電影描述符的顯式函數(諸如體裁、劇情概要或演職人員的聲望等)的組合來計算。這些向量(或者甚至被識別為相關的特征)可以由競爭者使用,并且因此以不公開為條件。
用戶不能訪問該數據庫,并且不知道這些特征向量的先驗值。另外,用戶知道他/她的隱私變量x0,并且知道或者容易生成她對每個電影i∈[M]的反饋ri。然而,用戶并不知道先驗的剩余特征值因為與vi的每個坐標相對應的“特征”是“潛在的”或者未被公開的。
本發明的隱私保留推薦方法和系統包括用戶與推薦器之間的如下協議,其包括三個步驟:
1.數據公開協議。這是映射L:其中是生成集。和將是包括的可測量的空間。該映射在推薦器處實現,并且描述公開地從它的數據庫公開的數據的量。具體地,對于每個電影i∈[M],推薦器向用戶發布一些信息表示具有坐標的向量在實踐中,公布因為希望與推薦器交互的所有潛在的具有隱私意識的用戶都需要它。
2.迷惑協議。這是對于的映射Y:其中,再次是生成集。該映射描述用戶反饋在分布給推薦器之前如何修改(迷惑)。該映射被實現為用戶自己的計算機上的程序。具體地,用戶(用戶計算機上的算法)輸入他/她的反饋值向量他/她的隱私特性x0以及數據公開程序組合這些量,并且將迷惑值返回到推薦器。
3.估計器。這是如下形式的映射:給定電影特征向量和對應的迷惑用戶反饋該映射生成用戶的非隱私特征向量x的估計估計器被實現為推薦器處的程序。
三元組稱為推薦系統。注意,所有這三個分量的函數形式對于雙方是已知的:例如,推薦器知道迷惑協議Y。雙方是誠實的,但是好奇的:雙方(推薦器和用戶)遵循協議,但是如果在任何步驟,任何一方可以提取比故意揭示的信息更多的信息,則他們會這樣做。兩個協議L和Y可以被隨機化。在下文中,給定x、將關于反饋模型以及協議隨機化的概 率和期望表示為
接下來,對應于上面討論的性質(a)-(c)的包括推薦系統的準確度、用戶的隱私以及數據公開程度的保留隱私的推薦系統的基本質量度量。
迷惑反饋Y的隱私的形式化受差分隱私激發。本發明的上下文與現有技術的不同之處在于,依賴于x、和x0,但是本發明僅涉及關于隱私信息x0的隱私。
定義1.如果對于任何和任何出現以下情況,則推薦系統是ε差分隱私。如果表示從數據庫泄露或暴露的信息,并且表示用戶反饋,則對于任何事件
e-&epsiv;P(+1,x),v(Y(r,+1,l)&Element;A)P(-1.x).v(Y(r,-1,l)&Element;A)e&epsiv;.---(2)]]>
可以說,系統在其為具有ε=0的ε差分隱私情況下是隱私保留的或者隱私的。
本發明的焦點在于保留隱私的推薦系統,亦即ε=0的系統。直觀地,在隱私保留系統中,迷惑Y是不依賴于x0的隨機變量。Y的分布是相同的,與用戶的性別無關。第二定義規定估計器在其以最小損失重構用戶的非隱私特征的情況下具有最佳的準確度。這個選擇是自然的;然而,討論通過補集中的損失來量化準確度的原因。
定義2.如果對于所有項目其中則可以說推薦系統比更準確。另外,如果對于一些上面的不等式嚴格成立,則可以說其嚴格地更加準確。
最后,可以定義數據公開協議之間的排序。直觀地,如果可以從L中檢索L′,則協議L公開與L′一樣多的信息。
定義3.如果存在可測量的映射使得(亦即,對于每個),則可以說推薦系統公開與系統一樣多的信息。如果對于一些并且則可以說和公開相同量的信息。最后,如果對于一些但是不存在使得則可以說比公開嚴格地更多的信息。
下面示出,在線性模型下,將被稱為“標準方案”的下面的推薦系統具有最優性性質。
1.數據公開協議發布與隱私用戶特征x0相對應的條目v0,亦即,并且對于所有
2.迷惑協議從每個反饋ri中減去隱私特征的貢獻(contribution),并且將這個值公開給推薦器。即,并且對于
3.最后,估計方法等同于求解最小二乘問題:

其中,yi是迷惑的反饋的第i個分量,亦即
(3)中的估計器被稱作最小二乘估計器,并且由來表示。注意,在(1)下,標準方案的準確度通過下面的損失給出:對于所有

其中σ2是(1)中的噪聲方差,并且tr(·)是跡線(trace)。
下面的定理概述標準方案的性質:
定理1.在線性模型下:
1.標準方案是隱私保留的。
2.假設(1)中的噪聲是高斯噪聲。則不存在比標準方案嚴格地更準確的保留隱私的推薦系統。
3.不公開與標準方案一樣多的信息的任何保留隱私的推薦系統還一定嚴格地更不準確。
下面證明該定理。第二和第三命題在形式上建立標準方案的最優性。在高斯噪聲下,沒有隱私保留系統獲得更好的準確度。意外地,這甚至在公開比標準方案嚴格更多的信息的方案之中為真。針對每個電影,沒有理由公開比vi0更多。第三命題暗示,為了獲得相同的準確度,推薦器系統必須公開至少vi0。實際上,證明證實,在這樣的情況下,在標準方案下有限的損失可以變成無限制的。
定理1的證明:
隱私:為了明白定理1.1成立,回想對于每個i∈M,用戶發布yi=ri-v0ix0=<vi,x>+zi。于是,yi的分布不依賴于x0,因此標準方案顯然是隱私保留的。
最大準確度:通過反證法,使用下面的標準結果來證明定理1.2。
引理1.假設i∈[M]是點的集合,使得yi=<vi,x>+zi,其中zi是獨立且恒等分布的零均值高斯隨機變量,并且假設是最小二乘估計器于是,對于任何估計器
假設存在比標準方案嚴格地更加準確的保留隱私的推薦系統假設是標準方案下的公開,并且是中的公開。還假設是標準方案下的針對i∈[M]的迷惑值,并且用來表示向量因為系統是隱私保留的,所以其迷惑滿足:

亦即,兩個隨機輸出在分布上相等。
將使用L′、Y′和來構造具有比最小二乘估計器更低的損失的估計器具體地,考慮新的推薦系統其中:(a)L″(vi)=(L(vi),L′(vi)),亦即推薦器公開與以及L(vi)=vi0中相同的信息;(b)Y″=Y,亦即迷惑與在標準方案中相同,并且針對i∈[M],發布以及(c)推薦器通過執行以下兩個步驟來估計x。首先,其將迷惑Y′應用于假設性別是+1,計算其次,其將估計器應用于該輸出。總之:其中注意,至關重要地,新系統具有與相同的準確度。這是因為給估計器的輸入w與輸入y′是恒等分布的。如果x0=+1,則這很一般地為真,但是對于x0=-1,根據(5)同樣成立。但是,這意味著可以構造得到比在最小二乘估計器下的對應的損失嚴格地更小的損失的估計器與引理1矛盾。
最小公開:最后,證明定理1.3,在形式上確立公開L(vi)=vi0是最小的。任何“信息較少(less-informative)”的公開導致準確度的損失。考慮不公開與標準方案同樣多的信息的保留隱私的推薦系統考慮設置M=d(特征簡檔的尺寸)。還假設使得矩陣是可逆的,并且用表示具有坐標vi0的向量。
對于任何x0∈{+1,-1}、假設是隨機變量,其分布由給定,其中是從分布Q采樣的獨立且恒等分布的坐標的向量。即,當并且性別是x0時,是迷惑的輸出。于是,下面成立。
引理2.假設M=d,并且矩陣是可逆的。假設于是,對于所有
證明:根據等式(5),對于所有對于x=V-1(s-v0),該斷言繼之以Z±的定義。
因為沒有泄露(暴露、公開)與標準方案同樣多的信息,根據定義,不存在映射使得對于所有具體地,存在向量使得v0≠v0′而仍然L′(v)=L′(v)。考慮下面兩種情況:
情況1.v,v′的支集相交,亦即存在k∈[d]使得vk≠0且vk′≠0。在這種情況下,考慮的情況,其中是第l個坐標為1而所有其他坐標為零的向量。顯然,并且V=[vi]i∈[d]是可逆的。假設按照引理2,對于所有其中在坐標1為1而在其他地方為0。類似地,在的情況下,引理2的條件再次滿足。至關重要地,因此對于所有仍然這兩個等式暗示,對于所有

其中ξ≡2(v0-v0′)。話句話說,關于電影v的評級,迷惑是周期性的。
觀察到對于任何和任何可以構造以及使得(a)x,x′僅在坐標k∈{1,2,...,d}處不同,(b)<v,x-x′>=Kξ并且(c)||x-x′||2≥M。為了明白這一點,假設K是足夠大的整數,使得取得xk′=xk+Kξ/vk并且針對{0,1,...,d}中的所有其他l取得x′l=xl生成滿足期望屬性的x′。
因此,假設針對具有x0=+1的用戶,將推薦系統應用于固定大的M>0。對于如上構造的每個x和x',按 照(6),由Y′生成的迷惑值具有恒等分布。因此,不管估計器是如何實現的,和之間的最大值一定是Ω(M2),這反過來暗示與此相反,因為中的簡檔是線性獨立的,所以ΣiviviT是正定的,并且因此是可逆的。同樣地,標準方案的損失(4)是有限的,并且定理成立。
情況2.v,v′的支集不相交。在這種情況下,v,v′是線性獨立的,因為二者都屬于并且具體地,存在1≤k、k′≤d、k≠k′,使得vk≠0且vk′≠0。可以構造然后,并且矩陣V=[vi]i∈[d]再次是可逆的。同樣地,通過交換v和v'的位置,可以使用與情況1中類似的論證示出,對于所有其中ξ≡2(v0-v0′)并且亦即,Z+在方向e1-e2上是周期性的。而且,對于任何和任何類似地,可以構造以及使得(a)x、x'僅在坐標k,k′∈{1,2,...,d}處不同,(b)<v,x-x′>=-<v′,x-x′>=Kξ,并且(c)||x-x′||2≥M。構造在第k個坐標處加Kξ/vk,從第k′個坐標開始減去Kξ/vk′′,其中K>M max(vk,v′k′)/ξ。因此,與情況1中類似的論證得到定理。
本發明的模型的若干方面要求更詳細的討論。
泄露(公開、暴露)解釋。在標準方案中,被公開(暴露、泄露)的信息vi0是估量隱私特征對用戶反饋的影響的參數。在追究的示例中,其為性別對用戶對電影i的欣賞的影響。對于線性模型(1),如果在其他特征x獨立于性別分布的用戶的群體中,則該參數具有簡單的解釋。實際上,假設(x0,x)上的先驗分布,使得x獨立于x0。于是:E{ri|x0=+}-E{ri|x0=-}=<v,E{x|x0=+}-E{x|x0=-}>+2vi0=2vi0。因此,給定對用戶反饋的數據集的訪問,其中用戶不具有隱私意識并且已經公開了他們的性別,則推薦器僅需要計算每個性別的電影的平均評級。公開vj0等同于發布這兩個值之間的一半距離。
從電影選擇中推斷。在實踐中,生成[M]中的所有評級可能與時間上的高成本相對應。因此,考慮下面的約束是合理的:存在集合S0(例如,用戶已經觀看的電影),使得評級的迷惑集合必須滿足在這種情況下,S0本身可能揭示用戶的性別。
在觀看事件是獨立的情況下,亦即:其中是取決于他/她的性別x0的值的用戶已經觀看過電影i的概率,則提出解決方案。考慮下面的迷惑協議。首先,給定S0,用戶獨立地生成并公開針對電影i∈S0的反饋,從而構造集合S,由此:
P(i&Element;S|i&Element;S0)=max(1,pix0/pix0),---(7)]]>
x0是x0的補數(complement)。在應用標準方案之后,揭示針對i∈S0的評級。
該迷惑具有下面的令人滿意的的性質。首先,其次,它是隱私保留的。為了明白這一點,注意,亦即,它不依賴于x0。最后,集合S是最大的:不存在生成集合使得E{|S′|}>E{|S|}的隱私保留方法。為了明白這一點,注意,對于任何方案使得如果E{|S′|}>E{|S|},則存在i,使得Px0(i∈S′)>Px0(i∈S′)min(pi+,pi-)。如果該方案是隱私保留的,這必須對于兩個x0均為真;但是,因為一定是對于兩個x0都是這是矛盾的。由該迷惑方案的最大性所推動,其在下面被用作只選擇由用戶評級的電影的子集的手段。
本發明的標準方案在電影推薦器系統上評估。系統的用戶對他們已經觀看的電影提供1和5之間的整數評級,并且反過來期望系統提供有用的推薦。性別被定義為用戶不想要揭示給推薦器的隱私值,已知其可以高準確度地從電影評級推斷。使用來自兩個電影評級服務的數據集:MovieLens和Flixster。二者都包含每個用戶的性別。數據集被限制于對至少20部電影評級的用戶以及由至少20個用戶評級的電影。因此,MovieLens數據集具有6K個用戶(4319個男性,1703個女性)、3043部電影以及995K個評級。Flixster數據集具有26K個用戶(9604個男性,16433個女性)、9921部電影以及5.6M個評級。
為了評估實踐中的迷惑的成功,應用若干標準方法以從評級推斷性別,包括樸素貝葉斯(NB)、邏輯回歸(LR)和支持向量機(SVM),并且提出一種與線性鑒別分析(LDA)類似的新方法。后者的方法基于線性模型(1),并且假設x上的高斯先驗以及性別x0上的伯努利先驗。在這些先驗下,評級是正態分布的,其中平均值由x0確定,并且x0的最大似然估計器在具有所觀看的電影的數量的維度的空間中精確地LDA。根據曲線下面積(area under he curve,AUC)來評價每個推斷方法。給LR、NB和SVM方法的輸入包 括由用戶給出的所有電影的評級以及針對未被評級的電影的零。另一方面,LDA僅對用戶提供的評級起作用。
在利用和不利用使用上面討論的最大方案(7)執行的選擇方案的兩種情況下研究標準迷惑方案。電影向量被構造如下。對于每個電影,計算性別偏向v0作為針對每個性別的平均電影評級之間的一半距離。使用這些值,通過d=20的矩陣因子分解計算出剩余的特征v。這些是從未迷惑的評級計算出的。矩陣因子分解是使用梯度下降、20次迭代、通過交叉驗證選擇的0.02的正則化參數來執行的。
當使用方案時,新的評級可能不是整數值,并且甚至可能在推薦器系統所期望的評級值的范圍之外。為此,考慮將評級值舍入(round)成范圍[1,5]內的整數的變型。給定在兩個整數和k+1之間的非整數迷惑評級r,通過對評級k分配概率r-k并且對評級k+1分配概率1-(r-k)來執行舍入,期待在高于5或低于1的評級分別被截取為5或1的情況下給出所期望的評級r。為了簡潔,將該整個處理稱作“舍入”。還考慮迷惑的兩個基準(baseline)。電影平均方案用電影的平均評級來替換用戶的評級。性別平均方案用男性或女性(每個具有概率0.5)所提供的平均評級來替換用戶的評級。
測量根據評級的均方根誤差(root mean square error,RMSE)的推薦的準確度。為此,將用戶的評級拆分成訓練集和評估集。首先,將迷惑方法應用于訓練集,然后通過具有0.1的正則化參數的在迷惑的評級上的嶺回歸來估計x。評估集中的電影的評級使用線性模型(1)來預測,其中x0由LDA推斷方法提供。用其他推斷方法進行實驗,具有類似的結果。
所提出的迷惑和推斷方法在兩個數據集上運行。使用關于用戶的10折交叉驗證(10-fold cross validation),并且跨越這些折(fold)計算平均AUC和RMSE。在表格1中示出所有評估的概要。該表格提供根據上面詳述的各種迷惑方法的由不同的推斷方法獲得的AUC以及每種迷惑方法的RMSE。
若干觀察跨越兩個數據集是一致的。首先,推斷方法被迷惑方法不同地影響,其中,LR、NB和SVM主要受選擇方案影響,而LDA主要受本發明的標準迷惑方案影響。但是,當使用選擇和標準迷惑方案兩者時,所有方法的AUC都減小到大約0.5。而且,迷惑方法對RMSE的影響不高,最大增加1.5%。這指出,雖然迷惑方案設法隱藏性別,但是評級預測幾乎不受影響。本發明的標準迷惑方案的表現與在引入舍入時幾乎完全相同。與標準方 案(SS)相比,基準方案得到類似的AUC,但是RMSE更高,說明出現以損失推薦準確度為代價但是在AUC方面沒有顯著益處的過分的迷惑。
為了例示迷惑如何影響推斷準確度,圖1(a)和1(b)示出log(PMale/PFemale)的分布,其分別具有在使用標準方案和選擇的迷惑之前和迷惑之后通過邏輯回歸獲得的PMale和PFemale。在迷惑之前,在男性和女性的分布之間存在清楚的分離,使得能夠成功推斷性別。但是,在迷惑之后,兩個分布變得不能區分。

表格1:迷惑結果。SS表示標準方案
通過以概率α應用迷惑方案并且以概率1-α發布真實評級來研究隱私準確度權衡。圖1(c)示出三種迷惑方案的所得到的RMSE-AUC權衡曲線。該圖示出結合選擇的標準方案提供最佳的隱私準確度權衡,并且針對相同的隱私(推斷AUC)一致地獲得較好的準確度(較低的RMSE)。最后,在表格1中還看到,舍入對于結果沒有顯著影響,并且曲線幾乎完全重疊。
將在本工作中所引入的問題擴展到在本文中所研究的線性模型之外的更一般的推斷設置是很自然的。特別地,在更一般的參數問題下量化需要發 布以確保隱私和準確度的信息的量仍然是令人感興趣的未決問題。另外,在本文中所關注的是保留隱私的推薦系統。存在若干方式來放寬隱私約束,包括使用ε>0的差分隱私。
圖2是本發明的推薦器系統的流程圖。推薦器系統包括用戶部分和推薦器部分。圖2是推薦器系統的示例性實施例的整體操作的流程圖。推薦器系統的目標是向用戶提供準確的推薦,同時保留用戶的隱私信息。本發明在上面使用性別作為隱私信息(特性、特征)進行了解釋,但是其他特征可以包括年齡、政治派別等,即本發明并不局限于僅使用性別作為用戶的隱私信息。在205,執行推薦器系統的數據協議部分。在210,執行推薦器系統的迷惑協議部分。在215,執行推薦器系統的估計器協議部分。
圖3是本發明的推薦器系統的推薦器部分的放大圖。具體地,圖3包括圖2的單元205和215的放大。在305,存在映射L:確定針對每個電影i將什么信息發布給用戶。當然,這包括將信息發布(傳送、傳輸、轉發、發送)給用戶。電影信息可以是電影簡檔或電影特征向量。在310,推薦器系統的推薦器部分接收(接受)迷惑的用戶信息。在315,存在如下形式的映射:推薦器系統的推薦器部分估計用戶的非隱私特征向量。
圖4是本發明的推薦器系統的用戶部分的放大圖。具體地,圖4是圖2的元件210的放大。在405,推薦器系統的用戶部分接收(接受)來自推薦器系統的推薦器部分(數據公開協議部分)的電影信息。在410,推薦器系統的用戶部分接受(接收)用戶反饋值。在415,推薦器系統的用戶部分接受(接收)用戶隱私信息(特性、特征、值、數據)。在420,推薦器系統的用戶部分計算迷惑值。這通過從每個反饋中減去用戶的隱私信息(特征、特性、值、數據)的貢獻來完成。在425,將計算出的迷惑值傳送給推薦器系統的推薦器部分。
圖5是本發明的推薦器系統的推薦器部分的框圖。本發明的推薦器系統的推薦器部分可以實現在大型計算機上或者實現在臺式機、筆記本、平板、iPod、iPhone、iPod、雙模智能手機或任何其他有線或無線計算設備上。推薦器系統的推薦器部分包括有線通信接口和無線通信接口中的至少一個,并且可以包括兩種類型的通信接口。無線通信接口還包括適當的天線。通信接口操作以接受數據(信息、特征、值)和傳送(發送、轉發)數據(信息、 特征、值)。數據公開模塊和估計器模塊可以在單獨的處理器或單個處理器上實現。數據公開模塊和估計器模塊相互之間(如果沒有在單個處理器上實現)并且與通信接口進行雙向通信。數據公開模塊和估計器模塊還與存儲或存儲器系統進行雙向通信,存儲或存儲器系統可以是任何形式的存儲器,包括移動和固定存儲系統。數據公開模塊包括用于確定針對電影將什么信息發布給用戶的部件。通信接口(有線的或無線的)包括用于將所述信息傳送給用戶的部件以及用于接受來自用戶的迷惑輸入的部件。估計器模塊包括用于估計用戶的非隱私特征向量的部件。
圖6是本發明的推薦器系統的用戶部分的框圖。本發明的推薦器系統的用戶部分可以在臺式機、筆記本、平板、iPod、iPhone,iPod、雙模智能手機或任何其他有線或無線計算設備上實現。推薦器系統的用戶部分包括有線通信接口和無線通信接口中的至少一個,并且可以包括兩種類型的通信接口。無線通信接口還包括適當的天線。通信接口操作以接受數據數據(信息、特征、值)和傳送(發送、轉發)數據(信息、特征、值)。迷惑模塊可以在一個或多個處理器上實現。迷惑模塊與通信接口進行雙向通信。迷惑模塊還與存儲或存儲器系統進行雙向通信,存儲或存儲器系統可以是任何形式的存儲器,包括移動和固定存儲系統。迷惑模塊包括用于計算迷惑值的部件。通信接口(有線的或無線的)包括用于接受用戶的電影反饋的部件、用于接受用戶的隱私信息的部件以及用于傳送迷惑值的部件。
應當理解,本發明可以以各種形式的硬件、軟件、固件、專用處理器或其組合來實現。專用處理器可以包括專用集成電路(ASIC)、精簡指令集計算機(RISC)和/或現場可編程門陣列(FPGA)。優選地,本發明實現為硬件和軟件的組合。而且,軟件優選地實現為有形地實施在程序存儲設備上的應用程序。應用程序可以被上載到包括任何適當架構的機器并且由其執行。優選地,機器在具有諸如一個或多個中央處理單元(CPU)、隨機存取存儲器(RAM)和輸入/輸出(I/O)接口這樣的硬件的計算機平臺上實現。計算機平臺還包括操作系統和微指令碼。在本文中描述的各種處理和函數可以是微指令碼的一部分或經由操作系統執行的應用程序的一部分(或者其組合)。另外,各種其他外圍設備可以連接到計算機平臺,諸如另外的數據存儲設備和打印設備。
還應當理解,因為在附圖中所示的構成系統組件和方法步驟的一些優選 以軟件來實現,所以系統組件(或處理步驟)之間的實際連接可以根據對本發明進行編程的方式而不同。給出本文中的教導,本領域的普通技術人員將能夠想到本發明的這些以及類似的實現方式或配置。

關 鍵 詞:
針對 好奇 推薦 隱私 保護
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:針對好奇推薦器的隱私保護.pdf
鏈接地址:http://www.rgyfuv.icu/p-6381674.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图