首頁 > 商業 > 正文

當算法操控人類

2020年02月29日  07:00   21世紀經濟報道   鄭磊  

數據算法對大部分人是“黑箱”,其實目前人工智能發展的階段也存在同樣問題,比如深度學習,很可能無意中將人類社會普遍存在的各種歧視問題引入算法之中。

鄭磊

生活在我們這個時代的人恐怕大多聽說過算法。打開微信,我們經常會看到定向發送的廣告;在網店買書,后面會有一系列向你推薦的相關圖書;打開網頁,最顯著位置是推薦給你的閱讀鏈接。這是一個數據時代,大數據時代,也是算法時代。

《被算法操控的生活》的作者是來自英國、定居瑞典的一位數學教授,策劃編輯知道我是數學科班出身,而且從事金融科技研究,所以請我幫忙看看。數學家寫科普書,本身就是個賣點,我印象中除了數學教材,很少有讀過數學教授寫的暢銷書。這本書有很多有趣的例子,有些觀點值得我們思考。

個人數據涉及個人隱私,對個人數據的分析同樣會暴露個人隱私:消費者畫像和廣告定向投放是合法的嗎?我認為這取決于個人數據分析到底能夠達到什么效果。這類算法一般是采用主成分分析和回歸分析,這兩種方法本身并不是非常尖端,很多社交網站都在使用,比如臉書、推特等,主要用來對用戶進行分類。我們日常上網的各種活動其實都屬于個人行為數據,在網站都留下了記錄,如實反映了我們的生活狀態。比如我們發布的內容、點贊、信息分享等,都與個人行為、觀點、喜好、智商和個性有關聯。利用算法和這些累積的海量數據,可以從最冷靜、最理性的角度審視每一個人。

我們大腦也會對別人形成看法,但是大腦只能處理最多3個維度,而計算機依靠算法則可以快速在數百個維度上對每個人進行分類。理論上,人的行為數據可以用來追蹤我們的每一個情緒,并在消費選擇、人際關系和工作機會等方面進行預測,這類數據越多,分類越可靠。社交網絡收集和分析用戶的這些數據,目前還沒有法律方面的清晰規定,在倫理層面上是有爭議的。一個大家關注的案例是劍橋分析公司操縱選舉事件。該公司被指控用網絡定向營銷和小范圍民意調查數據影響選民。2019年7月,臉書就此事繳納了50億美元罰款,是迄今全球最大規模的隱私違規罰款。

各類市場研究和數據分析公司和幾十年前研究人員采用的方法并沒有區別,就是用精心設計的算法在每個維度計算排序或概率,只是現在使用的數據量要大得多,甚至是采用大數據。在這種規模下,人們不得不借助電腦和算法進行分析。比如臉書的回歸算法對近2萬人的點贊數據進行分析,在9次里有8次成功預測了個人的政治立場,準確率和可靠性非常高。比如一個喜歡Lady Gaga,星巴克和鄉村音樂的人更有可能是共和黨人。這樣共和黨人為了贏得支持,就應該把關注點放在喝星巴克咖啡的人身上。

收集用戶的社交網絡數據,根據目標人群的個性特點定制符合特定受眾觀點和喜好的內容進行投放,進而引導目標人群改變行為,如果算法發展到這個水平,顯然會侵犯到個人權利范圍。定向投放信息包括廣告,既可能對特定受眾有益,也可能讓對方感到不安全甚至被冒犯。當算法利用個人數據能夠對個人行為和喜好做出準確度高達85%的預測情況下,個人數據的使用是否合理合法就變成了突出問題。我個人認為基于搜索算法的這種商業模式必須先征得個人同意。

數據算法對大部分人是“黑箱”,其實目前人工智能發展的階段也存在同樣問題,比如深度學習,很可能無意中將人類社會普遍存在的各種歧視問題引入算法之中。算法歧視會使社會差距拉得更大,嚴重影響社會公平。書中給出很多算法缺陷的例子,以選舉預測為例,人工進行的抽樣調查要比算法更接近實際結果。蓋洛普民意調查美國總統選舉的誤差,從1940年代到2020年前,一直在降低,現在基本在5%以下。而算法所做的預測的最差情況和黑猩猩扔飛鏢相近,最好也只能達到60%左右。數據算法也有被人鉆空子的時候,比如在圖書銷售方面,利用一些搜索優化算法漏洞排在榜單前列的圖書,確實提高了銷量,但是結果卻可能是讀者反饋評分越來越低。同樣方法可以提高學術論文的引用量,將這個指標作為考核學術成果的唯一標準,必然會造成學術界的反向激勵和逆淘汰現狀。我們應該了解其中可能存在的問題,避免被誤導或操縱。

 返回21經濟首頁>>

分享到:
相關新聞
fm毕尔巴鄂