我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
學(xué)生告訴我,每年這個(gè)時(shí)候都會(huì)集中收到類似郵件,大概是因?yàn)楫厴I(yè)生要準(zhǔn)備畢業(yè)論文了。
我忙問學(xué)生,這種情況持續(xù)多久了?他們告訴我有一段時(shí)間了,但近年來(lái)愈演愈烈,幾乎成了套路和風(fēng)氣。比如這幾天一些學(xué)生還被同一個(gè)qq匿名郵件以每天三封的頻率持續(xù)騷擾。
圖1 匿名想要源代碼或具體實(shí)現(xiàn)的郵件例子。
雖然我相信世界上幾乎沒有人可以保證自己的研究成果是100%正確,但向?qū)W生們和合作者強(qiáng)調(diào)學(xué)術(shù)倫理道德和底線,是我一貫的做法。因此,盡管可能會(huì)有一些瑕疵,但我相信他們的研究成果是經(jīng)得起學(xué)術(shù)推敲的。
為了讓學(xué)生免于這些無(wú)聊干擾、專心致志科研,我立即表示:對(duì)于這種匿名騷擾的郵件,拒絕回復(fù)并直接拉黑發(fā)送方。
沒想到,稍晚時(shí)候,我竟然又收到了匿名者郵件,他帶著威脅地聲稱——文章有著疑點(diǎn),“非常有禮貌” 地詢問了我的學(xué)生,卻被拉黑了(見圖2)。
圖2 匿名威脅發(fā)我的郵件截圖(文章信息、發(fā)送方和文章作者信息已經(jīng)做處理)
我認(rèn)真讀完這份郵件,并沒有找到他們敘述的任何有關(guān)我們文章的疑點(diǎn),但就是要詳細(xì)的實(shí)現(xiàn)。
我感覺匿名者似乎缺乏基本的知識(shí)和文獻(xiàn)背景。從郵件猜測(cè),匿名發(fā)送人大概是大學(xué)生或低年級(jí)的研究生,郵件中的一些疑惑本應(yīng)在研究前,由其指導(dǎo)老師所教的基礎(chǔ)知識(shí)和基本的文獻(xiàn)閱讀就能解答。
當(dāng)然,最使我吃驚的是,郵件所透露出來(lái)的貌似隱約但直截了當(dāng)?shù)耐{。
為此,我向海內(nèi)外的朋友們了解了一下情況,發(fā)現(xiàn)很多人也收到了類似的郵件,甚至有幾位朋友說(shuō),他們天天都有收到此類郵件,讓我不要大驚小怪。
這些來(lái)自實(shí)名 “伸手黨” 或匿名 “威脅黨” 的郵件,讓我十分悲憤——深度學(xué)習(xí)時(shí)代的人工智能研究怎么出了這種亂象?
01 寫不如逼,逼不成恐嚇
我們知道,深度學(xué)習(xí)模型的復(fù)現(xiàn)和重用需要人力研發(fā)與計(jì)算設(shè)備的投入。我們實(shí)驗(yàn)室為了搭建相應(yīng)的軟硬件環(huán)境,花費(fèi)了數(shù)以億計(jì)的經(jīng)費(fèi)。即便如此,我們自己的復(fù)現(xiàn)結(jié)果,有時(shí)也不盡人意。
自己編程寫復(fù)現(xiàn)代碼困難重重,有些人便來(lái)找捷徑了——直接向作者要源碼和具體實(shí)現(xiàn)。
實(shí)名要的,一般會(huì)說(shuō)看了文章但是復(fù)現(xiàn)難度大,所以要代碼或者實(shí)現(xiàn)細(xì)節(jié)??捎行┤艘姆绞揭菜坪跆欢Y貌、太懶了——甚至于在郵件里連作者的名字和文章題目都寫錯(cuò)了,絲毫沒有看出對(duì)方是看過(guò)該文章的。
匿名要的,因?yàn)閾?dān)心作者舉報(bào),通常不會(huì)用實(shí)際單位郵箱而用社會(huì)上的通用郵箱發(fā)送。這些匿名郵件不會(huì)表露出要代碼或者要實(shí)現(xiàn)細(xì)節(jié)的目的和用途,而是在言辭上拐彎抹角地逼問恐嚇,例如指責(zé)疑點(diǎn)很多、將舉報(bào)論文作者等等??梢坏┳髡邔⒋a或者實(shí)現(xiàn)細(xì)節(jié)回復(fù)匿名者,并詢問對(duì)方發(fā)現(xiàn)的具體疑點(diǎn)后,往往就沒有下文了。
拿到作者的源碼,用于學(xué)術(shù)研究當(dāng)屬正常,但瞞著作者直接將其商用的,也不在少數(shù)。例如,著名目標(biāo)檢測(cè)算法YOLO的作者 Joseph Redmon 宣布,將停止一切計(jì)算機(jī)研究,原因是自己的開源算法在未經(jīng)過(guò)他同意的情況下,已經(jīng)被其他人用于引發(fā)軍事沖突和侵犯隱私的系統(tǒng)里。
更可恥的是,有了作者的源碼,卻沒有運(yùn)行出作者的結(jié)果,那便繼續(xù)逼問作者。
可氣的是,有些人根本不花氣力去了解論文和具體的實(shí)驗(yàn)步驟及其所必須的軟硬件實(shí)驗(yàn)環(huán)境,出現(xiàn)過(guò)許多可笑的情況。
一位朋友曾告訴我,僅僅因?yàn)槟涿咦约旱能浖姹九c作者不同而導(dǎo)致程序報(bào)錯(cuò),就去 “討伐” 作者;當(dāng)作者好心相助后,匿名者竟然連程序報(bào)錯(cuò)日志是什么都不知道。
還有一位朋友告訴我,在他認(rèn)真回復(fù)之后,匿名者仍然再問稍有基本知識(shí)就知道是相同問題的問題,一旦沒有及時(shí)回復(fù),那就天天、過(guò)幾小時(shí)甚至幾分鐘后發(fā)一封,被迫成為了 “義務(wù)” 指導(dǎo)老師,而且是 “保姆型” 的。無(wú)奈之下,朋友把數(shù)據(jù)、代碼與模型封裝成一個(gè)Docker作為回復(fù),匿名者竟然回問朋友Docker如何安裝和使用?真是當(dāng)老師不夠,“保姆” 才行!
更有甚者,匿名者被一個(gè)作者拉黑后,就威脅其他合作者或作者單位的其他人。這樣不成功,再換個(gè) “馬甲” 甚至幾個(gè) “馬甲”,把這個(gè)過(guò)程再來(lái)一遍。例如,一位朋友告訴我,他的團(tuán)隊(duì)收到過(guò)來(lái)自不同匿名者的郵件,這些郵件除了郵件地址之外,郵件內(nèi)容竟然一字不差!
總之,這些人沒有底線、目的只有一個(gè):交出代碼!
了解了這些情況,讓我極度悲哀。面對(duì)這種郵件,為何有人沒錯(cuò)卻把代碼給了匿名者?為何匿名者又連錯(cuò)誤的代碼都要?與朋友討論完后,我的認(rèn)識(shí)是這樣的:
● 如果文章的算法沒有問題,交出代碼,一是真心幫助,這本就是學(xué)術(shù)界的傳統(tǒng);二是息事寧人,由于深度學(xué)習(xí)文章往往需要多人合作,作者一長(zhǎng)串,有些作者深度參加,有些作者較少參與,并不是所有作者對(duì)其結(jié)果有著同樣的信心和定力,這就為匿名者提供了各個(gè)擊破的機(jī)會(huì)。
● 如果文章有問題,出乎我意料之外,錯(cuò)誤的代碼有時(shí)也有價(jià)值,而且是正確的價(jià)值。比如,可以用它們 “交差”,完成KPI甚至是畢業(yè)、升職;還可以進(jìn)一步地分析并修正這些代碼,大大縮短開發(fā)周期。
在與朋友的交談中,讓我感覺這種 “寫不如逼、逼不成就威嚇” 的現(xiàn)象在一些高校學(xué)生以及企業(yè)的實(shí)習(xí)生中,愈演愈烈、泛濫成災(zāi),開始從 “潛規(guī)則” 向不健康的 “亞文化” 發(fā)展。
如此發(fā)展下去,不但不能解決深度學(xué)習(xí)模型的可復(fù)現(xiàn)性問題,而且讓人擔(dān)心商用深度學(xué)習(xí)系統(tǒng)的可用性和可靠性。特別是,更讓人擔(dān)心對(duì)于年輕人在文化和精神層面上的損害。
02 難以復(fù)用的深度學(xué)習(xí)困境
深度學(xué)習(xí)改變了人工智能的面貌,這是一個(gè)巨大的進(jìn)步。一個(gè)新的、規(guī)?;囊源髷?shù)據(jù)和算法為核心的行業(yè)革命方興未艾,而其關(guān)鍵就是深度學(xué)習(xí)模型。學(xué)術(shù)圈與企業(yè)界的研究重點(diǎn)已經(jīng)轉(zhuǎn)入深度學(xué)習(xí)模型的設(shè)計(jì)與應(yīng)用,其第一步往往就是復(fù)現(xiàn)和復(fù)用他人的工作。
在傳統(tǒng)的機(jī)器學(xué)習(xí)時(shí)代,理論算法與實(shí)現(xiàn)步驟基本上是等價(jià)的,因?yàn)槠洳襟E都是確定的,所以大部分算法都是可以被近似或者完美復(fù)現(xiàn)。但在深度學(xué)習(xí)時(shí)代,深度網(wǎng)絡(luò)從本質(zhì)上就是大規(guī)模參數(shù)的隨機(jī)尋優(yōu)問題,而且包含著很多隨機(jī)步驟。
因此,在作者不開源的情況下,特別是不明確軟硬環(huán)境的情況下,復(fù)現(xiàn)者得不到作者聲稱結(jié)果的現(xiàn)象就會(huì)變得正常和普遍。
雖然計(jì)算機(jī)學(xué)科開源的風(fēng)氣越來(lái)越好,可重復(fù)性問題得到了很大的改善,但是,在為數(shù)不少的情況下,即使作者將源代碼和數(shù)據(jù)都發(fā)布在論文中,其他機(jī)器學(xué)習(xí)研究人員仍然很難復(fù)現(xiàn)其結(jié)果。
例如,去年4月3日,圖靈獎(jiǎng)得主楊立昆(Yann LeCun)在其推特上公開質(zhì)疑谷歌大腦的論文無(wú)法復(fù)現(xiàn),而且表示即使是NLP的一些頂級(jí)研究人員也無(wú)法復(fù)現(xiàn)谷歌大腦的語(yǔ)言模型 Transformer-XL 所得到的結(jié)果。
其實(shí),同一問題在不同的軟硬實(shí)驗(yàn)條件下,兩個(gè)或三個(gè)研究小組得到相同研究結(jié)論,但與原作者差距較大的是常見的。另外,可能由于軟硬環(huán)境的升級(jí),即使是同一作者不同時(shí)期實(shí)現(xiàn)的同一算法,算法的效果也會(huì)差別巨大,這是我在文獻(xiàn)檢索時(shí)親自經(jīng)歷的一件事。
個(gè)人認(rèn)為,一般來(lái)說(shuō),造成深度學(xué)習(xí)難以復(fù)現(xiàn)的原因主要由算法水平和硬件水平兩方面導(dǎo)致:
● 從算法水平上講,比如論文作者可能會(huì)從多組不同的實(shí)驗(yàn)環(huán)境中挑選出最好的結(jié)果,以達(dá)到最好的水平;或者使用一些技巧,例如,數(shù)據(jù)集的劃分、針對(duì)數(shù)據(jù)集來(lái)調(diào)整機(jī)器學(xué)習(xí)模型的參數(shù)、在一個(gè)較大的私有數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練等等,以提升實(shí)驗(yàn)結(jié)果。
● 從硬件水平上講,由于不同的CPU和不同的GPU計(jì)算能力的差異,在不同的硬件平臺(tái)上訓(xùn)練不同類型的深度網(wǎng)絡(luò)時(shí),不同的深度學(xué)習(xí)模型會(huì)有不同的特性和運(yùn)行性能。一些研究人員與普通研究者相比,有著難以匹敵的超級(jí)算力(超級(jí)計(jì)算、超大規(guī)模云計(jì)算等等)。
此外,由于金融、醫(yī)學(xué)、能源等領(lǐng)域有著技術(shù)和數(shù)據(jù)隱私的特殊性,這些領(lǐng)域的深度學(xué)習(xí)算法的數(shù)據(jù)、代碼和模型大多是不能公開的,是極度保密的。和有些公司合作的論文,有時(shí)公司要求技術(shù)的保密,不能公開數(shù)據(jù)、代碼和模型。
綜上,目前的算法訓(xùn)練技巧、軟硬件實(shí)驗(yàn)環(huán)境和軟硬件實(shí)驗(yàn)條件成為了深度學(xué)習(xí)模型的關(guān)鍵技術(shù)的一部分。由于知識(shí)產(chǎn)權(quán)和其他不得已的保密因素的影響,作者不愿分享和不能分享的現(xiàn)象也變得日益普遍,這就造成了一個(gè)難以復(fù)現(xiàn)、難以復(fù)用的深度學(xué)習(xí)困境。
最后,深度學(xué)習(xí)的不可解釋性也是造成目前困境的原因之一。從理論上,我們無(wú)法要求一個(gè)不可解釋性的模型總是給出一個(gè)可以解釋的結(jié)果。
客觀上,投機(jī)分子抓住了深度學(xué)習(xí)的這一特點(diǎn),一批人造假欺騙換取名利、一批人威逼恫嚇掠取成果,從正反兩個(gè)方面,殃及廣大無(wú)辜的科研工作者。
03 破局的可能之路——聯(lián)邦智能與聯(lián)邦生態(tài)
由于各方面原因造成的數(shù)據(jù)、代碼與模型的孤島問題限制了深度學(xué)習(xí)模型的復(fù)現(xiàn)與應(yīng)用;與此同時(shí),社會(huì)對(duì)于數(shù)據(jù)隱私保護(hù)與知識(shí)產(chǎn)權(quán)保護(hù)的愈加重視,相關(guān)監(jiān)管措施逐步出臺(tái),導(dǎo)致數(shù)據(jù)的收集與技術(shù)的分享變得更加困難。
面對(duì)當(dāng)前深度學(xué)習(xí)的困境,一味地讓作者開源并不能徹底地解決問題。而且,數(shù)據(jù)的價(jià)值源于其孤島性,知識(shí)產(chǎn)權(quán)的價(jià)值在于其可保護(hù)性,那么有沒有更好的解決設(shè)想或者解決方案?
一方面,我們要大力發(fā)展開源平臺(tái)和托管中心等現(xiàn)有手段,但是要改變這些組織間相互獨(dú)立、各自為營(yíng)的現(xiàn)狀。運(yùn)用以以太坊DAO等為代表的加密管理技術(shù),將各個(gè)開源與托管組織間的深度學(xué)習(xí)的數(shù)據(jù)、代碼與模型進(jìn)行協(xié)同管理,以協(xié)同發(fā)揮 “組織智能” 的優(yōu)勢(shì),突破DNN、GNN等算法中心論思維。最終,上 “真道”,真就是可信,可靠、可用、良效(Effective and Efficient);道就是分布自主有序組織化, 形成人類智能(Human Intelligence)、人工智能(Artificial Intelligence)、組織智能(Organizational Intelligence)相互協(xié)作的好(HAO)智能,以解決深度學(xué)習(xí)的困境。
另一方面,許多朋友都知道,我的希望是構(gòu)建聯(lián)邦生態(tài)來(lái)解決這一問題(詳見《聯(lián)邦生態(tài):從聯(lián)邦數(shù)據(jù)到聯(lián)邦智能》,智能科學(xué)與技術(shù)學(xué)報(bào), 2020, vol.2,no.4, pp.305-313)。
我們?cè)O(shè)想的聯(lián)邦生態(tài)指在分布式的聯(lián)邦節(jié)點(diǎn)間,以基于區(qū)塊鏈的聯(lián)邦安全、聯(lián)邦共識(shí)、聯(lián)邦激勵(lì)、聯(lián)邦合約為支撐技術(shù),以聯(lián)邦數(shù)據(jù)、聯(lián)邦控制、聯(lián)邦服務(wù)、聯(lián)邦管理為核心內(nèi)容的面向隱私保護(hù)和數(shù)據(jù)安全、技術(shù)和資源協(xié)同管理的統(tǒng)一整體。
聯(lián)邦生態(tài)以數(shù)據(jù)和算子交換時(shí)的隱私可控為前提,通過(guò)聯(lián)邦控制實(shí)現(xiàn)數(shù)據(jù)聯(lián)邦化,通過(guò)聯(lián)邦管理實(shí)現(xiàn)服務(wù)聯(lián)邦化,借助人工智能和大數(shù)據(jù)技術(shù)實(shí)現(xiàn)聯(lián)邦智能,驅(qū)動(dòng)整個(gè)產(chǎn)業(yè)和服務(wù)生態(tài)的創(chuàng)新和進(jìn)步。在一定程度上,聯(lián)邦學(xué)習(xí)為我們提供了一個(gè)初步的案例。
我希望聯(lián)邦智能與聯(lián)邦生態(tài)以及其他智能手段是破除深度學(xué)習(xí)困局的可能之道,推動(dòng)智能系統(tǒng)研發(fā)的更加深入與普及,使其早日具有廣泛造福于人類社會(huì)的可靠性與合法性。
04 應(yīng)對(duì)有理有節(jié),絕不屈從
話說(shuō)回來(lái),在我們學(xué)術(shù)生活中,學(xué)術(shù)交流扮演著極其重要的角色,我們必須捍衛(wèi)其純正性。這種匿名逼問、騷擾威脅的行為不但損害了學(xué)術(shù)交流,而且實(shí)際上是保護(hù)了真正的學(xué)術(shù)作弊行為。若是大行其道,那就沒有了正常的學(xué)術(shù)生活。為此,我們必須有禮有節(jié)、絕不屈從于這種行為!
面對(duì)這種匿名、污蔑、騷擾、威脅行為,我特地為實(shí)驗(yàn)室暫時(shí)制定下了如下規(guī)則——無(wú)理由要源代碼和數(shù)據(jù)集的一律不回,多次發(fā)送并騷擾的,請(qǐng)直接拉黑發(fā)送方;郵件應(yīng)該由通訊作者統(tǒng)一回復(fù);其他作者收到關(guān)于自己文章的問題的郵件告知對(duì)方,問題應(yīng)由通訊作者回答;通訊作者應(yīng)該核對(duì)郵件發(fā)送方,確認(rèn)是否匿名、是否是騷擾,是否是單位郵箱發(fā)送,若是學(xué)生,是否抄送其導(dǎo)師的單位郵箱,是否有脅迫威脅言論?通訊作者應(yīng)根據(jù)上述情況進(jìn)行相應(yīng)處理,并將結(jié)果上報(bào)實(shí)驗(yàn)室。
希望這 “約法三章” 可以幫助我們的學(xué)生遠(yuǎn)離匿名逼問、騷擾威脅,回歸到正常的學(xué)術(shù)生活。
作者簡(jiǎn)介
王飛躍,中國(guó)科學(xué)院自動(dòng)化研究所研究員、博士生導(dǎo)師,復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室主任。
小米應(yīng)用商店發(fā)布消息稱 持續(xù)開展“APP 侵害用戶權(quán)益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線 加速數(shù)字技術(shù)在實(shí)體經(jīng)濟(jì)中的落地和應(yīng)用 11:34:49
樂視回應(yīng)還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購(gòu)物車擴(kuò)展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺(tái)推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區(qū)分公司 09:53:13