熱線電話:13121318867

登錄
首頁精彩閱讀有關數據爬取的三大法律案件
有關數據爬取的三大法律案件
2020-04-08
收藏


有關數據爬取的三大法律案件

出品 | CDA數據分析師


在當下大數據時代,數據具有非常大的價值,許多企業都需要使用它,無論是以商用形式還是非商用形式。而Web抓取是最常見的數據獲取方式之一,Web抓取使用漫游器自動訪問和收集公共可用的數據。


許多網站和服務出于數據安全及利益的考慮,會禁止在其ToS中進行數據抓取,網頁抓取的合法性目前仍然是一個灰色地帶,然而到目前為止,全國各個國家關于數據爬取的法律條文都不太一致,強制實施程度也大不相同,因此進行數據抓取業務需要保持警惕,并應該根據過往一些法律案件判斷其合法性。


這就是為什么我們有必要討論一些對當前Web數據抓取條例起到開創性作用的案例,讓我們回顧一下有關當前Web數據抓取比較典型的三大法律案件。


有關數據爬取的三大法律案件


案例一:Craigslist vs 3Taps


Craigslist和3Taps之間的案例為數據爬取的合法性以及企業拒絕訪問公開數據的權利設置了許多先例。它涉及以下三個公司:Craigslist,3Taps和PadMapper。


Craigslist是一個網站和平臺,允許用戶發布各種不同類別的分類廣告。用戶可以在Craigslist上做任何廣告,其用戶量也非常大。Craiglist使用的關鍵內容之一是找到住房以及備用房間。


PadMapper是一家匯總房屋廣告并允許用戶搜索其附近可用房屋的公司。為了實現此目的,PadMapper需要從各種不同的來源中抓取數據,Craigslist是PadMapper抓取數據的眾多站點之一。在2012年,PadMapper使用Craigslist生成的地圖可以顯示可用房間的位置。3Taps也是另一項業務,作為日常操作的一部分,它也在抓取Craigslist的數據,這其中涉及到了從公開可用的數據集中收集大量數據。


PadMapper和3Taps都在他們從Craigslist收集到的數據中獲得利益,盡管這種方式是間接的。但是,已抓取的數據是公開可用的,并且Craigslist并未嘗試限制對數據的訪問。Craigslist的創始人Craig Newmark曾經寫了一篇文章,哀嘆其服務的存在使Craigslists自己的資源非常緊張,并指出:“我們只考慮消耗大量寬帶的服務”。2012年6月,Craigslist向PadMapper發送了一封停止訪問信,要求他們之后不能再從該網站抓取有關房地產列表的數據。


有關數據爬取的三大法律案件


Craigslist阻止了PadMapper和3Taps這兩家公司的IP地址訪問該網站,從而有效地切斷了他們對Craigslists數據的訪問及獲取。Craigslists認為此操作是對數據的訪問的進行了限制,換句話說,他們采取的立場是,在阻止這些企業的IP地址之后,應將他們對原本可以公開獲得的數據的訪問視為已受到密碼保護。


根據《計算機欺詐和濫用法》,未經授權訪問數據是非法的,而訪問公開數據不是非法的,因此此案的重點是Craigslist是否可以使用該行為來防止個人用戶訪問其他公開數據。對于整個數據抓取行業,這是一個重要的問題。2012年,該行業還處于一個相對較早的階段,在過去的七年中,它的發展無疑已經相當可觀。


3Taps使用代理服務繞過了IP地址,從而繼續抓取Craigslist網站上的數據。PadMapper然后也開始通過3Taps間接訪問Craigslist上的數據。然后,Craigslist便對這兩家公司的違法行為進行起訴。他們聲稱其違反了CFAA,并且侵犯了Craigslist的版權。3Taps方面則并不認為它違反了CFAA,因為相關數據是公開可用的,這意味著每個人都是法律上的授權用戶。同時,他們聲稱,實施模糊的訪問限制可能會帶來一些負面影響,這可能給其他濫用其任意撤銷數據訪問能力的企業打開了大門。


法院站在Craigslist的立場上,根據CFAA確認,知識產權的封鎖,停止和終止都可以單獨視為充分的撤銷訪問通知。最后,該案在庭外和解,Craigslist收到了100萬美元,這筆款項捐贈給了電子前沿基金會(Electronic Frontier Foundation),他們對Craigslist此案提供了很大的幫助。


這種情況提供的先例是,如果網站阻止了您的IP地址,如果繼續通過代理或VPN訪問其服務器,根據CFAA則可能會被視為違反法規行為,并被歸類為未經授權的數據訪問。顯然,這對于許多刮板企業來說是站不住腳的。


案例二:LinkedIn vs HiQ


LinkedIn與hiQ Labs(硅谷的數據抓取公司,與3Taps公司性質類似)之間的爭執與上述情況相呼應。爭議本質上非常相似,圍繞的是LinkedIn是否可以阻止創業公司訪問LinkedIn上公開可用的數據。


就像Craigslist一樣,LinkedIn向hiQ發送了一封終止通知函,要求他們立即停止從LinkedIn服務器上抓取數據。他們還聲稱,該抓取行為違反了CFAA和《數字千年版權法案》。


HiQ對此作出了回應,對LinkedIn提起了自己的訴訟,要求法院在判決他們與LinkedIn之間的案件時提供禁制令。法院批準了該禁令,直到案件確定為止,LinkedIn被迫允許hiQ公司對他們的服務器進行訪問。

LinkedIn對該禁令提出上訴失敗,此案仍在審理中。


有關數據爬取的三大法律案件


該案尚未得到判決,但是法院沒有簡單地將案件歸因于Craigslist Vs 3Taps案,這表明法律制度認識到情況已經發生了變化。今天的數據抓取現象與七年前已經有很大的不同。


案例三:瑞安航空 vs PR航空


歐洲法院對此案進行了辯論,但與上述兩種情況相同。PR Aviation通過訪問Ryanair的服務器以獲取數據,使用戶能夠對不同的航班價格進行比較。與美國法院不同,EUCJ迅速做出了判決。瑞安航空認為,PR Aviation的行為是違反服務條款的行為,也是侵犯版權的行為。


該案的焦點在于瑞安航空是否可以限制對其公開數據庫的訪問,或者是否將被數據庫指令覆蓋。法院裁定,公開數據庫的所有者確實有權施加自己數據的訪問限制。國家法院將對TOS的執行提起訴訟,并決定該指令是否涵蓋數據庫。這意味著在歐盟,許多公共數據庫所有者被允許施加自己的訪問限制。


在上面的三個案例中,焦點主要都集中在該國法律是否允許對其公開數據庫加以限制,從而決定該數據獲取行為是否構成違法行為。在當今信息膨脹的時代,web獲取數據的應用滲透在我們工作的方方面面,而無論是哪種形式的數據獲取,都將接受法律的監管。


根據上海數據治理與安全產業發展專業委員會的最新研究成果——《數據爬取治理報告》可知:


該報告指出,數據爬取作為數據采集的一種高效實現形式,是國內外諸多互聯網企業極為通常甚至賴以生存的手段??偣舶〝祿廊「攀?、數據爬取的現實法律風險、數據爬取的治理困境及難點、數據爬取的治理原則和建議、數據爬取相關爭端案例五個部分。


首先從技術原理、技術分類、技術特點、應用現狀、發展趨勢和濫用危害六個部分介紹了數據爬取,并根據現實法律環境深度剖析了數據爬取在訪問進入、數據類型和數據使用三個環節可能的法律風險,總結發現數據爬取治理的七大難點,并針對性提出五項治理原則,以及不同治理主體的應對措施,最后梳理了九個近年國內外較為典型的數據爬取司法判例。


洛克曾在《政府論》指出,在一切能夠接受法律支配的人類狀態中,哪兒沒有法律,哪兒就沒有自由。知法執法,合法行使網絡數據獲取的權利,也應當合法遵守網絡數據獲取的限制。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢