日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
政企安全 正文
發(fā)私信給又田
發(fā)送

0

假評(píng)論“捅了”馬蜂窩,辦事的真不是人?

本文作者: 又田 2018-10-23 08:22
導(dǎo)語(yǔ):毫無(wú)疑問(wèn),馬蜂窩剛剛度過(guò)一個(gè)黑色周末

毫無(wú)疑問(wèn),馬蜂窩剛剛度過(guò)一個(gè)黑色周末。

10月20號(hào)微信公眾號(hào)“小聲比比”發(fā)表了一篇名為《獨(dú)家|估值175億的旅游獨(dú)角獸,是一座僵尸和水軍構(gòu)成的鬼城》的文章,直指旅游網(wǎng)站馬蜂窩評(píng)論抓取抄襲其他旅游平臺(tái),大量?jī)?nèi)容和抽獎(jiǎng)涉嫌造假。

假評(píng)論“捅了”馬蜂窩,辦事的真不是人?

作者宛如手提一把98K的剛槍王,一槍一靶,甩出了馬蜂窩與點(diǎn)評(píng),攜程、藝龍、美團(tuán)、Agoda、Yelp等網(wǎng)站評(píng)論對(duì)比圖,操作堪稱一流。

這篇文章以朋友圈為擴(kuò)散中心,迅速開(kāi)啟病毒式傳播,短時(shí)間內(nèi)達(dá)到10W+閱讀量。馬蜂窩隨后在10月22日也就是今天一早,發(fā)出了一則聲明稱,該自媒體文章所述的馬蜂窩用戶數(shù)量與事實(shí)和第三方機(jī)構(gòu)數(shù)據(jù)都嚴(yán)重不符,并存在誤導(dǎo)傾向,已被查證為有組織攻擊行為,將采取法律手段維護(hù)自身權(quán)益。

假評(píng)論“捅了”馬蜂窩,辦事的真不是人?

圍觀口水戰(zhàn)

馬蜂窩與爆料自媒體的口水戰(zhàn)還在繼續(xù),圍觀群眾也保持著吃瓜激情,支持者有,吐槽者有,抖機(jī)靈甩段子的也有。

比如知乎用戶羅一覺(jué)提出了一個(gè)有意思的細(xì)節(jié),馬蜂窩的這些假評(píng)論,主要是在工作日、工作時(shí)間發(fā)出來(lái)的。而不是和別的正常網(wǎng)站一樣,集中在飯點(diǎn)、休息日。

假評(píng)論“捅了”馬蜂窩,辦事的真不是人?

假評(píng)論“捅了”馬蜂窩,辦事的真不是人?

這說(shuō)明:

  1. 馬蜂窩在抄襲的時(shí)候,沒(méi)有考慮到正常用戶的行為方式。如果程序員稍微動(dòng)一下腦筋,把抄好的評(píng)論在飯點(diǎn)發(fā)出去,那就沒(méi)這么大的問(wèn)題。

  2. 這些評(píng)論很可能是員工在工作時(shí)間一個(gè)一個(gè)抄過(guò)來(lái)的,而不是有什么自動(dòng)化的軟件在抄襲。因?yàn)槌绦驊?yīng)該是不需要休息的。而且從數(shù)據(jù)來(lái)看,一萬(wàn)五千活躍用戶,有三四年的時(shí)間,完全是一個(gè)人工團(tuán)隊(duì)可以進(jìn)行的工作量。所以,在馬蜂窩就有一個(gè)團(tuán)隊(duì),十來(lái)上百人,每天的任務(wù)就是把別家的評(píng)論抄到自己家的網(wǎng)站上。我無(wú)法想象這種工作的枯燥程度,簡(jiǎn)直就是《城市之光》里的工人。他們可能拿著最低工資,但他們的產(chǎn)出,卻是馬蜂窩估值100億+人民幣的核心競(jìng)爭(zhēng)力。

另一位知乎網(wǎng)友Windfury則聊到一些技術(shù)問(wèn)題,

馬蜂窩上的攻略雷同的太多了,就像搜索引擎搜編程問(wèn)題一樣,結(jié)果大都是機(jī)器人的互相拷貝,一個(gè)后果是錯(cuò)誤的引導(dǎo)被復(fù)制來(lái)復(fù)制去。

馬蜂窩的問(wèn)題對(duì)用戶來(lái)說(shuō)除了相似內(nèi)容太多,還有一個(gè)時(shí)效性問(wèn)題,比如說(shuō)很多景區(qū)當(dāng)前在修路或者現(xiàn)在那個(gè)省份有票價(jià)優(yōu)惠,這對(duì)游客來(lái)說(shuō)其實(shí)是很重要的信息,缺失了會(huì)導(dǎo)致行程出現(xiàn)嚴(yán)重問(wèn)題,而這個(gè)問(wèn)題在馬蜂窩現(xiàn)在這種社區(qū)模式下無(wú)法解決。

還有網(wǎng)友則認(rèn)為爆料方是有備而來(lái),

能把馬蜂窩,點(diǎn)評(píng),攜程、藝龍、美團(tuán)、Agoda、Yelp這些網(wǎng)站全部爬一遍,他背后的團(tuán)隊(duì)技術(shù)實(shí)力肯定很強(qiáng)悍,肯定也花費(fèi)了不少時(shí)間和金錢(qián)做這件事。不過(guò)我很好奇作者花費(fèi)了這么多資源做這件事,僅僅是為了打假?我覺(jué)得原因沒(méi)那么簡(jiǎn)單。

要么作者夸大了他的爬蟲(chóng)數(shù)據(jù)量,要么作者也準(zhǔn)備開(kāi)一家馬蜂窩,手動(dòng)狗頭。

也有網(wǎng)友認(rèn)為這一連串都是套路,熟悉的配方多家使用,

沒(méi)有內(nèi)容來(lái)源→爬蟲(chóng)扒其他網(wǎng)站→數(shù)據(jù)量暴增→報(bào)表好看→估值暴增→風(fēng)投(人傻錢(qián)多)源源不斷→IPO→套現(xiàn)

知乎網(wǎng)友 Lincoin 認(rèn)為機(jī)器人創(chuàng)造內(nèi)容,乃是業(yè)內(nèi)的常見(jiàn)操作,沒(méi)什么新鮮的。

淘寶剛上線的時(shí)候,缺少種子用戶(小白鼠),馬老板帶著員工自己買(mǎi)自家商品寫(xiě)評(píng)論打分,創(chuàng)業(yè)初期都是這么過(guò)來(lái)的。但是「抄襲」的這么明顯,還當(dāng)自家資產(chǎn)來(lái)賣,這確實(shí)就有點(diǎn)不厚道了。

微博網(wǎng)友:

馬蜂窩:我們不生產(chǎn)內(nèi)容,我們只是內(nèi)容的搬運(yùn)工;

從螞蜂窩改到馬蜂窩,怪不得會(huì)捅馬蜂窩…… 

當(dāng)然還有一些網(wǎng)友情不自禁甩出了諸多表情包

……

假評(píng)論“捅了”馬蜂窩,辦事的真不是人?

關(guān)于數(shù)據(jù)挖掘這事兒

事實(shí)上,數(shù)據(jù)挖掘這件事兒一直都存有爭(zhēng)議,一方面平臺(tái)認(rèn)為利用技術(shù)爬取數(shù)據(jù)可以完善功能提高用戶使用感,另一方面卻被質(zhì)疑爬取的數(shù)據(jù)是否侵犯作者權(quán)益。

也有人好奇報(bào)道中稱馬蜂窩2100萬(wàn)條“真實(shí)點(diǎn)評(píng)”中,有1800萬(wàn)條都是通過(guò)機(jī)器人從競(jìng)品網(wǎng)站抄襲過(guò)來(lái)的,這是如何做到的。

來(lái)自邦盛科技機(jī)器防御專家告訴雷鋒網(wǎng)宅客頻道,目前平臺(tái)均是通過(guò)網(wǎng)絡(luò)機(jī)器人技術(shù)從其他網(wǎng)站爬取信息,并抄襲到自己的平臺(tái)。

網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動(dòng)地抓取網(wǎng)絡(luò)信息的程序或者腳本。當(dāng)前大部分的網(wǎng)絡(luò)機(jī)器人是通過(guò)直接發(fā)起http請(qǐng)求的方式獲取網(wǎng)頁(yè)資源,無(wú)js引擎,會(huì)進(jìn)行一定的偽裝,并使用動(dòng)態(tài)IP來(lái)躲避反爬蟲(chóng)措施。隨著網(wǎng)站防護(hù)能力的不斷提升,網(wǎng)絡(luò)爬蟲(chóng)會(huì)逐漸向?yàn)g覽器內(nèi)核型進(jìn)化,從而具備執(zhí)行js的能力,并進(jìn)一步的擬人化,增加被識(shí)別的難度。

總之,機(jī)器人創(chuàng)造內(nèi)容已經(jīng)不新鮮了,以馬蜂窩風(fēng)波中的刷評(píng)為例,就是通過(guò)爬取競(jìng)品的商家評(píng)論數(shù)據(jù),以預(yù)定義的一些隨機(jī)替換規(guī)則(比如稱謂,地點(diǎn),時(shí)間等等)構(gòu)造新的評(píng)論,最后利用馬蜂窩平臺(tái)設(shè)立的大批機(jī)器人賬號(hào),發(fā)布在自己平臺(tái)的對(duì)應(yīng)商家評(píng)論里。

當(dāng)然,類似馬蜂窩去抓取其他網(wǎng)絡(luò)預(yù)訂同行的內(nèi)容數(shù)據(jù)這種情況在業(yè)內(nèi)很是常見(jiàn),隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)機(jī)器人也越來(lái)越普遍。

根據(jù)之前國(guó)外網(wǎng)絡(luò)安全公司的研究報(bào)告,50%左右的網(wǎng)絡(luò)流量來(lái)自網(wǎng)絡(luò)機(jī)器人,遍布各類網(wǎng)站,包括出行、社交、OTA、電商、招聘、銀行、政府等。例如出行類中的12306票務(wù)信息被各類搶票軟件瘋狂地爬取,高峰時(shí)刻每天的訪問(wèn)量達(dá)到千億次。在社交類中,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)可以指揮一幫網(wǎng)絡(luò)機(jī)器人關(guān)注某人的微博、公眾號(hào)等,進(jìn)行點(diǎn)贊、關(guān)注或者留言,制造大量的僵尸粉。

(因此諸多吃瓜群眾表示:知乎、微博大V軟文贊評(píng)都是刷的,大家彼此彼此。)

在問(wèn)到最關(guān)鍵的被爬取內(nèi)容網(wǎng)站是否能發(fā)覺(jué)并采取反爬手段時(shí),專家告訴我們,針對(duì)爬蟲(chóng),常規(guī)的反爬蟲(chóng)手段包括驗(yàn)證碼、HTTP Header校驗(yàn)、代理IP識(shí)別等。

隨著爬蟲(chóng)技術(shù)的演進(jìn),常規(guī)的反爬蟲(chóng)手段已經(jīng)無(wú)法有效阻止爬蟲(chóng)的訪問(wèn)。近年來(lái)通過(guò)多維度、多層次的檢測(cè),并輔以后端大數(shù)據(jù)分析來(lái)識(shí)別網(wǎng)絡(luò)機(jī)器人逐漸興起并成為主流。

利用設(shè)備指紋技術(shù)從設(shè)備維度定位網(wǎng)絡(luò)機(jī)器人,人機(jī)識(shí)別技術(shù)從操作行為判別機(jī)器人點(diǎn)擊和自動(dòng)化點(diǎn)擊,而后端大數(shù)據(jù)實(shí)時(shí)分析技術(shù)可根據(jù)長(zhǎng)周期數(shù)據(jù)進(jìn)行復(fù)雜規(guī)則決策。綜合以上手段,可有效偵測(cè)爬蟲(chóng)行為,保護(hù)網(wǎng)站的信息資產(chǎn)不被爬取和泄露。

手段想有都可以有,但平臺(tái)用不用就不知道了。

可惜,對(duì)于深陷輿論中心的馬蜂窩來(lái)說(shuō),黑色周末依然在延續(xù)。

參考來(lái)源:知乎

雷鋒網(wǎng)宅客頻道(微信公眾號(hào):letshome),專注先鋒科技,講述黑客背后的故事,歡迎關(guān)注雷鋒網(wǎng)宅客頻道。

假評(píng)論“捅了”馬蜂窩,辦事的真不是人?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)