免费黄色网址在线播放-免费黄色网址中-免费黄色无码-免费黄色在线-免费黄网站在线观看-免费黃色三級片国产片

分析稱19.42%的Twitter活躍賬號是虛假或垃圾郵件賬戶

來源:cnBeta.COM

2022年5月13-15日,SparkToro和Followerwonk對過去90天內(nèi)活躍的44058個(gè)公共Twitter賬戶進(jìn)行了嚴(yán)格的聯(lián)合分析。這些賬戶是通過機(jī)器從1.3億多個(gè)公開的、活躍的個(gè)人資料中隨機(jī)選擇的。該分析發(fā)現(xiàn),19.42%符合虛假或垃圾郵件賬戶的保守定義。詳情和方法見下面的報(bào)告全文。

在過去的三年里,SparkToro一直在運(yùn)營一個(gè)名為 Fake Followers的Twitter個(gè)人資料免費(fèi)工具。在過去的一個(gè)月里,許多媒體和其他好奇的各方都使用該工具來分析可能成為Twitter收購者的埃隆·馬斯克(Elon Musk)的粉絲。上周五,馬斯克發(fā)推文說他對Twitter的收購被 “擱置”了,因?yàn)橛腥速|(zhì)疑Twitter的用戶中有多少是虛假或垃圾郵件賬戶。

SparkToro是一個(gè)只有三個(gè)人的小團(tuán)隊(duì),F(xiàn)ake Followers旨在進(jìn)行非正式的免費(fèi)研究(實(shí)際業(yè)務(wù)是受眾研究軟件)。然而,鑒于公眾的重大興趣,SparkToro與Twitter研究工具Followerwonk(其所有者M(jìn)arc Mims是一個(gè)長期的朋友)聯(lián)手進(jìn)行了嚴(yán)格的分析回答。

什么是垃圾郵件或虛假Twitter賬戶?

多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?

馬斯克的粉絲中,有百分之多少是垃圾郵件、虛假或不活躍的賬戶?

為什么SparkToro的方法應(yīng)該被信任?

SparkToro在下文中逐一討論這些問題。

什么是垃圾郵件或虛假Twitter帳戶?

SparkToro的定義(可能與Twitter自己的定義不同)可以最好地描述如下。

“垃圾郵件或虛假Twitter賬戶是指那些不經(jīng)常有人類親自撰寫其推文內(nèi)容、消費(fèi)其時(shí)間線上的活動(dòng)或參與Twitter生態(tài)系統(tǒng)的賬戶。”

這個(gè)定義下的許多 “虛假”賬戶既不邪惡也沒有問題。例如,相當(dāng)多的用戶發(fā)現(xiàn)關(guān)注@newsycombinator(它自動(dòng)分享黑客新聞網(wǎng)站的頭版文章)或@_restaurant_bot(它推送通過Google地圖發(fā)現(xiàn)的隨機(jī)餐廳的照片和鏈接)這樣的機(jī)器人有價(jià)值。可以說,這些賬戶使Twitter成為一個(gè)更好的地方。他們只是沒有一個(gè)人在設(shè)備后面,親自參與到Twitter的生態(tài)系統(tǒng)中。

相比之下,大多數(shù)“垃圾郵件”賬戶是一種不受歡迎的滋擾。他們的活動(dòng)范圍從兜售宣傳和虛假信息到那些試圖銷售產(chǎn)品、誘導(dǎo)網(wǎng)站點(diǎn)擊、推送網(wǎng)絡(luò)釣魚嘗試或惡意軟件、操縱股票或加密貨幣,以及(也許最糟糕的)騷擾或恐嚇平臺用戶。

SparkToro的假粉絲方法(下文有詳細(xì)描述)試圖識別所有這些類型的不真實(shí)的用戶。

然而,SparkToro的系統(tǒng)并不試圖識別可能由人類不定期操作但有一些自動(dòng)化行為的Twitter賬戶(例如,一個(gè)有多個(gè)用戶的公司賬戶,如他們自己的@SparkToro,或一個(gè)由一個(gè)人操作的社區(qū)賬戶,如Aleyda Solis的@CrawlingMondays)。他們無法知道Twitter(或馬斯克)可能會選擇如何對這些賬戶進(jìn)行分類,但他們偏向于對“垃圾郵件/虛假”的相對保守的解釋。

多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?

為了得到最全面的答案,SparkToro在五個(gè)獨(dú)特的數(shù)據(jù)集上應(yīng)用了一個(gè)單一的垃圾郵件/虛假賬戶分析過程(如下所述)。

以上所代表的數(shù)據(jù)集是:

1.Followerwonk隨機(jī)樣本(44058個(gè)賬戶)--Followerwonk目前有10.47億個(gè)Twitter資料索引,以連續(xù)的周期更新,需要30天左右。任何被刪除的賬戶(由用戶或Twitter)都會被刪除,不包括在統(tǒng)計(jì)中。根據(jù)Followerwonk的定義,其中1.3億是 “近期活躍”的,即在過去9周內(nèi)曾發(fā)布推文,并且是公開的,而不是“受保護(hù)”的(Twitter對私人賬戶的術(shù)語)。

Marc 寫了代碼,從Followerwonk的活躍數(shù)據(jù)庫中隨機(jī)選擇公共賬戶,并將它們傳遞給SparkToro進(jìn)行分析。SparkToro團(tuán)隊(duì)的Casey進(jìn)一步刷新了這個(gè)名單,并通過他們的虛假粉絲垃圾郵件分析程序運(yùn)行了44058個(gè)公共活躍賬戶,發(fā)現(xiàn)8555個(gè)賬戶的特征與虛假/垃圾郵件賬戶高度相關(guān)。他們相信這個(gè)數(shù)據(jù)集代表了對有多少活躍的Twitter用戶可能是垃圾郵件或假的問題的最佳、單一答案。

2.虛假追隨者工具的匯總平均值(約50萬個(gè)配置文件運(yùn)行,分析了1億多個(gè)賬戶)--在過去3年半的運(yùn)作中,SparkToro的虛假追隨者工具已經(jīng)在501532個(gè)獨(dú)特的賬戶上運(yùn)行,并分析了其中每個(gè)賬戶的數(shù)千個(gè)追隨者,總計(jì)超過10億個(gè)配置文件(盡管這些并不一定獨(dú)特,而且他們沒有跟蹤哪些配置文件被分析為該過程的一部分)。

這代表了他們可以獲得的最大的賬戶集,但它包括對許多老賬戶的分析,這些賬戶在過去90天內(nèi)沒有發(fā)送過推文,因此,很可能不符合Twitter對mDAUs(可盈利的日活躍用戶)的定義。他們把它包括在內(nèi)是為了進(jìn)行比較,并表明包括簡單的隨機(jī)Twitter賬戶(與那些最近活躍的賬戶相比)的分析可能不那么準(zhǔn)確。

3.Twitter上@ElonMusk的所有追隨者(9340萬個(gè)賬戶)--鑒于人們對馬斯克的賬戶的獨(dú)特興趣,以及它在觸發(fā)這份報(bào)告中所發(fā)揮的核心作用,研究團(tuán)隊(duì)認(rèn)為包括對關(guān)注@ElonMusk的近億個(gè)賬戶的完整分析是明智的。這個(gè)數(shù)據(jù)集包括了在過去90天內(nèi)沒有發(fā)過推文的舊資料(不符合Twitter的mDAUs定義)。

4.Twitter上@ElonMusk的活躍粉絲(2680萬個(gè)賬戶)--對馬斯克的Twitter粉絲進(jìn)行更公平的評估,只包括在過去90天內(nèi)發(fā)過推文的賬戶。為了與Followerwonk的分析方法相匹配,SparkToro團(tuán)隊(duì)只選擇了那些符合這一標(biāo)準(zhǔn)的26,878,729個(gè)賬戶,并在上圖中把它們細(xì)分出來。

5.對關(guān)注@Twitter賬戶的100個(gè)用戶進(jìn)行隨機(jī)抽樣(100個(gè)賬戶)--在5月13日周五的推文的后續(xù)報(bào)道中,馬斯克說,“我的團(tuán)隊(duì)將對@twitter的100個(gè)關(guān)注者進(jìn)行隨機(jī)抽樣;我邀請其他人重復(fù)同樣的過程,看看他們有什么發(fā)現(xiàn)。”

雖然SparkToro團(tuán)隊(duì)不認(rèn)為這個(gè)過程是一個(gè)嚴(yán)格的、具有統(tǒng)計(jì)學(xué)意義的樣本集,但他們還是把它包括在內(nèi),以便進(jìn)行比較。5月14日,他們從@Twitter的粉絲公共頁面中手動(dòng)抽取了一個(gè)隨機(jī)賬戶樣本。為了得到偏差最小的樣本,他們只包括公共賬戶,只包括在過去90天(2022年2月12日之后)發(fā)送推文的賬戶,只包括2021年5月之前創(chuàng)建的賬戶,即他們已經(jīng)在Twitter上呆了1年以上(許多最近的賬戶,特別是考慮到馬斯克的活動(dòng),可能使樣本產(chǎn)生偏差)。

6.Twitter最近的收益報(bào)告估計(jì)(賬戶數(shù)量不明)--馬斯克在最近的推文中引用了Twitter的公開收益報(bào)告,分享了<5%的mDAUs(可盈利的每日活躍用戶,在他們的2019年報(bào)告中定義)是虛假或垃圾郵件。SparkToro在圖表中加入了這一估計(jì),以便進(jìn)行比較,并指出其方法未被披露。

毫無疑問,其他研究人員將作出其他估計(jì),希望有同樣大和嚴(yán)格的數(shù)據(jù)集。鑒于Twitter公開數(shù)據(jù)的局限性,SparkToro團(tuán)隊(duì)認(rèn)為最準(zhǔn)確的估計(jì)是:在過去90天內(nèi)發(fā)送過推文的公共賬戶中,有19.42%是虛假或垃圾郵件賬戶。

馬斯克的Twitter粉絲有多大比例是垃圾郵件、虛假或不活躍的?

2018年10月,SparkToro分析了當(dāng)時(shí)的美國總統(tǒng)唐納德-特朗普在.Twitter上的所有54,788,369名追隨者。在這份報(bào)告中,SparkToro復(fù)制了這一過程,分析了馬斯克個(gè)人資料中的所有93,452,093名粉絲(截至2022年5月14日)。

當(dāng)通過SparkToro的公共工具運(yùn)行虛假追隨者報(bào)告時(shí),其團(tuán)隊(duì)分析了一個(gè)Twitter用戶的追隨者樣本(幾千個(gè))。當(dāng)一個(gè)賬戶有非常多的追隨者時(shí),這種方法可能會偏離對每個(gè)追隨者的全面分析所顯示的情況。在5月14日星期六和5月15日星期日,SparkToro的Casey Henry 對馬斯克的賬戶進(jìn)行了這一全面分析,以提供盡可能精確的數(shù)字。

上面是SparkToro的垃圾郵件分析系統(tǒng)中使用的一些因素的分類,總的來說,70.23%的@ElonMusk的粉絲不太可能是看到他的推文的真實(shí)、活躍用戶。這遠(yuǎn)遠(yuǎn)高于假粉絲的中位數(shù),但并不令人驚訝,原因有幾個(gè)。

非常大的賬戶往往比其他賬戶有更多的虛假/垃圾郵件粉絲

受到大量媒體報(bào)道和公眾關(guān)注的賬戶(如美國前總統(tǒng)特朗普和馬斯克)往往比其他賬戶吸引更多的虛假/垃圾郵件追隨者

Twitter向新用戶推薦的賬戶(通常包括@ElonMusk)往往會獲得更多的虛假/垃圾郵件關(guān)注者。

與其他Twitter賬戶的分布情況相比,@ElonMusk的虛假/垃圾郵件追隨者數(shù)量可能顯得不正常,但SparkToro不認(rèn)為或暗示馬斯克對獲得這些可疑的追隨者負(fù)有直接責(zé)任。最有可能的解釋是上述因素的組合,而馬斯克對Twitter的積極使用、媒體對其推文的報(bào)道以及Twitter自己的推薦系統(tǒng)更加劇了這種情況。

SparkToro團(tuán)隊(duì)也只對那些在過去90天內(nèi)發(fā)過推文的2680萬@ElonMusk的粉絲進(jìn)行了分析。這個(gè)過濾器與他們應(yīng)用于Followerwonk數(shù)據(jù)集和@Twitter的隨機(jī)關(guān)注者的過濾器相匹配。

這種更有選擇性的分析發(fā)現(xiàn)23.42%的人可能是虛假或垃圾郵件賬戶,這個(gè)數(shù)字與估計(jì)的全球平均數(shù)相差不遠(yuǎn)。

為什么要相信SparkToro和Followerwonk的方法學(xué)?

上述分析的數(shù)據(jù)集(除了@Twitter的隨機(jī)100名粉絲,研究團(tuán)隊(duì)不贊成這種方法)范圍足夠大,過程足夠嚴(yán)格,其結(jié)果可由任何具有類似公共權(quán)限的Twitter研究人員復(fù)制。研究團(tuán)隊(duì)邀請任何有興趣的人在他們自己的數(shù)據(jù)集上復(fù)制在這里使用的過程(并在下面詳細(xì)描述)。Twitter在這里提供了關(guān)于他們的API產(chǎn)品的信息。

Followerwonk只從那些在過去90天內(nèi)有公開推文發(fā)表的賬戶中隨機(jī)抽取樣本,這是"活動(dòng)"的明確標(biāo)志。此外,F(xiàn)ollowerwonk定期更新其個(gè)人資料數(shù)據(jù)庫(每30天),以刪除任何受保護(hù)或刪除的賬戶。他們相信,這個(gè)樣本的規(guī)模足夠大,具有統(tǒng)計(jì)學(xué)意義,并且經(jīng)過精心策劃,最接近于Twitter可能認(rèn)為的可盈利的每日活躍用戶(mDAU)。

SparkToro的虛假粉絲分析認(rèn)為,如果一個(gè)賬戶觸發(fā)了SparkToro在他們的虛假粉絲工具中顯示的許多信號,那么它就是虛假的。

SparkToro識別虛假賬戶的模型來自于對數(shù)萬個(gè)已知的垃圾(和真實(shí))Twitter賬戶進(jìn)行的機(jī)器學(xué)習(xí)過程。以下是SparkToro如何建立這個(gè)模型的。

2018年7月,SparkToro團(tuán)隊(duì)從3個(gè)不同的垃圾郵件和機(jī)器人賬戶供應(yīng)商那里購買了3.5萬個(gè)虛假Twitter粉絲賬戶。他們的供應(yīng)商讓這些賬戶關(guān)注一個(gè)空的Twitter賬戶,該賬戶創(chuàng)建于2016年,在2018年7月有0個(gè)粉絲。花了~3周的時(shí)間來交付這35,000名粉絲。在接下來的3周里,他們每天都會收集這些虛假/垃圾賬戶的數(shù)據(jù)。

除了這35000個(gè)已知的垃圾郵件賬戶,團(tuán)隊(duì)又從SparkToro的大型檔案索引中隨機(jī)抽取了50,000個(gè)非垃圾郵件賬戶。這給了我們總共85,000個(gè)賬戶,在亞馬遜網(wǎng)絡(luò)服務(wù)上通過機(jī)器學(xué)習(xí)程序運(yùn)行。

這85,000個(gè)賬戶被分成兩組,其中混合了垃圾郵件和非垃圾郵件賬戶。A組作為訓(xùn)練集,B組作為測試集,以分析模型的性能。

以下數(shù)據(jù)被用于初始模型的生成:

資料圖片

簡介URL

已驗(yàn)證的賬戶狀態(tài)

語言

Twitter語言

帳戶年齡(天數(shù))

個(gè)人簡介的長度

追隨者的數(shù)量

他們關(guān)注的賬戶數(shù)量

距離上次發(fā)推的天數(shù)

推文的數(shù)量

帳戶出現(xiàn)在名單上的次數(shù)

地點(diǎn)

顯示名稱

在找到符合數(shù)據(jù)的模型后,SparkToro團(tuán)隊(duì)分析了結(jié)果,以確定與垃圾郵件密切相關(guān)的特征。不出所料,沒有一個(gè)特征與垃圾郵件有1:1的相關(guān)性。但是,很多特征在組合使用時(shí)顯示出前景。以下是與垃圾郵件賬戶相關(guān)的特征的例子。

資料圖片 - 缺乏這些資料的賬戶往往是垃圾郵件。

賬號年齡(天數(shù))--某些模式顯然與垃圾郵件有關(guān)(例如,當(dāng)一天內(nèi)創(chuàng)建的大量賬號關(guān)注特定的賬號或發(fā)送幾乎相同的推文)。

追隨者的數(shù)量 - 垃圾郵件賬戶往往只有很少的追隨者

自上一條推文以來的天數(shù)--許多垃圾郵件賬戶很少發(fā)推文,而且是以協(xié)調(diào)的方式發(fā)推文

帳戶出現(xiàn)在名單上的次數(shù) - 垃圾郵件帳戶幾乎從不出現(xiàn)在名單上

顯示名稱 - 某些關(guān)鍵詞和模式與垃圾郵件密切相關(guān)

然而,這些并不是唯一的,其他與垃圾郵件有適當(dāng)相關(guān)性的信號(特別是當(dāng)多個(gè)信號適用于一個(gè)賬戶時(shí))也有助于建立一個(gè)有效的模型。通過試驗(yàn)和錯(cuò)誤(當(dāng)然還有模式擬合),他們精心設(shè)計(jì)了一個(gè)評分系統(tǒng),可以正確識別超過65%的垃圾郵件賬戶。他們故意偏向于遺漏一些虛假/垃圾郵件賬戶,而不是意外地將任何真正的賬戶標(biāo)記為錯(cuò)誤的。

關(guān)鍵是要記住,沒有一個(gè)因素能告訴他們一個(gè)賬戶是垃圾郵件!這一點(diǎn)很關(guān)鍵。觸發(fā)的垃圾郵件信號越多,一個(gè)賬戶就越有可能是垃圾郵件。我們的虛假追隨者系統(tǒng)要求在將一個(gè)賬戶評為"低質(zhì)量"或虛假之前,至少要有17個(gè)垃圾郵件信號中的一小部分,有時(shí)甚至多達(dá)10多個(gè)(取決于哪些信號,以及它們的預(yù)測性)。

這種方法可能低估了垃圾郵件和虛假賬戶的數(shù)量,但幾乎不包括假陽性(即聲稱一個(gè)賬戶是假的,但其實(shí)不是)。

對Followerwonk提供的約4.4萬個(gè)隨機(jī)的、最近活躍的賬戶應(yīng)用這一模型,可以得出每個(gè)賬戶的質(zhì)量分?jǐn)?shù),如下圖所示。

一個(gè)賬戶觸發(fā)的垃圾郵件相關(guān)標(biāo)志越多,其在該系統(tǒng)中的質(zhì)量得分就越低。Sparktoro的保守方法意味著我們只將3、2和1的分?jǐn)?shù)視為虛假/垃圾郵件賬戶,而這三個(gè)的組合產(chǎn)生了他們的最終估計(jì),最好的說明是:19.42%的最近活躍的公共Twitter資料極有可能是虛假或垃圾郵件。

關(guān)鍵詞: Microblog 分析稱19.42%的Twitter活躍

推薦

直播更多》

關(guān)閉

資訊更多》

焦點(diǎn)

主站蜘蛛池模板: 天天干狠狠干 | 嫩模升级极品大尺度HD | 欧美日韩午夜 | 91人妻精 | 欧美精品乱码99久久蜜桃 | 午夜福利在线视频 | 亚洲av成人片色在线观看高潮 | 国产真人做满A片免费 | 黄色网址网站 | 国产一区二区 | 西西特级A婬片AA片AAA | 东京热AV网站 | 91精品综合久久久久久五回天 | 日韩操穴| ,国产麻豆放荡AV剧情演绎 | av五码在线网 | 国产极品 国产极品 | 丰满少妇乱子伦精品看片 | 久久99精品久久久久婷婷 | 午夜电影亚洲AV无码一区二区 | 91天媒传媒A在线视频.全程高清完整版免费看 | 午夜性影院 | 国产三级片在线观看 | 欧美日韩一品道 | 久久久国产精品黄毛片 | 蜜桃AV秘 无码一区三区 | 苍井空无码播放 | 国产精品第三页 | 久久激情五月天 | 亚洲欧美日韩另类在线 | 美国发布站永久网站 | 日韩精品av | 久久久久久91香蕉国产 | 亚洲精品无码久久牙蜜区 | 精品人妻一区二区三区日产乱码 | 无码精品一区二区三区在线播放 | 无码在线视频一区二区三区四区五区 | 无码性按摩AV在线观看 | 国产一级A片夜天码免费看 亚洲综合网址 | 午夜精品久久久久久久99 | 日韩伦理在线 |