◎ 王銘宏/逢甲大學資訊工程學系助理教授

 

本文原發表於matters

選舉一直是台灣最重要的民主雙年盛會之一。近年來,隨著線上平台的蓬勃發展與媒體露出,線上選舉活動已經成為打選戰相當被重視的一塊,各政黨及候選人也都試圖透過網路來更親近選民,宣傳自己,積極一點則是期待透過網路,帶動議題,而終極目標當然是爭取更多選票或是打擊對手。

筆者從主流媒體或網路討論中,都常聽聞有所謂「網軍」的存在,然而大多是透過主觀判斷,或沒有積極證據的推論,例如依據特定使用者發言內容與其政治傾向,但尚未有從巨觀來看各使用者之行為的系統化研究。因此,本研究希望透過電腦技術與資料分析,提供更多客觀的數據來了解這些使用者是否有符合網軍的行為特徵。

PTT 批踢踢實業坊進站畫面

 

本研究1蒐集了 2018/01 – 2018/07 共 7 個月的 PTT 八卦版所有文章資料,包含文章標題、內容、評論資訊、使用者資訊 (ID, IP) 等,並將這些資料進行分析,從兩個行為模式觀點來討論

  1. 網軍有明顯的政治偏好,回應多:職業網軍因為是被特定陣營聘僱的,不太可能同時有多個政治偏好。
  2. 網軍上線時間長、反應快:專職網軍因為是選戰人員,上線時間應比一般普通使用者長,同時對於文章的反應速度也會比普通人較快 (文章出現能即時回應)。

若同時符合上述兩條件,則認定是網軍的機率便相當高。從七個月的資料集,我們取出標題與內文包含三位主要台北市長候選人本名 (丁守中、柯文哲、姚文智,按姓氏筆畫排序) 的文章,其中包含了超過 13,000 文章及超過 90 萬筆評論,詳細數據如下表一。

文章數 評論數 作者 評論者 平均每位作者發文數 平均每位評論者評論數
柯文哲 8,408 610,936 2,569 43,490 3.27 14.04
姚文智 3,608 213,623 1,372 24,693 2.62 8.65
丁守中 1,456 79,068 709 15,173 2.05 5.21

表一:資料集概要

 

網軍有明顯的政治偏好,回應多

由表一可以發現,柯文哲目前在網路聲量是最高的,相關文章的討論也最熱烈,並遠超過其他兩位候選人。值得注意的是,每位使用者平均發表柯文哲的文章數量,遠超過另外兩位候選人 20% – 50%,平均評論數量更達 50% – 250%。這些數據顯示,在柯文哲相關文章進行討論的使用者,遠比其他兩位候選人的文章更多且更積極。

圖一:候選人相關文章之前100活躍評論者,在評論文章數量與極性之分布

 

回到前段提出認定的網軍特點一:有明顯的政治偏好、回應多。我們在各候選人相關文章中取出評論文章數量前100名活躍的評論者,2將他們回應這些候選人相關文章數量與極性作成圖一,另外也將在X及Y軸排名前20%的評論者用黃色菱形表示。3在這裡的極性指的是推與噓的差 (極性 = 推的數量-噓的數量),在 PTT 中,每篇評論可以選擇極性為推 (贊同)、箭頭(中立)或是噓(反對)。就固有設計,預設的極性是推,因此噓的評論可視為積極表達反對意志的動作。

從圖一x軸與y軸數量級我們可以看出,即使只取前100活躍評論者,評論柯文哲的使用者依舊遠比其他兩位候選人的活躍。有趣的是,評論的活躍度與對於該候選人的極性,只有柯文哲為正相關,另兩位候選人為負相關。意即越活躍的使用者,越傾向對柯文哲的討論持正面極性,而保持中立或噓姚文智與丁守中的文章,其中可以有兩種解釋:

  1. 柯文哲能夠讓使用者積極表態,且這些使用者傾向對其討論文章持正面極性。相反的,姚文智及丁守中則讓使用者給予中立甚至負面極性。
  2. 這些活躍使用者是有目的的給予特定候選人正面極性與負面極性,因為評論相對於閱讀,對於使用者來說已經不像是臉書按讚這類的動作,還需要思考評論內容並張貼,評論行為可視為對該議題積極表態。

由圖一我們可以看到評論者代號 010,給予柯文哲文章正極性(+132),同時給予另兩位候選人負極性(姚:-245; 丁:-94);另外評論者代號 050 (柯:+156,姚:-29,丁:-20)。然而也有其他例子,評論者代號 005 (柯:-200,姚:+2,丁:-5),則是積極給予柯文哲負面評價。此類型使用者可視為活躍且有明確政治偏好,符合我們列出的特徵一。然而僅僅由特徵一不足以認定這類使用者為網軍,畢竟政治傾向明顯且熱於發表意見的人很多。接下來,我們將透過第二特徵,並提出另一個行為面向的分析來進行討論。

 

網軍上線時間長、反應快

網軍上線時間應會比一般人還要長、反應也更快。然而,從外部來看,我們並沒有辦法廣泛了解每個PTT用戶的上線與下線時間,因此我們從另一個線索:「文章反應時間」來進行探討。針對使用者 u 對於文章 a 的評論,其文章反應時間的計算方法如下

文章反應時間 T(u,a) = 使用者 u 對於文章 a 的第一則回應時間 – 文章 a 的發表時間

算出來的數值代表每個使用者在看到某候選人相關文章出現後,該使用者所發表的第一則回應與文章發表時間的差距,由此方法衡量各使用者對於各候選人相關討論文章的回應速度。若使用者回應文章數量多,且當文章發布後,可以在相當短的時間內進行回應,文章反應速度快,我們認為可以視為使用者付出大量上線時間在 PTT ,而能即時進行相關討論的佐證。

圖二:候選人相關文章之前100活躍評論者,在評論文章數量與文章反應時間之分布

 

我們將使用者對於特定候選人的回應極性與反應時間(取各篇文章反應時間之中位數),做成圖二。圖二顯示,確實有數位使用者反應速度與評論數都較大多數的使用者突出,有至少50%的回應在文章發表三十分鐘內就完成回覆,且這些使用者針對候選人相關文章總評論數高達數百甚至達數千,符合我們認為網軍需要文章反應速度快且回應多的特點。在讓我們回到網軍特點一:有明顯的政治偏好、回應多。我們列出部分對於特定候選人有特別政治極性,評論數量高,且反應速度快的使用者於表二。依據該表,我們將三種不同特性的活躍使用者列出其特色:

  1. 種類一:使用者 010, 063 有至少 50% 的回應在文章發表後 6 分鐘內即進行回應,幾乎是文章發表後就能即時跟上並進行評論;而其總發表數量皆超過 1000 則,且對特定候選人相關文章持正面極性,另兩位候選人持負面極性。
  2. 種類二:使用者 001, 003 則非常活躍進行文章評論,各發表超過 10,000 則與 5,000 則,並對於特定候選人相關文章有相當積極的正面回應行為,而對於其餘兩位候選人文章則明顯有回應數量落差。通常也能在 10-18 分鐘內就進行文章回應完成。
  3. 種類三:使用者 052, 050, 005 則對於特定候選人有明顯正面或反面的意見,但反應時間相較於前述四位使用者較長,約文章發表後數十分鐘進行回應。

表二:特定使用者其評論數、評論極性、反應時間整理

 

我們也透過人工判讀這些使用者的推噓文極性與實際發表內容之政治立場是否一致,避免極性與支持立場有不同的可能發生。結果這些使用者的推噓極性與其文字透露出來的政治立場一致。由此數據,筆者認為種類一與種類二使用者符合本研究企圖找出的網軍特色。

然而,證明特定使用者是網軍本身就是一個難題,除非有實體驗證程序,如專業偵查判斷,否則無法單純透過帳號的回應速度快與回應極性,就證實該帳號為網軍。但筆者希望透過大規模且長期的行為分析,提供不同面向的 PTT 使用者觀察角度,並透過資料來證實有多位使用者有本系列文章所提出的兩項網軍特性。筆者期望拋磚引玉,引起更多對於此議題從資料觀點的研究佐證,最終目標希望能讓台灣網路訊息的傳播能更透明與真實。

 


附記:(作者)感謝李映昕邀稿並給予意見,這篇文算是我在 matters 的第一篇文章,希望能激起更多對此議題的關心與討論,讓網路世界更透明。


菜市場政治學延伸閱讀:

PTT 評論行為分析 – 以太陽花學運期間為例

鍵盤參戰-淺談「數位原民」的網路政治學

ptt鄉民做的鄉民上線作息時間查詢系統初步分析

註釋:

  1. 本研究已被 The 7th International Conference on Complex Networks and Their Applications 國際研究會接受,將於 2018/12/11-13 於英國劍橋大學進行口頭發表。Ming-Hung Wang, Nhut-Lam Nguyen, & Chyi-Ren Dow (2018, December). Detecting Potential Cyber Armies of Election Campaigns Based on Behavioral Analysis. In 7th International Conference on Complex Networks and Their Applications.
  2. 為了呈現每個候選人文章的熱門評論者,並展現各候選人文章的討論熱度,我們取前100 名作圖;事實上,也可選擇不同數量評論者進行展示。
  3. 為了將這些使用者中表現更突出的使用者標出,我們針對極性與評論文章數的前 20% 再另外標註為黃色菱形。
「抓到了?!」用數據分析鳥瞰 PTT 政治文帳號
Tagged on:                     

4 thoughts on “「抓到了?!」用數據分析鳥瞰 PTT 政治文帳號

  • October 21, 2018 at 5:30 am
    Permalink

    請問,台灣人你們到底跟誰戰鬥 / 教えて台湾人、君達は一体誰と戦っているの?(作者:色色的日本人的歐吉桑)https://www-ss7bl.blogspot.com/2018/10/blog-post_20.html

    Reply
  • October 21, 2018 at 11:20 am
    Permalink

    想請問:

    1. 文中採取「文章反應時間」作為其中一個因素考量,但是否可將「回文時間」的因素擺進來,有無一種可能是若是職業網軍,可能上線回文時間集中於某個區塊,如此一來可增加判斷?

    2. 文中假定網軍「有明顯的政治偏好,回應多」、「網軍上線時間長、反應快」,但這兩種特性與「政治狂熱者」是否有重疊之處,若有,又如何排除?例如:某些群體特別喜歡柯文哲,他的政治狂熱達只要涉及批柯或讚柯都會積極回應,且上線時間可因手機的移動性而增家,有無可能?

    謝謝

    Reply
    • October 22, 2018 at 9:39 pm
      Permalink

      謝謝您的回應。

      1. yes, 這點也是分析標的,只是一樣會遇到有些網軍可能上班時間不固定的挑戰,但我想你的提議是合理的,謝謝。

      2. 您說的沒錯,當然有機會重疊,本研究主要是提出兩個觀察點,認為符合這些特點的使用者是網軍的機率高,至於找出來的是不是真的網軍,如本文最後所述目前還無法確認,畢竟網軍在沒有實體偵查行為下,很難驗證也不太可能願意主動承認。至於要怎麼排除,最好的狀況是有確認為網軍的使用者觀察資料,來建立行為模式進行比對,不過在還沒有這些樣本前,都還有一段長路要走,也歡迎您一起投入這議題的研究。謝謝。

      銘宏

      Reply
  • November 3, 2018 at 1:54 am
    Permalink

    很有趣的議題!!
    想請問一下是否有幸能向您索取原文拜讀?
    我的信箱是ri0806449@yahoo.com.tw
    謝謝您!!

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *