◎ 王銘宏/台灣大學電機工程研究所博士候選人
近來年 PTT 已經成為台灣最重要的社群論壇之一,每天總有數萬人同時在線上瀏覽或發表文章,尤其在其中最大的八卦版上,每天有數百篇文章與數萬筆文章評論被發表,是重要的線上資訊交流區。然而,隨著討論人數的增加,許多人也希望透過人為操作來影響文章走向,包含藉由大量的發表文章與評論來企圖改變閱讀者對於單一事件的評價。本文透過分析 318 學運期間 PTT 文章的評論行為,期能提供一些可能的線索做為 PTT 用戶行為之參考。
圖片來源:白色正義聯盟蕃論戰專欄
資料來源說明
PTT 電子布告欄系統是台灣最大的線上論壇之一,每天尖峰時段同時有約10萬人上線參與討論,其中最大的線上看板為八卦版,同時有超過1萬人於尖峰時段上線,並發表個人意見與參與討論,是針對新聞與政治的重要討論區。筆者蒐集了2014年318學運期間於此看板之相關討論串 (文章中含有事件關鍵字,如表 1)、至少取得20則評論以上的文章。經過濾後總共有超過8,000篇文章,以及超過60萬筆文章評論納入分析,共有超過5萬名不重複使用者被辨識出,詳細資料集資訊如表 2。
表 1:活動事件關鍵字
議題 | 兩岸服務貿易協議 |
地點 | 立法院、行政院 |
活動簡稱 | 318學運、太陽花學運 |
行動 | 佔領立法院、攻佔行政院 |
反對陣營人物 | 林飛帆、陳為廷、黃國昌 |
表 2:資料集資訊
起始時間 | 2014/03/18 06:00 |
結束時間 | 2014/04/11 06:00 |
文章數 | 8,674 |
文章評論數 | 620,925 |
評論/文章 | 71.6 |
不重覆使用者數 | 50,546 |
作者 | 4,682 |
評論者 | 49,665 |
研究問題一:能否透過文章發文量偵測重大事件發生
從圖 1 可以看出在學運期間前一周是相關討論量最大的時段,尤其是 3/19 日相較於 3/18 日有相當顯著的成長,另外在 3/23 號佔領行政院行動當天,相關討論文章數量則達到最高峰,有超過 1000 篇文章至少獲得 20 則評論以上,儘管後續於 3/30 日有大型集會,及 4/10 退場晚會,但文章數並沒有顯著的變化。透過此圖,筆者認為大規模的文章變動可能致因於單一重大且緊急事件的爆發,然而若是在預期中的活動,則討論行為可能不會有太大的變動。另外,文章數目大量增加的時間僅維持了約 5 天,是否代表單一議題於社群論壇上的可能壽命,則需要更多案例來進行驗證。
圖 1:日期與當日文章量之分布圖
研究問題二:文章推文分布是否有規律
讀者可能有疑問,在 PTT上怎麼樣才算是被推爆、噓爆的文章?到底讀者們去推和噓的時間為何?平均而言又獲得了怎麼樣的評價呢?筆者分析了各文章的評分數,並列出其評分分布圖如下。
圖 2:文章發表時間與總分之分布圖
在圖 2 的上方圖中,我們分析推文的時間分布情形,基本上是接近指數分布或長尾分布 (long-tail distribution),超過九成的評論在文章發表後5,826秒內被發表。換句話說,一篇文章基本上發表後一個半小時,評論活動就接近平穩,某種程度也代表了閱讀數量顯著降低,因此如果要抓住群眾觀看黃金時間,在PTT這種latest first設計下,發文後一個半小時是點閱的關鍵時間。
從圖 2 下方圖中,我們分析了推文評分的分布,在PTT上有推文、噓文及箭頭等三種評分方法,PTT上的文章分數計算則是:總分 = 推文數 – 噓文數。如果超過正負100的話,就是被推爆(顯示為「爆」)或噓爆(顯示為XX)。我們透過累積分布圖來進行觀察,基本上在正評價與負評價都各自呈現長尾分布。從分析結果來看,我們發現其實接近80% 的文章分數都在 (+-50) 之內,假設我們要找尋推噓最多的前10% 的討論串,在利用PTT內建之文章選擇功能中,就可以簡單設定為 (+-50) 以外的文章進行閱讀,將能較迅速找到重要文章進行閱讀。通常,這些獲得高度數目推文的文章,常常會因此而受到矚目及傳閱。
研究問題三:誰發文最有用?
如果是以一位民意操作者的腳色,我們希望能夠透過意見領袖來協助資訊的傳遞,甚至是改變群眾對於特定事件的看法。如果我們以文章所獲得的回應數來當作衡量的基準時,從圖 3 可以發現,大約有數十位作者能夠取得超過1000個網友的回應,如果我們把回應當成一個有效的資訊傳遞 (因為PTT文章點閱數並無法從外部取得),可得知僅有少部分的作者有辦法獲得大量的回應,因此即便創了大量帳號並透過發文企圖影響討論意見,其實不如找到一位具有影響力的作者,將更容易達到此效果。
也就是因為能夠獲得大量回應的作者不多、影響整個版的民意取向以及對於特定事件的看法較為困難,有網友就發現了,有的時候似乎會出現大量「相同網路位置(IP)」的帳號們,去進行一個稀釋版面的動作,也就是說,的確有人曾經透過大量的發一些不相關的文章來「洗掉版面」。這樣的洗版行為或許是比找出一位具有影響力的作者、發出一篇具有影響力的文章,還要容易許多。
圖表 3:作者獲得回應數與之分布圖
討論
從以上分析結果,我們發現:1、緊急事件的發生會有大量文章被討論,然而如果是預定好的大型活動,則討論並不如緊急事件狀況下熱烈。2、從獲取大眾注意力的觀點來看,與其透過創造大量ID來大量發表文章或大量推文,透過特定ID來發表文章比較可以達到較好主動宣傳的效果。
PTT由於其上手的門檻相對於一般社群論壇較高,並有會員註冊等相關資訊,使其成為具有特殊族群屬性的討論串,然而由於其討論數量大,以及透過媒體宣傳的關係,使其成為台灣一個重要的線上討論園地。筆者於此篇文章提出一些以大量資料為基礎的敘述式統計資訊,期能提供有興趣的讀者作為參考。
歡迎來信討論:tonymhwang@gmail.com
編輯後記
從大量數據的整理,我們可以得出幾個可以觀察的點:
一、PTT上面可以聚集人們在短時間內針對大事情做討論,不過,到底有沒有人「刻意」帶風向,其實很難透過這樣子的分析看出來。
二、有人一直講說有「網軍」存在,尤其是2014年的選舉期間,有立委一直出來指責ptt上面都是網軍。事實上,從圖3來看,即使有政黨派出來的網軍,ptt上面是很難去把輿論「帶向某一個方向」。透過大量買帳號的方式是有可能影響版上的風向,不過主要是靠大量「發送廢文」的方式來達成稀釋的效果,而很難往某個方向去帶。先前八卦版上面就常常有人把網軍「釣出來」,而他們往往都是同一個IP、多重帳號,然後一直發無意義的討論串這樣。
三、若我們回到政治學的相關研究,從方法論上面來看,現在愈來愈多社會科學跟電腦資訊科學做結合。例如Gary King和其學生與資工專業的研究者合作的計劃 (詳見〈中國如何「河蟹」你的言論?〉的介紹) 就是透過電腦軟體截取了非常大量的數據來分析,並且得出了「集體行動相關的訊息會被中國政府網軍給刪除」這樣的結論。本文作者利用PTT以及太陽花運動這個大事件,截取了大量的數據來做分析,提供了非常有趣的研究方向。
四、有關網路言論的研究,我們也可以放在獨裁政治的脈絡中來看。有本書的書名及內容很適合這個討論:《獨裁者的進化》。現在愈來愈多的獨裁政權,並不禁止你談論政治,只是他們也有更多更細膩的手段來影響人們的言論自由。例如,聘用大量的網軍,在網路上放出真真假假的消息,用來蓋掉原本真正的訊息;使用網路防火牆、五毛大軍來做言論審查,刪掉政府不喜歡的言論;在真實世界中,對記者及媒體從業人員進行打壓,許多人無故被逮捕或是「被消失」,最近香港銅鑼灣書店五名股東「被失縱」的事件再度引起關注;透過取消簽證的威脅,以及官方指派的「學生會代表」,在國內國外都對學生們進行監控……
關於PTT的政治傾向、相關的議題討論請見以下文章:
- 人渣文本,PTT的政治傾向
- 陳方隅,鄉民談PTT與網路霸凌:談分手之前也請先好好認識對方吧!
- chenlap,PTT生存靠的是文化
- 蔡榮峰,鍵盤參戰-淺談「數位原民」的網路政治學