今天來聊聊所謂的大數據。
其實是從偶然看到下面這篇文章開始的。
在文章當中,提到了…
friDay 音樂觀察用戶的使用趨勢,發現使用離線播放歌曲的比例在2017年上半年明顯增加,使用來源約有18%來自於離線歌曲,推測用戶把此功能當做歌單來使用,或是希望在離線狀態播放歌曲可以節省網路流量。
這讓我十分的好奇,想要瞭解看看到底是什麼樣的原因,會造成這樣的現象。所以我就先試著去找看看有沒有raw data。
好,很遺憾的,完全沒有資料,看起來原始資料果然沒辦法這麼容易得手。不過幾篇相關報導也幾乎都是一模一樣的內容,沒有提到比較細部的驗證結果。
那原本的文字有什麼樣的問題呢?我們一段一段的擷取出來分析吧。
18%真的有明顯增加嗎
首先我們先看前半段。
使用離線播放歌曲的比例在2017年上半年明顯增加,使用來源約有18%來自於離線歌曲
上面這段文字中的「明顯增加」,就連我這個統計不是很好的人,都知道這幾個字是需要有統計檢定來作為背書的。
當然這邊就不提統計的部分了(我統計也不好嘛XD),我們換舉個例子來說:如果今天小明考試考了95分,你會說他這次的考試成績明顯進步嗎?也許會,也許不會,因為這必須要視小明過去的表現而定。如果小明一直以來都只有考30~40分,那今天不用考到95分,大概只要考60分,就會覺得小明這次的考試成績有「明顯進步」了。反之,若小明平常都能考個80~90分,今天拿個95分,大概就只會覺得「有點進步」,而不是「明顯進步」了。
也就是說,所謂「明顯」的概念,應該是要與過去的資料去做比較,並且有一定的顯著程度,才能夠這樣宣稱的。當然很可惜的,沒有找到原始數據或是比較詳細的文章來說明相關的檢定或推導過程。
Context改變,對於使用者行為改變的影響
接著是後半段。
推測用戶把此功能當做歌單來使用,或是希望在離線狀態播放歌曲可以節省網路流量
當然並不是說假設或推測不好,而是應該要有所本,或是秉持著「大膽假設、小心求證」的精神,來驗證一開始的猜測是否正確。尤其類似這種新聞稿類型的文章,應該是相對有時間去做相關驗證的(何況收集的是上半年的資料,但文章發佈時下半年都過1/3了),更應該要直接拿出驗證後的結果,而不是提出一個似是而非的猜測與腦部。
畢竟,資料都是在你們手上,看起來也沒有open data,廣大鄉民們也無從幫忙驗證啊。
所以,這段文字有什麼問題呢?缺少的相關的背景,或是用context會更為精確一點。也就是說,會有這樣明顯增加的趨勢出現(對,先假設是真的有明顯增加,不然文章寫不下去XD),背後很可能是有一些context的改變。
1. 使用的載具
以使用者的行為來看,使用電腦時會比使用行動裝置時,更願意下載檔案做離線觀看。這有兩個主要的原因:電腦的儲存空間比較大、以及使用電腦時通常是連接著Wi-Fi,下載檔案時的網速才夠,不會那麼痛苦。
另外,單就行動裝置而言,iOS與Android的使用者行為也是不同的。一般而言,使用Android的使用者,會比使用iOS的使用者更願意下載檔案進行離線觀看。當然原因也是儲存空間,雖然iOS裝置可供選擇的儲存空間也越來越大,但別忘了,Android裝置還可以加裝記憶卡呢!這大概是iOS裝置短期內很難看到的改變。
當然半年內有明顯換機潮的機會比較小,但會不會是使用Windows版與Android版的使用者明顯增加(或是增加的幅度遠大於行動版與iOS版,因為新加入的都是窮學生)、或者是使用行動版與iOS版的使用者減少了(可能是使用體驗越來越差等等原因),而間接導致「離線歌曲的使用情況增加」呢?
當然我也只能夠猜測XD 因為這個部分就要看friDay是否有收集這部分的資料,可以來做進一步的交叉比對了。
2. 使用體驗
好的,寫到這邊我要先承認我並沒有用過friDay音樂,所以也無從比較這中間的使用體驗差異。不過我之前有試用過同間公司出品的friDay影音,嗯,整體體驗蠻差的,讓我一部電影看了大約半小時還沒看完最前面的十分鐘,可見有多麽慘烈(大概一年多前的事情了,現在應該有所改善了吧)。
回到主題,使用體驗可以許多不同的層面,像是這段期間內是否有UI改版,造成線上收聽的體驗越來越差,導致使用者寧可事先選好要聽的歌曲並下載下來做離線播放;或是這段期間是不是新加入的使用者很多,導致尖峰時段頻寬不足,也就是聽音樂的時候會…很….lag……那我想使用者也會從線上收聽轉而使用離線播放的。
這部分的資料相信friDay一定也有,只是沒有那麼好比對。不過我覺得如果是因為使用體驗變差而導致使用者行為的改變的話,那我相信這一定也會反映在App Store與Google Play的評分、以及客服人員的工作量上面。
3. 資費方案
這可以再細分為內部與外部兩個層面。內部所指的就是friDay自己的資費方案是否在上半年有所調整,導致一部份原本使用線上收聽的使用者,改為下載後再進行離線播放呢?以及會不會在某段期間、或是針對某些使用者有特定的促銷活動(例如新手可以免費下載xx首、介紹y人可以免費下載y首),造成新加入的使用者大部份都使用離線下載,拉高整體比率呢?
外部指的則是電信商的資費方案,包含行動裝置使用吃到飽與吃不飽之間的比例變動、以及使用者家中有Wi-Fi可以使用的比例消長。比方說如果電信商剛好有資費調整造成使用吃到飽的人變少(像有陣子各大電信商接連取消便宜的吃到飽),就很可能驅使這些人先在有Wi-Fi的地方下載好歌曲,再進行離線收聽。而電信商若剛好有資費調整讓使用者覺得在家中裝設固網比較便宜,也可能讓家裡裝了Wi-Fi的這些人就先在家下載好歌曲,再進行離線收聽了,畢竟家裡Wi-Fi比較快也比較順嘛。
而以friDay的情況來說,因為是遠傳旗下企業,所以可能還有一種介於內外部之間的情況,就是申辦遠傳資費方案送n首歌曲(類似申辦中華電信也送Hami優惠一樣)。如果真有類似方案的話,勢必也是造成使用者選擇離線播放的誘因之一,畢竟是免費送的,不用白不用嘛。
當然內部資費方案friDay自己也會有資料,但外部資費方案的資料就不在friDay手上了。不過我覺得要從網路上收集到各大電信商的資費變動,應該也不算太困難。
所謂的大數據
慢慢進入尾聲了,讓我們再來重新看一次今天分析的那段話。
friDay 音樂觀察用戶的使用趨勢,發現使用離線播放歌曲的比例在2017年上半年明顯增加,使用來源約有18%來自於離線歌曲,推測用戶把此功能當做歌單來使用,或是希望在離線狀態播放歌曲可以節省網路流量。
當然現在我們知道除非有更進一步的數據佐證,不然要對「明顯增加」、「離線收聽是當成歌單來用、或是為了節省網路流量」等字句都打上個問號。那,這跟大數據有什麼關係呢?
就讓我們來參考一下wikipedia對於大數據的定義。
巨量資料,又稱為大數據,指的是傳統資料處理應用軟體不足以處理它們的大或複雜的資料集的術語。在總資料量相同的情況下,與個別分析獨立的小型資料集(Data set)相比,將各個小型資料集合併後進行分析可得出許多額外的資訊和資料關聯性,可用來察覺商業趨勢、判定研究品質、避免疾病擴散、打擊犯罪或測定即時交通路況等;這樣的用途正是大型資料集盛行的原因。
裡面提到了「將各個小型資料集合併後進行分析」、「得出許多額外的資訊和資料關聯性」。但friDay的這篇文章,如果大家有點進去看的話,其實會發現裡面就只有滿滿的統計數據與%數比例,以及不知道驗證過程在哪裡的猜測,並沒有所謂的「分析」與「額外的資料關聯性」。
也就是說,這根本不能稱之為大數據,只是一般的統計而已。
當然這也是目前很多人提到大數據時會陷入的迷思,以為手上握有了很多的資料、很多統計數據,就叫做大數據。當然資料與數據是一切的本,但大數據還包含了後續的分析與洞見,用來找出像是我們所熟知的啤酒與尿布的例子一樣,這才是真正有機會能夠產生價值的地方。(當然也有報導說這只是都市傳說,但這也更加證明了所有的推論,都是需要經過嚴謹的實證過程的。)
期許台灣的大數據產業能夠發展的越來越好,以及friDay能把相關資料提供出來為open data也盡一份心力吧XD (相信不只是我,一定很多廣大鄉民也對這樣的資料有興趣!)
謝謝您看到最後!
若您喜歡我的文章,歡迎按下「拍手」給我支持,或是「Follow」我,讓我提供更多文章給您。