有效利用資料科學

Translated from Brandon Rohrer's Blog by Jimmy Lin

一份工作，只要涉及用數字和名字回答問題，就可以稱作「資料科學」。雖然資料科學家一開始面對的資料可能包括影片、測量資料、音訊或文字，但在著手分析之前，這些資料都會先被轉成數字和名字。所有資料科學所能解決的問題，最終都會化為數字和名字的形式，例如從照片中推估一個人的年齡、推薦一部讀者可能喜歡的電影、辨別出哪個壞蛋在盜刷你的信用卡。這些問題通通源自於數字和名字。

不過，不是任何問題、或隨便一些資料都能給出我們想要的答案。在應用資料科學、解決問題，以改善生活或賺一堆錢之前，讀者應該先準備好工作要用的資料。就像做披薩一樣，準備的材料越好，成果越棒。當讀者做到以下這幾件事，就算是準備好了：

你的提問很到位

在選擇對資料提出哪些問題時，請先想像自己正在向一位知道世間所有數字和名字的賢者提問。不過這位賢者也滿狡猾，只要能矇混過去，他的回答常常很模糊而且令人費解。除非讀者提出非常關鍵的問題，才能讓他乖乖說出答案。「根據資料，我的業務狀況如何」、「我該做什麼」或「該怎麼提升利潤」都是一些不太理想的問題，因為它們容得下太多沒意義的回答；相較之下，「第三季度我在蒙特婁能賣出幾台設備 Q」一類的問題就不會發生這種情況。

你的資料和問題有關

找到問題以後，就得確保手上的資料和這些問題有關。如果讀者想回答的問題是「哪些顧客最有可能會跳槽到對手公司」，那就得先準備過去跳槽顧客的資料。除此之外，這些資料還得包含跳槽的因素。如果資料裡只有顧客的生日或鞋子尺碼，很難從其中找出有意義的規律。但如果資料裡包含消費歷史、或滿意度調查等相關資訊，就能大幅改善結果。

你有很準確的資料

資料科學最大的迷思是「儘管品質很差，只要有很多資料還是可以分析」。這代表不管數據精確到小數第幾位、偵測器有沒有失靈、或名字有沒有被打錯，只要資料夠多就能彌補這些問題。雖然我們確實可以利用拼字檢查等工具修正錯字，或是在某些情況下去除資料中無法避免的雜訊，但我們還是無法輕易解決粗心大意所導致的問題。這些問題會影響整份資料，讓我們更難從中找出規律。一般對資料科學家而言，少量的高品質資料，反而比大量劣質資料還有價值。

你的資料裡不同資訊彼此關聯

我們無法透過研究某一州的駕駛年齡、和另一州的肇事率得知駕駛年齡和肇事率之間的關係。要分析它們之間的關係，我們必須研究同一群駕駛的年齡和肇事率。就算有一堆準確又相關的資料，如果它們描述的不是同一個群體，也毫無用武之地。這也被稱為數值缺失問題（missing values problem），就好比請一群駕駛填問卷，結果發現有一半的駕駛沒填年齡，另一半沒披露肇事資訊。雖然正常來說，資料裡無可避免地會存在一些缺失，但太多缺失會導致資料如起司般空洞且無用。

你有一大堆資料

就和其他事物一樣，資料的質比量重要，但量其實也很重要。雖然前面提到「少量的高品質資料，比大量劣質資料還有價值」，但兩者都比不上大量高品質的資料。擁有越多資料通常是一件好事，因為它可以讓你看出更多細節、問更具體的問題、以及對分析結果更有自信。別因為自己已經有上百萬筆資料，或手上的資料已經多到塞滿了 1TB 的硬碟，就以為資料已經夠多了。在不影響相關度、準確度和完整度的前提下，擁有越多資料永遠是一件好事。

如果讀者備齊了以上五點——擁有龐大、相關、準確、完整的資料和關鍵的問題，那麼恭喜你，你已經準備好在資料科學界大展身手了。如果還漏了幾點，也別擔心，這只代表你遇到的狀況稍微棘手，你還是可以試著分析。但如果只符合一兩點，那讀者得先把該做的功課做好：蒐集更多資料、問對的問題、整理資料並清除雜訊，總之盡可能地提昇資料品質。否則，如果讀者將就於低品質的資料，任何結論都將啟人疑竇。

Brandon，於 2015 年 12 月 19 日

如果讀者覺得這篇文章很有用，我也推薦閱讀我的部落格。雖然我在微軟工作，但這些只是我的個人意見。這篇文章最先發表於微軟的 TechNet Machine Learning Blog。文章開頭的圖片屬於公眾領域。

如何獲得高品質的資料