有效利用資料科學
原文:Make Data Science Work for You
Translated from Brandon Rohrer's Blog by Jimmy Lin
一份工作,只要涉及用數字和名字回答問題,就可以稱作「資料科學」。雖然資料科學家一開始面對的資料可能包括影片、測量資料、音訊或文字,但在著手分析之前,這些資料都會先被轉成數字和名字。所有資料科學所能解決的問題,最終都會化為數字和名字的形式,例如從照片中推估一個人的年齡、推薦一部讀者可能喜歡的電影、辨別出哪個壞蛋在盜刷你的信用卡。這些問題通通源自於數字和名字。
不過,不是任何問題、或隨便一些資料都能給出我們想要的答案。在應用資料科學、解決問題,以改善生活或賺一堆錢之前,讀者應該先準備好工作要用的資料。就像做披薩一樣,準備的材料越好,成果越棒。當讀者做到以下這幾件事,就算是準備好了:
你的提問很到位
在選擇對資料提出哪些問題時,請先想像自己正在向一位知道世間所有數字和名字的賢者提問。不過這位賢者也滿狡猾,只要能矇混過去,他的回答常常很模糊而且令人費解。除非讀者提出非常關鍵的問題,才能讓他乖乖說出答案。「根據資料,我的業務狀況如何」、「我該做什麼」或「該怎麼提升利潤」都是一些不太理想的問題,因為它們容得下太多沒意義的回答;相較之下,「第三季度我在蒙特婁能賣出幾台設備 Q」一類的問題就不會發生這種情況。
你的資料和問題有關
找到問題以後,就得確保手上的資料和這些問題有關。如果讀者想回答的問題是「哪些顧客最有可能會跳槽到對手公司」,那就得先準備過去跳槽顧客的資料。除此之外,這些資料還得包含跳槽的因素。如果資料裡只有顧客的生日或鞋子尺碼,很難從其中找出有意義的規律。但如果資料裡包含消費歷史、或滿意度調查等相關資訊,就能大幅改善結果。
你有很準確的資料
資料科學最大的迷思是「儘管品質很差,只要有很多資料還是可以分析」。這代表不管數據精確到小數第幾位、偵測器有沒有失靈、或名字有沒有被打錯,只要資料夠多就能彌補這些問題。雖然我們確實可以利用拼字檢查等工具修正錯字,或是在某些情況下去除資料中無法避免的雜訊,但我們還是無法輕易解決粗心大意所導致的問題。這些問題會影響整份資料,讓我們更難從中找出規律。一般對資料科學家而言,少量的高品質資料,反而比大量劣質資料還有價值。
你的資料裡不同資訊彼此關聯
我們無法透過研究某一州的駕駛年齡、和另一州的肇事率得知駕駛年齡和肇事率之間的關係。要分析它們之間的關係,我們必須研究同一群駕駛的年齡和肇事率。就算有一堆準確又相關的資料,如果它們描述的不是同一個群體,也毫無用武之地。這也被稱為數值缺失問題(missing values problem),就好比請一群駕駛填問卷,結果發現有一半的駕駛沒填年齡,另一半沒披露肇事資訊。雖然正常來說,資料裡無可避免地會存在一些缺失,但太多缺失會導致資料如起司般空洞且無用。
你有一大堆資料
就和其他事物一樣,資料的質比量重要,但量其實也很重要。雖然前面提到「少量的高品質資料,比大量劣質資料還有價值」,但兩者都比不上大量高品質的資料。擁有越多資料通常是一件好事,因為它可以讓你看出更多細節、問更具體的問題、以及對分析結果更有自信。別因為自己已經有上百萬筆資料,或手上的資料已經多到塞滿了 1TB 的硬碟,就以為資料已經夠多了。在不影響相關度、準確度和完整度的前提下,擁有越多資料永遠是一件好事。
如果讀者備齊了以上五點——擁有龐大、相關、準確、完整的資料和關鍵的問題,那麼恭喜你,你已經準備好在資料科學界大展身手了。如果還漏了幾點,也別擔心,這只代表你遇到的狀況稍微棘手,你還是可以試著分析。但如果只符合一兩點,那讀者得先把該做的功課做好:蒐集更多資料、問對的問題、整理資料並清除雜訊,總之盡可能地提昇資料品質。否則,如果讀者將就於低品質的資料,任何結論都將啟人疑竇。
Brandon,於 2015 年 12 月 19 日
如果讀者覺得這篇文章很有用,我也推薦閱讀我的部落格。雖然我在微軟工作,但這些只是我的個人意見。這篇文章最先發表於微軟的 TechNet Machine Learning Blog。文章開頭的圖片屬於公眾領域。