有效利用数据科学
原文:Make Data Science Work for You
Translated from Brandon Rohrer's Blog by Jimmy Lin
一份工作,只要涉及用数字和名字回答问题,就可以称作「数据科学」。虽然数据科学家一开始面对的数据可能包括影片、测量数据、音频或文本,但在着手分析之前,这些数据都会先被转成数字和名字。所有数据科学所能解决的问题,最终都会化为数字和名字的形式,例如从照片中推估一个人的年龄、推荐一部读者可能喜欢的电影、辨别出哪个坏蛋在盗刷你的信用卡。这些问题通通源自于数字和名字。
不过,不是任何问题、或随便一些数据都能给出我们想要的答案。在应用数据科学、解决问题,以改善生活或赚一堆钱之前,读者应该先准备好工作要用的数据。就像做披萨一样,准备的材料越好,成果越棒。当读者做到以下这几件事,就算是准备好了:
你的提问很到位
在选择对数据提出哪些问题时,请先想像自己正在向一位知道世间所有数字和名字的贤者提问。不过这位贤者也满狡猾,只要能蒙混过去,他的回答常常很模糊而且令人费解。除非读者提出非常关键的问题,才能让他乖乖说出答案。「根据数据,我的业务状况如何」、「我该做什么」或「该怎么提升利润」都是一些不太理想的问题,因为它们容得下太多没意义的回答;相较之下,「第三季度我在蒙特娄能卖出几台设备 Q」一类的问题就不会发生这种情况。
你的数据和问题有关
找到问题以后,就得确保手上的数据和这些问题有关。如果读者想回答的问题是「哪些顾客最有可能会跳槽到对手公司」,那就得先准备过去跳槽顾客的数据。除此之外,这些数据还得包含跳槽的因素。如果数据里只有顾客的生日或鞋子尺码,很难从其中找出有意义的规律。但如果数据里包含消费历史、或满意度调查等相关信息,就能大幅改善结果。
你有很准确的数据
数据科学最大的迷思是「尽管品质很差,只要有很多数据还是可以分析」。这代表不管数据精确到小数第几位、侦测器有没有失灵、或名字有没有被打错,只要数据够多就能弥补这些问题。虽然我们确实可以利用拼字检查等工具修正错字,或是在某些情况下去除数据中无法避免的杂讯,但我们还是无法轻易解决粗心大意所导致的问题。这些问题会影响整份数据,让我们更难从中找出规律。一般对数据科学家而言,少量的高品质数据,反而比大量劣质数据还有价值。
你的数据里不同信息彼此关联
我们无法透过研究某一州的驾驶年龄、和另一州的肇事率得知驾驶年龄和肇事率之间的关系。要分析它们之间的关系,我们必须研究同一群驾驶的年龄和肇事率。就算有一堆准确又相关的数据,如果它们描述的不是同一个群体,也毫无用武之地。这也被称为数值缺失问题(missing values problem),就好比请一群驾驶填问卷,结果发现有一半的驾驶没填年龄,另一半没披露肇事信息。虽然正常来说,数据里无可避免地会存在一些缺失,但太多缺失会导致数据如起司般空洞且无用。
你有一大堆数据
就和其他事物一样,数据的质比量重要,但量其实也很重要。虽然前面提到「少量的高品质数据,比大量劣质数据还有价值」,但两者都比不上大量高品质的数据。拥有越多数据通常是一件好事,因为它可以让你看出更多细节、问更具体的问题、以及对分析结果更有自信。别因为自己已经有上百万笔数据,或手上的数据已经多到塞满了 1TB 的硬盘,就以为数据已经够多了。在不影响相关度、准确度和完整度的前提下,拥有越多数据永远是一件好事。
如果读者备齐了以上五点——拥有庞大、相关、准确、完整的数据和关键的问题,那么恭喜你,你已经准备好在数据科学界大展身手了。如果还漏了几点,也别担心,这只代表你遇到的状况稍微棘手,你还是可以试着分析。但如果只符合一两点,那读者得先把该做的功课做好:搜集更多数据、问对的问题、整理数据并清除杂讯,总之尽可能地提升数据品质。否则,如果读者将就于低品质的数据,任何结论都将启人疑窦。
Brandon,于 2015 年 12 月 19 日
如果读者觉得这篇文章很有用,我也推荐阅读我的博客。虽然我在微软工作,但这些只是我的个人意见。这篇文章最先发表于微软的 TechNet Machine Learning Blog。文章开头的图片属于公众领域。