五种可以用机器学习回答的问题

原文:Five Questions Data Science Answers

Translated from Brandon Rohrer's Blog by Jimmy Lin

虽然机器学习听起来很赞,但现阶段它其实只能用来解决五种问题:

  1. 这是甲,还是乙?
  2. 这有什么奇怪的吗?
  3. 这有多少/这有几个?
  4. (数据)的组成为何?
  5. 我接下来该做什么?

机器学习是驱使数据科学不断进步的动力,其中每种学习方法(也称作算法,algorithm)都会被用来接收和处理数据,并给出一个答案。这些算法负责了数据科学中最难解释、也最有趣的部分,也就是数学的奥秘。

取决于算法所能回答的问题,它们可以被分成几类。这些分类可以帮助读者理清思路、问对问题。

这是甲,还是乙?

这一类算法都常被称作二元分类(two-class classification),被用来解决只有两种结果的问题:是或否、开或关、抽烟或不抽烟、买或不买等等。有很多数据科学上的问题都属于二元分类,或是可以被转换为二元分类。这是最简单也最常见的数据科学问题,以下是一些常见的例子:

  • 这位顾客会不会续约?
  • 这是一张猫还是狗的图片?
  • 这位顾客会不会点最上面的链接?
  • 如果继续开一千英里,这个轮胎会不会爆胎?
  • 抵五元或打七五折,哪一个促销手段能吸引更多顾客?

这是甲、乙、丙还是丁?

这种算法被称为多元分类(multi-class classification),顾名思义,它可以用来解决有多种(或很多种)回答的问题,例如:哪种口味、哪个人、哪个部分、哪间公司、哪位参选人。大部分的多元分类算法只是二元分类的延伸。以下是一些常见的例子:

  • 这是哪种动物的图片?
  • 这种雷达信号是来自哪种飞机?
  • 这篇新闻的标题该怎么下?
  • 这则推特(twitter)所包含的情绪为何?
  • 这则录音里的讲者是谁?

这有什么奇怪的吗?

这一类的算法通常被用来侦测异状(anomaly detection),也就是用来辨别不正常的数据。如果读者仔细想想,可能会发现这和二元分类的问题差不多,因为它也是用来回答有或没有(异状)。不过两者的区别在于二元分类中的数据中包含两种回答,但异状侦测则不一定(,可能只有其中一种)。

当读者想分析的情况发生率很低,导致样本数也很少的时候,异状侦测就显得特别有用,例如用来分析设备故障;或在异常情况有很多种的时候,这种算法也很有用,例如侦测信用卡盗刷。这里有一些常见的异状侦测问题:

  • 这个压力大小有任何异状吗?
  • 这则网络消息正常吗?
  • 这些消费跟这位用户过去的行为落差很大吗?
  • 这些用电量在这个季节和时间算是正常的吗?

这有多少/这有几个?

当读者解决的问题涉及数字而非分类时,这一类的算法就称为回归(regression),例如:

  • 下周二的气温为何?
  • 我在葡萄牙的第四季度销量会有多少?
  • 三十分钟后,我的风力发电厂会有多少千瓦(kW)的需求?
  • 我下周会获得多少新追踪者?
  • 每一千个使用这种轴承的产品里,有多少个能撑过一万小时的使用?

一般来说,回归算法会给出一个实数解;这些解可以小到小数点后数字,也可以是负的。对于那些特别问「有几个」的问题,负数解可能被直接当零,而分数解会被换成最接近的整数。

用回归算法解决多元分类问题

有些看起来很像多元分类的问题,其实更适合用回归解决。例如,「读者对哪则新闻最感兴趣」乍看之下是个分类问题——从一些新闻中选出一则;但如果将问题换成「对读者来说,每则新闻的有趣程度为何」并为每则新闻评分,接下来就只需要选出最高分的新闻。这类问题通常和排名或对比有关。

同理,「我的车队中,哪台厢型车最需要保养」可以换成「我的车队里,每台厢型车需要保养的程度为何」;「哪 5% 的顾客隔年会跳槽到对手公司」可以换成「每名顾客隔年跳槽到对手公司的机率为何」。

用回归算法解决二元分类问题

可想而知,二元分类问题也可以换成回归问题。(事实上,如果探究原理,某些算法的确会先将二元分类问题直接转成回归来解。)这种作法在二分不尽完美、或两者都有可能的情况下特别有用。当回答为「一部分是、一部分不是」或「有可能开、也有可能关」的时候,回归算法可以反映这个特性。这类问题也通常以「有多少可能性」、「有多少比例」开头。

  • 这位用户有多大机率会点我的广告?
  • 这台拉霸机有多少比例的回合会给奖金?
  • 这名员工有多大机率会成为内部安全风险?
  • 今天有多少比例的航班会准时抵达?

有些读者可能会注意到二元分类、多元分类、异状侦测和回归等四种算法之间关系匪浅。它们确实都是监督式学习(supervised learning)下的算法,也有许多相似之处,所以有些问题不只有一种问法,也能用上述多种算法解决。它们的共通之处,在于建模时都用了一组包含回答的数据(这个过程称作训练,training),并被用来分类或预测一组不包含回答的数据(这个过程称作评分,scoring)。

除此之外,还有一些不同的数据科学问题,属于非监督和强化式学习(unsupervised and reinforcement learning)类别的处理范畴。

(数据)的组成为何?

这类与数据组成相关的问题属于非监督学习。判断数据结构的方法有很多,其中一类是聚类法(clustering),包括数据群集(chunking)、分组(grouping)、聚束(bunching)、分段(segmentation)等等。这些方法的目的是将数据分成几个直观的群体。不同于监督式学习,聚类法所分析的数据不包含任何用来引导分群、说明分群意义和数量的数字或名字。如果说监督式学习是用来在星空中找出几个特定的星球,聚类法则是用来圈出星空中的星座。由于聚类法可以用来将数据分成「几丛」群体,分析人员可以更轻易地解读和解释数据。

聚类法的基础是衡量数据之间的距离或相似度,也就是距离度量(distance metric)。距离度量可以是任何可测量的数据,例如智商之间的差距、相同基因组的数量、或两点之间的最短距离。和聚类法相关的问题全都试着将数据分成均等的群体。

  • 哪些消费者对农产品有相似的品味?
  • 哪些观众喜欢同一类电影?
  • 哪些型号的打印机有相似的故障?
  • 这间变电所在每周的哪几天有相似的电力需求?
  • 用什么方法可以自然地将这些文档分成五类?

非监督式学习下还有另一类算法称作降维(dimensionality reduction)。降维是另一种简化数据的方法,它可以让数据的沟通变得更容易、处理变得更快、而且访问变得更简单。

降维的运作原理是创造出一套简化数据的方法。等第绩分平均(GPA)是一个很简单的例子。虽然每个大学生的学术能力评估都是由四年内无数的课堂和考试所组成,但如果它们全部列出来,没有任何一位招聘官可以吸收如此庞大的信息。幸好读者可以透过计算平均,将这些课堂和考试简化成 GPA。因为在某门课表现优异的学生,通常其他课程的表现也不错,这套方法还算管用。只使用 GPA 而非完整成绩,确实会丧失一些信息,像是看不出一名学生的数学程度是否比英文更好,或是比起课堂考试,是否更擅长做回家的编程作业;不过这么做最大的好处是简约,让表达和比较学术能力变得非常简单。

  • 哪几组飞机引擎侦测器的数据呈同向(和反向)变化?
  • 成功的 CEO 有哪些共通的领导力特质?
  • 全美的油价起伏有哪些相似的特征?
  • 这些文档里有哪几组词汇常常同时出现?(它们和哪些主题有关?)

如果读者的目标是总结、简化、压缩或精粹数据,那降维和聚类法都是很理想的选择。

我接下来该做什么?

第三类算法和行动有关,即强化学习(reinforcement learning)算法。这些算法和监督式和非监督式都不太一样。比方说,回归算法虽然可以用来预测明天的最高温为华氏 98 度,但它不能用来判断该做什么;另一方面,强化学习算法就可以用来判断该采取的行动,例如趁天气还没变热的时候,先开办公大类内上半层的冷气。

强化学习算法源于老鼠和人类大脑对惩罚和奖励的反应机制。这些算法会倾全力选出奖励最高的选项,所以用户必须提供一组行动选项,并告诉算法哪些选项算好、一般、或很差的行动。

一般而言,强化学习算法很适合用于需要在无人监督情况下、完成许多简单决策自动化系统,例如电梯、电热器、冷气和照明系统。由于强化学习最初被开发的目的是用来操纵机器人,任何自动对象也能使用这套算法,像是侦查用无人机或扫地机器人。强化学习的问题总是和该采取什么行动有关,虽然最后往往还是机器在处理这些问题。

  • 我该把广告放在网页何处,才能让读者最有机会点到它?
  • 我该把温度调高或调低一点,还是维持现状?
  • 我该再扫一次客厅还是继续充电?
  • 我现在该买入多少股?
  • 看到黄灯时,我该保持当前速度、煞车还是加速?

比起其他算法,强化学习算法通常需要更多部署时间,因为它和整个系统的集成更紧密。这样的好处是大多数的强化学习可以在没有数据的情况下开始分析,这些算法会收集系统所产生的数据,并从试误中不断学习。

作为〈使用机器学习〉系列的开端,这篇文章说明了善用数据科学的基本方法。下一篇和最后一篇文章会具体地谈许多数据科学所处理的问题,以及这些问题所对应的算法。欢迎继续读下去。

Brandon Rohrer,于 2015 年 12 月 31 日

如果读者觉得这篇文章很有用,我也推荐阅读〈有效利用数据科学〉。虽然我在微软工作,但这些只是我的个人意见。这篇文章最先发表于微软的 TechNet Machine Learning Blog。文章开头的图片属于公众领域。

results matching ""

    No results matching ""