什么是机器学习?
机器学习(Machine Learning, ML),即是人工智能的分支,主要是通过系统将收集来的大量数据资料依序分类,通过算法识别资料中的模式,产出模型加以学习改进,进而做出最佳的决策及预测。
以 Facebook、LinkedIn、Instagram 等社群平台为例,系统会持续关注用户的好友清单、兴趣、所加入的社群等信息,运用机器学习的概念,推送信息高度关联的好友建议清单、想加入的社团,或是将可能有兴趣的内容加入动态消息,为用户数字社群增加新可能性。
當然,当然,这项案例只是机器学习技术中的冰山一角,随着电脑计算能力越发强劲,数据收集也越发多元,如医学诊断等辅助、证券分析、指纹识别、语音处理、在线购物、天气预判等都能看见其身影。
机器学习类型

虽然机器学习时常与 AI 一起讨论,但值得注意的是,机器学习归属于 AI 范畴,但并不是所有 AI 都能划分为机器学习。
机器学习就好比人类学习的模式一样,但要让机器具有学习能力,就必须依照训练数据获得规律,接着分析、理解及判断。而机器学习根据不同的模式,又分为监督式学习(Supervised Learning)、非监督式学习(Unsupervised Learning)、半监督式学习(Semi-supervised Learning)及强化学习(Reinforcement Learning)四种。
监督式学习(Supervised Learning)

监督式学习,是机器学习中的一种方式,它将所有的数据加以「标注」(Label),告诉机器哪个答案是对的,哪个答案是错的,告诉机器什么是正确答案后,借此教导机器学习如何判断出标准结果。以最常见的猫、狗识别为例,导入图像样本后,需由「人工」进行标注,将图像样本中的猫狗标示出来,让机器学习认识猫与狗的外观与特征(Feature),例如耳朵、四肢、体型等,而后机器就能依照数据中的分析模式进行识别及预测。
由于监督式学习的操作,在事前须仰赖人力对图像进行特征标注,若要让模型达到预期的准确度,就须提供完整、大量的数据给机器学习。因此,监督式学习准确度较高,但作业量相对大,执行面也相对繁琐。
非监督式学习(Unsupervised Learning)
就如同字面上的「非」字,非监督式学习的训练,它没有给机器事先标注过的训练范例,而是让机器自动寻找数据的特征并自行分类。

例如提供机器大量猫和狗的图片学习,但事前并没有告诉机器哪些是猫哪些是狗,而是直接让机器自动区分猫狗潜在特征并分类。非监督式学习常见的功能可为分群(Clustering)、关联(Association)与降维(Dimension Reduction),在数据探勘初期是好用的工具,对人力的负担较小,但对机器而言却相反,且不重要的特征容易被过度放大,预测结果容易出现偏差。
半监督式学习(Semi-supervised Learning)
所谓半监督式学习,就是对少部分的数据进行标注,提供机器学习判断误差时的标准。这样的方法可以让预测较为精准,是目前机器学习类型中最常使用的方法。
例如任选 100 张猫狗的图片,在其中的 10 张图片中进行标注,告知机器哪些是猫或狗的特征,让机器自己学习分辨照片中的关联性。有了这 10 张图片的特征作为依据,通常机器预测出来的结果较非监督式学习精准。
强化式学习(Reinforcement Learning)

强化式学习的运作方式,是让机器直接与环境互动,从中去学习以取得预期的结果。这种学习方式,不需要进行标注,而是通过反馈告诉计算机哪一步是正确的,哪一步是错误的。机器通过不断修正自己的行动,并进行自我学习,最终能够更高效地达到目标。
以非监督式学习来说,强化式学习显得格外重要。比如,要让机器自行学习辨识特征,假设机器将狗的照片误判为猫,这时可以由人给予机器纠正,让机器从错误中学习。通过这种方式,机器能够学会正确的分类和辨识,从而使得预测更加精确和可靠。
其实,以上介绍的四种机器学习方式,仅是大致的分类。在实际项目中,执行哪种算法的方式,需要根据实际的数据量、目标等因素来决策。因此,无论选择哪种学习方法,主要的考量点就是——想解决什么问题?