Machine Learning
AMAI-GmbH/AI-Expert-Roadmap: Roadmap to becoming an Artificial Intelligence Expert in 2022
What is Machine Learning?
What is Machine Learning? - YouTube
(分析海量数据)我们现在的世界充满了各种数据。机器学习让你的数据自己说话、回答问题。
传统上,人们有很多分析数据的手段,利用手动编写的规则;但随着数据的爆炸性增长,人们则需要依靠可以自我学习数据、以及数据的变化的自动化系统。
我们可能不易察觉到,这些场景的背后都是机器学习:
- 在照片中标记人物(具体到某个人)和物品
- 为你推荐下一个观看的视频
- 搜索引擎:理解你的查询词、根据你个人的兴趣偏好为你推荐结果
诸如图像识别、欺诈检测、推荐系统、文字和语音系统等等能力,其底层都是机器学习。
这些能力广泛应用于医疗诊断、零售物流、自动驾驶等领域。
Machine Learning is using data to answer questions:
- using data is what we refer to as training
- answer questions is referred to as making prediction
通过对数据的训练,创建一个预测模型、并对其进行微调。这个模型随后被用作预测一些它自己从未见过的数据,以回答数据背后的问题。
随着越来越多数据的输入,预测模型会被不断地改进。
The 7 steps of machine learning
The 7 steps of machine learning - YouTube
接下来我们创建一个系统,这个系统用来回答这个问题:区分一杯饮料是啤酒还是红酒?
这个回答问题的系统,被称为模型,创建这个模型的过程,称为训练。
训练的目的是为了创建一个能够准确地回答这个问题的模型。
为了训练这个模型,我们需要收集数据。分析饮料有很多种维度,这里我们选择两个因素:颜色/光的波长、酒精含量 。我们希望仅根据这两个因素,就能分辨这两种饮料。我们把这两者称为特征。
第一步:收集数据
数据的数量和质量,决定了模型的好坏。
经过一段时间的测量,我们得到了一个表格:
颜色/光的波长(纳米) | 酒精含量(百分比) | Beer or Wine? |
---|---|---|
610 | 5 | Beer |
599 | 13 | Wine |
... | ... | ... |
第二步:准备数据
将数据随机排序,为了不让数据的顺序影响训练,一杯饮料是啤酒还是红酒,与它的前一杯和后一杯饮料应该都没有关系。
在这一步,我们将检视收集到的数据。例如,如果我们收集到的啤酒数据远多于红酒,那么我们训练出来的模型就会在绝大多数时间预测它看到的东西就是啤酒。如果我们应用这个模型的场景,啤酒和红酒的数量各占一半的话,那么这个模型就会几乎有一半的机会出错。
我们会将数据分为两部分,一部分占多数(70%-80%),用于训练;另一部分占少数(20%-30%),用于评估模型的表现。这两部分数据不能是重复的,就像数学老师不会拿你的家庭作业来当成试卷上的题目。
有时候,我们还需要将上一步收集到的数据,进行纠错、规范化、去重等处理。