机器学习算法学习

约 664 字大约 2 分钟

机器学习

2024-10-25

先学KNN，再学SVM

KNN 近邻算法

了解基本概念：
- 什么是KNN：KNN是一种基于实例的学习算法，用于分类和回归。它根据样本之间的距离进行预测，选择K个距离最近的邻居进行投票（分类）或平均（回归）。
- 距离度量：学习如何计算数据点之间的距离（如欧氏距离、曼哈顿距离等）。
- 选择K值：理解K值对模型性能的影响，通常需要进行交叉验证以选择最佳K。
理论基础：
- 学习KNN的工作原理，比如如何确定最近邻的投票机制。
- 理解KNN的优势和劣势，包括计算复杂性、特征缩放的影响等。
实现KNN：
- 选择一种编程语言（如Python），学习如何用编程实现KNN。可以使用机器学习库（如scikit-learn）来帮助实现。
- 从简单的例子开始，比如使用著名的鸢尾花（Iris）数据集进行分类。
数据预处理：
- 学习如何进行数据预处理，如清理数据、填补缺失值、标准化和归一化等。
- 由于KNN对特征缩放非常敏感，因此标准化数据是至关重要的。
模型评估和调优：
- 学习如何评估KNN模型的表现，使用交叉验证、学习曲线等方法。
- 了解常用的评估指标，如准确率、精确率、召回率和F1分数。
进阶练习：
- 在不同的数据集上应用KNN，尝试解决不同类型的问题（例如分类、回归）。
- 尝试调整K值并观察对模型性能的影响。

什么是机器学习，就是机器像人一样通过直觉思考得到的结果。对于机器来说就是决策而决策需要条件（数据）

从数据中捕捉模式的过程

用于拟合模型的数据被称为训练数据

影响决策的众多条件形成的树形，比如决策是房价，那么影响决策的条件就有地段、房屋面积等