docs/faq/1.机器学习实战-复习版.md
参考文档: http://cwiki.apachecn.org/pages/viewpage.action?pageId=7373315
参考文档: https://github.com/apachecn/kaggle/blob/master/docs/github-quickstart.md
注意: https://github.com/apachecn/AiLearning (这是本项目的地址,记得修改链接。。)
1.样本数据的来源:
1. 日志文件
2. 数据库
3. HDFS
4. 数据流
2.样本数据按照一定比例来划分: 训练数据集 + 测试数据集
1. 根据业务场景来分析,得到对应的比例
2. 一般设置是按照 训练数据集:测试数据集 = 8:2
3.训练数据集包括: 特征(也就是数据的纬度 or 属性) + 目标变量(分类结果 or 回归值)
4.测试数据用来干嘛?
如下图: 用于评估模型的效果。(测试样本的预测类别 和 测试样本的实际类别 的diff,就是我们的错误率)
5.监督学习和无监督学习的区别: 是否有目标变量(也就是: 是否存在分类结果)
6.电子书的下载位置:
7.性能不好是什么意思?
8.学习原理后,如果成为调包侠?调包侠是否很丑?
9.python讲解的版本 2.7.X
装逼不装逼,我们还是老地方见! | ApacheCN