概述
机器学习复习笔记
参考书目:西瓜书
第一章 绪论
课程任务
- 平时作业40%
- 期中30%
- 期末30%(投票决定闭卷/半开卷)
平时作业有2次取较高分作为期中成绩,其他4次作为平时成绩
半开卷:允许带一张a4纸,上面写什么都可以,考完交a4纸
机器学习示例:
文献筛选
在循证医学
中,针对特定临床问题,要先查文献进行详细研究评估。
提取摘要->人工筛选。应用机器学习后专家读少量文献,标记有关/无关,模型去读剩下来的文献。
搜索引擎用机器学习解决排序问题
战场战术层面损害管制自主机器人
罗盘系统
典型的机器学习过程:
给模型以数据(包含一系列属性+1个label),训练,检测。
几个分类:
符号主义学习
、连接主义学习
贝叶斯学派:
第1天,太阳升起,建立模型,预测明天太阳升起概率1/2
第2天,太阳升起,修正参数,预测明天太阳升起概率1/3
…
第30000天,预测30000/300001
非贝叶斯学派:
第1天,太阳升起,预测1
第2天,太阳升起,预测1
…
第30000天,根据之前的事实证据,认为太阳升起概率恒为1
面临问题
现在的问题在于大厂缺少需求,算力过剩。Google收购DeepMind是为了消耗TPU,AI实际上是互联网商们的一个出口。
鲁棒性不行,人类棋手犯错,从九段跌到八段,机器犯错,从九段跌到业余。
第二章
基本术语
任务
预测目标:
- 分类:最后的输出是离散值
- 二分类:好瓜、坏瓜
- 多分类:冬瓜、南瓜、西瓜
- 回归:连续值
- 瓜的成熟度
- 聚类:无标记信息(物以类聚/具有相同hash feature的数据被hash后放入同一个桶/韩信点兵/等价类划分)
有无标记信息:
- 监督学习:分类、回归
- 无监督学习:聚类
- 半监督学习:两者结合