机器学习笔记

概述

机器学习复习笔记

参考书目:西瓜书

第一章 绪论

课程任务

  1. 平时作业40%
  2. 期中30%
  3. 期末30%(投票决定闭卷/半开卷)

平时作业有2次取较高分作为期中成绩,其他4次作为平时成绩
半开卷:允许带一张a4纸,上面写什么都可以,考完交a4纸

机器学习示例:

文献筛选
循证医学中,针对特定临床问题,要先查文献进行详细研究评估。
提取摘要->人工筛选。应用机器学习后专家读少量文献,标记有关/无关,模型去读剩下来的文献。

搜索引擎
用机器学习解决排序问题

战场战术层面
损害管制自主机器人
罗盘系统

典型的机器学习过程:

给模型以数据(包含一系列属性+1个label),训练,检测。

几个分类:

符号主义学习连接主义学习

贝叶斯学派:
第1天,太阳升起,建立模型,预测明天太阳升起概率1/2
第2天,太阳升起,修正参数,预测明天太阳升起概率1/3

第30000天,预测30000/300001

非贝叶斯学派:
第1天,太阳升起,预测1
第2天,太阳升起,预测1

第30000天,根据之前的事实证据,认为太阳升起概率恒为1

面临问题

现在的问题在于大厂缺少需求,算力过剩。Google收购DeepMind是为了消耗TPU,AI实际上是互联网商们的一个出口。

鲁棒性不行,人类棋手犯错,从九段跌到八段,机器犯错,从九段跌到业余。

第二章

基本术语

任务

预测目标:

  • 分类:最后的输出是离散值
    • 二分类:好瓜、坏瓜
    • 多分类:冬瓜、南瓜、西瓜
  • 回归:连续值
    • 瓜的成熟度
  • 聚类:无标记信息(物以类聚/具有相同hash feature的数据被hash后放入同一个桶/韩信点兵/等价类划分)

有无标记信息:

  • 监督学习:分类、回归
  • 无监督学习:聚类
  • 半监督学习:两者结合