模型是客观世界的表示
“Essentially, all models are wrong, but some are useful.” - An Accidental Statistician, George Box


六类人工智能领域的常见问题:

  1. 权重问题:
    TF-IDF模型(Term Frequency - Inverse Document Frequency,词频率-逆文档频率):单一维度
    线性回归模型:多维度
    PageRank模型:结构权重模型,而非统计权重模型,如网站的链接关系

  2. 状态问题:
    词法分析模型
    字符串匹配模型

  3. 序列问题:
    隐马尔可夫模型
    最大熵模型

  4. 表示问题:
    向量空间模型
    潜在语义分析(LSA)模型

[!NOTE]
如何定义问题的实体?有多少类实体?实体有哪些属性?每一个属性用什么数据类型表示?实体之间又是什么关系?这些就是表示问题要解决的。

  1. 相似问题(和我在SNA课程中学到的edge的概念有很多相似处)
    欧几里得距离:两点之间的直线距离。
    曼哈顿距离:城市街区或建筑物之间的行车距离。
    切比雪夫距离:际象棋中的距离计算。
    闵可夫斯基距离:欧几里得距离、曼哈顿距离、切比雪夫距离的统一。
    马哈拉诺比斯距离P:与量纲无关的防维度相关性干扰的距离。
    皮尔逊相关系数:两个变量的相关度计算模型。
    杰卡德相似系数:两个集合的相似度计算模型。
    余弦相似度:两个向量的相似度计算模型。
    汉明距离:数据传输错误率的度量模型。
    KL散度:两个概率分布的相似性度量模型。
    海林格距离:两个概率分布的相似性度量的另一种模型。
    编辑距离:一个字符串转换为另一个字符串需要的编辑操作数。

[!NOTE]
各相似模型一般都是由计算相似关系的两个实体的类型来区别的。

  1. 分类问题:
    感知机模型:介绍神经元的概念、感知机的原理、代价函数、梯度下降法、计算示例等。
    逻辑回归模型:介绍逻辑回归的应用场景、代价函数、梯度下降法等。
    决策树模型:介绍信息熵、ID3算法、C4.5算法、回归树等。
    朴素贝叶斯模型:介绍先验概率、后验概率、全概率公式、贝叶斯公式、文本分类示例、拉普拉斯平滑等。
    支持向量机模型:介绍肿瘤分类示例、最佳分类面、SVM问题定义、拉格朗日乘子法、数值计算算法等。

[!NOTE]
分类问题是相似问题的应用延展,分类模型一般都基于某一种相似模型。分类的目的都是使类内距离尽量小,类间距离尽量大。


模型之间的关系

书中 2.9 的部分


如何评价模型的好坏?

  1. 方法一:
    模型的准确率(Precision)​,表示搜索结果中有多大比例的结果是对的
    模型的召回率(Recall)​,表示正确的结果有多大比例被搜索到了
    令一个搜索引擎系统为SE,准确率为P(SE),召回率为R(SE),则有:
    $$
    F1 = \frac{2\times P(SE) \times R(SE)}{P(SE)+R(SE)}
    $$
  2. 方法二:
    模型的表示能力R(m)
    模型的简单性S(m)
    令衡量这个模型的优劣G(m),则有:
    $$
    G(m) = \frac{R(m) \times S(m)}{R(m)+S(m)}
    $$

模型的运用——知识图谱

整体来说,知识图谱是一个“知识”的网状结构
知识图谱主要包含3个术语:实体(Entity)​、属性(Attribute)和关系(Relation)​

关系(Relation)在知识图谱中一般用一个三元组(X,R,Y)表示,其中X和Y是两个实体,R是关系
实际实现时,R可以是布尔型,例如夫妻关系可以用是和否的一个布尔型表示;
可以是枚举型,例如用户对书籍的喜爱程度可以用1星、2星、3星、4星、5星等枚举值表示;
还可以是实型,例如用户A和用户B的相似度;也可以是其他可能的类型。

建立知识图谱的流程,以文献计量分析为例:
确定实体的类型:articles, authors, keywords, etc.
确定实体的属性:cited/citing numbers, date, countries, etc.
确定属性的数据类型:number, date, bull, etc.
确定实体间的关系:cited, citing, time series, etc.