《模型思维:简化世界的人工智能模型》1
模型是客观世界的表示
“Essentially, all models are wrong, but some are useful.” - An Accidental Statistician, George Box
六类人工智能领域的常见问题:
-
权重问题:
TF-IDF模型(Term Frequency - Inverse Document Frequency,词频率-逆文档频率):单一维度
线性回归模型:多维度
PageRank模型:结构权重模型,而非统计权重模型,如网站的链接关系 -
状态问题:
词法分析模型
字符串匹配模型 -
序列问题:
隐马尔可夫模型
最大熵模型 -
表示问题:
向量空间模型
潜在语义分析(LSA)模型
[!NOTE]
如何定义问题的实体?有多少类实体?实体有哪些属性?每一个属性用什么数据类型表示?实体之间又是什么关系?这些就是表示问题要解决的。
- 相似问题(和我在SNA课程中学到的edge的概念有很多相似处)
欧几里得距离:两点之间的直线距离。
曼哈顿距离:城市街区或建筑物之间的行车距离。
切比雪夫距离:际象棋中的距离计算。
闵可夫斯基距离:欧几里得距离、曼哈顿距离、切比雪夫距离的统一。
马哈拉诺比斯距离P:与量纲无关的防维度相关性干扰的距离。
皮尔逊相关系数:两个变量的相关度计算模型。
杰卡德相似系数:两个集合的相似度计算模型。
余弦相似度:两个向量的相似度计算模型。
汉明距离:数据传输错误率的度量模型。
KL散度:两个概率分布的相似性度量模型。
海林格距离:两个概率分布的相似性度量的另一种模型。
编辑距离:一个字符串转换为另一个字符串需要的编辑操作数。
[!NOTE]
各相似模型一般都是由计算相似关系的两个实体的类型来区别的。
- 分类问题:
感知机模型:介绍神经元的概念、感知机的原理、代价函数、梯度下降法、计算示例等。
逻辑回归模型:介绍逻辑回归的应用场景、代价函数、梯度下降法等。
决策树模型:介绍信息熵、ID3算法、C4.5算法、回归树等。
朴素贝叶斯模型:介绍先验概率、后验概率、全概率公式、贝叶斯公式、文本分类示例、拉普拉斯平滑等。
支持向量机模型:介绍肿瘤分类示例、最佳分类面、SVM问题定义、拉格朗日乘子法、数值计算算法等。
[!NOTE]
分类问题是相似问题的应用延展,分类模型一般都基于某一种相似模型。分类的目的都是使类内距离尽量小,类间距离尽量大。
模型之间的关系
书中 2.9 的部分
如何评价模型的好坏?
- 方法一:
模型的准确率(Precision),表示搜索结果中有多大比例的结果是对的
模型的召回率(Recall),表示正确的结果有多大比例被搜索到了
令一个搜索引擎系统为SE,准确率为P(SE),召回率为R(SE),则有:
$$
F1 = \frac{2\times P(SE) \times R(SE)}{P(SE)+R(SE)}
$$ - 方法二:
模型的表示能力R(m)
模型的简单性S(m)
令衡量这个模型的优劣G(m),则有:
$$
G(m) = \frac{R(m) \times S(m)}{R(m)+S(m)}
$$
模型的运用——知识图谱
整体来说,知识图谱是一个“知识”的网状结构
知识图谱主要包含3个术语:实体(Entity)、属性(Attribute)和关系(Relation)
关系(Relation)在知识图谱中一般用一个三元组(X,R,Y)表示,其中X和Y是两个实体,R是关系
实际实现时,R可以是布尔型,例如夫妻关系可以用是和否的一个布尔型表示;
可以是枚举型,例如用户对书籍的喜爱程度可以用1星、2星、3星、4星、5星等枚举值表示;
还可以是实型,例如用户A和用户B的相似度;也可以是其他可能的类型。
建立知识图谱的流程,以文献计量分析为例:
确定实体的类型:articles, authors, keywords, etc.
确定实体的属性:cited/citing numbers, date, countries, etc.
确定属性的数据类型:number, date, bull, etc.
确定实体间的关系:cited, citing, time series, etc.