0%

​ GBDT为梯度提升决策树(Gradient Boosting Decision Tree),是一种以回归决策树为 弱学习器的集成学习模型。GBDT集成学习模型通常使用CART决 策树(回归树)模型作为弱学习器。

​ 提升树算法(Boosting Decision Tree):

  • 提升树是迭代多棵回归树来共同决策。当采用平方 误差损失函数时,每一棵回归树学习的是之前所有 树的结论和残差,拟合得到一个当前的残差回归树。
  • 残差 = 真实值- 预测值。
  • 提升树即是整个迭代过程生成的回归树的累加。

例:训练一个提升树模型来预测年龄 训练集只有4个人,A,B,C,D,他们的年龄分别是 14,16,24,26。其中A、B分别是高一和高三学生;C,D 分别是应届毕业生和工作两年的员工。样本中有购物 金额、上网时长、经常到百度知道提问等特征。

image-20241130163828685

提升树过程如下:由于数据太少,限定叶子节点最多有两个,即每棵树 都只有一个分枝,并且限定只学习两棵树。第一棵树,由于A,B年龄较为 相近,C,D年龄较为相近,4人被分为两拨,每拨用平均年龄作为预测值拿残差替代A,B,C,D的原值,到第二棵树去学习,如果预测值和它们的残差相等,则只需把第二棵树的结论累加到第一棵树上就能得到真实年龄了。第二棵树只有两个值1和-1,直接分成两个节点。此时所有人的残 差都是0,即每个人都得到了真实的预测值。

image-20241130163856863

现在A,B,C,D的预测值都和真实年龄一致

A: 14岁高一学生,购物较少,经常问学长问题; 预测年龄A = 15 – 1 = 14

B: 16岁高三学生;购物较少,经常被学弟问问题; 预测年龄B = 15 + 1 = 16

阅读全文 »

Document-Level Event Argument Extraction With A Chain Reasoning Paradigm

文档级事件参数提取旨在识别句子级别之外的事件参数,其中一个重大挑战是对远程依赖关系进行建模。针对这一挑战,我们为该任务提出了一种新的链式推理范式,它可以生成可分解的一阶逻辑规则进行推理。由于链的组合性质,这种范式自然地捕获了远程相互依赖,这也通过显式地建模推理过程来提高可解释性。我们引入 T 范数模糊逻辑进行优化,它允许端到端学习,并有望将逻辑推理的表达能力与神经网络的泛化相结合。在实验中,我们表明我们的方法在两个标准基准上明显优于以前的方法(F1 中超过 6 个点)。此外,它在资源匮乏的情况下具有数据效率,并且足够强大以防御对抗性攻击。

1.

识别事件参数(即事件的参与者)是文档级事件理解的一项关键任务(Ebner et al., 2020;Li et al., 2021)。在此任务中,主要挑战是对事件触发器和参数之间的远程依赖关系进行建模,因为事件表达式可以跨越多个句子(Ebner 等人,2020;Liu 等人,2021;Li 等人,2021)。考虑图 1 中由触发引爆(类型 = 攻击)表示的事件。为了定位其参数 Tartus(语义角色 = 地点),模型应捕获包含三个句子和 178 个单词的大型上下文窗口,以支持推理过程。

目前,有效捕获此类依赖关系仍然是一个悬而未决的问题(Liu et al., 2021, 2022c)。先前的研究提出建模通过结合分层编码机制(Du and Cardie,2020a)、生成范式(Li et al.,2021;Ma et al.,2022;Du et al.,2022)和文档级归纳偏差(Wei等人,2021;Pouran Ben Veyseh 等人,2022;Liu 等人,2022b)。然而,此类方法并未明确表征文档上下文背后的推理模式,这可能会导致性能不佳。此外,大多数以前的方法都是不可解释的,因为它们依赖于黑盒神经网络。

\<img alt="" data-attachment-key="5WFMU28T" width="676" height="697" src="attachments/5WFMU28T.png" ztype="zimage">

在本文中,我们提出了一种新的推理链范式来解决文档级事件参数提取(EAE)。如图 1 底部所示,我们的方法试图通过一系列局部推理步骤来描述全局参数查找过程。例如,我们可以使用以下链来定位塔尔图斯:引爆目标→Arzunah Bridge locatedIn→塔尔图斯。与以前的方法相比,这种推理链范式具有三个明显的好处:首先,由于推理链的组合结构,它自然地捕获了长距离依赖关系。其次,它只涉及局部推理,这在概念上比直接执行全局推理更容易。第三,它提高了可解释性,因为推理过程是可见的

我们的方法将推理链形式化为一阶逻辑(FOL)规则(Cresswell 和 Hughes,1996)。具体来说,令 RL(T , ?) 为对事件参数的查询,该事件参数满足关于事件触发器 T 的语义角色 RL (例如,地点)。我们将查询形式化为以下 FOL 规则:

\<img alt="" data-attachment-key="T4XFLP62" width="513" height="69" src="attachments/T4XFLP62.png" ztype="zimage">

其中规则主体(右侧)由具有低级谓词 {ri}1n 和中间线索实体 {Bi}n−1 1 的合取命题组成。我们构建一个模型,根据文档上下文自动生成规则,然后将规则转换为推理链来定位事件参数。然而,由于 FOL 规则的离散性质,使用 FOL 规则进行优化通常具有挑战性(Qu 等人,2021a)。受到使用 FOL 增强神经网络的工作的启发(Li 和 Srikumar,2019;Ahmed 等人,2022),我们提出了用于松弛的 T-Norm 模糊逻辑(Hajek,1998),这导致了端到端的训练机制。

阅读全文 »

第一章 推荐系统概述

1.1推荐系统的意义

推荐系统就是一个将信息生产者和信息消费者连接起来的桥梁。平台往往会作为推荐系统的载体,实现信息生产者和消费者之间信息的匹配。上述提到的平台方、信息生产者和消费者可以分别用平台方(如:腾讯视频、淘宝、网易云音乐等)、物品(如:视频、商品、音乐等)和用户和来指代。下面分别从这三方需求出发,介绍推荐系统的存在的意义。

平台方

平台方一般是为信息生产者提供物品展示的位置,然后通过不同的方式吸引用户来到平台上寻找他们感兴趣的物品。平台通过商家对物品的展示以及用户的浏览、观看或下单等行为,就产生了所谓的”流量”。

对平台方而言,流量的高效利用是推荐系统存在的重要原因。以典型的电商网站一般具有如图所示的树状拓扑结构,树状结构在连通性方面有着天然的劣势,阻碍这流量的高效流通。推荐系统的出现使得原本的树状结构变成网络拓扑结构,大大增强了整个网络的连通性。推荐模块不仅使用户在当前页面有了更好的选择路径,同时也给了每个商品增加入口和展示机会,进而提高了成交概率。而推荐质量的好坏,直接决定了用户选择这条路径的可能性,进而影响着流量的利用效率。

推荐和搜索的区别

搜索和推荐都是解决互联网大数据时代信息过载的手段,但是它们也存在着许多的不同:

  1. 用户意图:搜索时的用户意图是非常明确的,用户通过查询的关键词主动发起搜索请求。对于推荐而言,用户的需求是不明确的,推荐系统在通过对用户历史兴趣的分析给用户推荐他们可能感兴趣的内容。
  2. 个性化程度:对于搜索而言,由于限定的了搜索词,所以展示的内容对于用户来说是有标准答案的,所以搜索的个性化程度较低。而对于推荐来说,推荐的内容本身就是没有标准答案的,每个人都有不同的兴趣,所以每个人展示的内容,个性化程度比较强。
  3. 优化目标:对于搜索系统而言,更希望可以快速地、准确地定位到标准答案,所以希望搜索结果中答案越靠前越好,通常评价指标有:归一化折损累计收益(NDCG)、精确率(Precision)和召回率(Recall)。对于推荐系统而言,因为没有标准的答案,所以优化目标可能会更宽泛。例如用户停留时长、点击、多样性,评分等。不同的优化目标又可以拆解成具体的不同的评价指标。
  4. 马太效应和长尾理论:对于搜索系统来说,用户的点击基本都集中在排列靠前的内容上,对于排列靠后的很少会被关注,这就是马太效应。而对于推荐系统来说,热门物品被用户关注更多,冷门物品不怎么被关注的现象也是存在的,所以也存在马太效应。此外,在推荐系统中,冷门物品的数量远远高于热门物品的数量,所以物品的长尾性非常明显。

1.2推荐系统的架构

阅读全文 »

0204 K折交叉验证

image-20240115195857331

0205 测试集分割留出法

image-20240115200322730

0206 验证集

image-20240115200552460

0207 均方误差

image-20240115200948281

0208错误率与精确度公式

image-20240115201639265

阅读全文 »

52 Dropout 正则化

52.1Dropout regularization

image-20240113203610466

52.2Implementing dropout(“Inverted dropout”)

image-20240113210330586

52.3Making predictions at test time

image-20240113210850114

阅读全文 »