GBDT

发表于 2024-11-30

GBDT为梯度提升决策树（Gradient Boosting Decision Tree），是一种以回归决策树为弱学习器的集成学习模型。GBDT集成学习模型通常使用CART决策树（回归树）模型作为弱学习器。

提升树算法(Boosting Decision Tree)：

提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时，每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树。
残差 = 真实值- 预测值。
提升树即是整个迭代过程生成的回归树的累加。

例：训练一个提升树模型来预测年龄训练集只有4个人，A,B,C,D，他们的年龄分别是 14,16,24,26。其中A、B分别是高一和高三学生；C,D 分别是应届毕业生和工作两年的员工。样本中有购物金额、上网时长、经常到百度知道提问等特征。

提升树过程如下：由于数据太少，限定叶子节点最多有两个，即每棵树都只有一个分枝，并且限定只学习两棵树。第一棵树，由于A,B年龄较为相近，C,D年龄较为相近，4人被分为两拨，每拨用平均年龄作为预测值 。拿残差替代A,B,C,D的原值，到第二棵树去学习，如果预测值和它们的残差相等，则只需把第二棵树的结论累加到第一棵树上就能得到真实年龄了。第二棵树只有两个值1和-1，直接分成两个节点。此时所有人的残差都是0，即每个人都得到了真实的预测值。

现在A,B,C,D的预测值都和真实年龄一致

A: 14岁高一学生，购物较少，经常问学长问题；预测年龄A = 15 – 1 = 14

B: 16岁高三学生；购物较少，经常被学弟问问题；预测年龄B = 15 + 1 = 16

阅读全文 »

基于链式推理的文档级事件论元提取

发表于 2024-05-06 更新于 2024-05-26 分类于事件参数抽取

Document-Level Event Argument Extraction With A Chain Reasoning Paradigm

文档级事件参数提取旨在识别句子级别之外的事件参数，其中一个重大挑战是对远程依赖关系进行建模。针对这一挑战，我们为该任务提出了一种新的链式推理范式，它可以生成可分解的一阶逻辑规则进行推理。由于链的组合性质，这种范式自然地捕获了远程相互依赖，这也通过显式地建模推理过程来提高可解释性。我们引入 T 范数模糊逻辑进行优化，它允许端到端学习，并有望将逻辑推理的表达能力与神经网络的泛化相结合。在实验中，我们表明我们的方法在两个标准基准上明显优于以前的方法（F1 中超过 6 个点）。此外，它在资源匮乏的情况下具有数据效率，并且足够强大以防御对抗性攻击。

1.

识别事件参数（即事件的参与者）是文档级事件理解的一项关键任务（Ebner et al., 2020；Li et al., 2021）。在此任务中，主要挑战是对事件触发器和参数之间的远程依赖关系进行建模，因为事件表达式可以跨越多个句子（Ebner 等人，2020；Liu 等人，2021；Li 等人，2021）。考虑图 1 中由触发引爆（类型 = 攻击）表示的事件。为了定位其参数 Tartus（语义角色 = 地点），模型应捕获包含三个句子和 178 个单词的大型上下文窗口，以支持推理过程。

目前，有效捕获此类依赖关系仍然是一个悬而未决的问题（Liu et al., 2021, 2022c）。先前的研究提出建模通过结合分层编码机制（Du and Cardie，2020a）、生成范式（Li et al.，2021；Ma et al.，2022；Du et al.，2022）和文档级归纳偏差（Wei等人，2021；Pouran Ben Veyseh 等人，2022；Liu 等人，2022b)。然而，此类方法并未明确表征文档上下文背后的推理模式，这可能会导致性能不佳。此外，大多数以前的方法都是不可解释的，因为它们依赖于黑盒神经网络。

$\<img alt="" data-attachment-key="5WFMU28T" width="676" height="697" src="attachments/5WFMU28T.png" ztype="zimage">$

在本文中，我们提出了一种新的推理链范式来解决文档级事件参数提取（EAE）。如图 1 底部所示，我们的方法试图通过一系列局部推理步骤来描述全局参数查找过程。例如，我们可以使用以下链来定位塔尔图斯：引爆目标→Arzunah Bridge locatedIn→塔尔图斯。与以前的方法相比，这种推理链范式具有三个明显的好处：首先，由于推理链的组合结构，它自然地捕获了长距离依赖关系。其次，它只涉及局部推理，这在概念上比直接执行全局推理更容易。第三，它提高了可解释性，因为推理过程是可见的。

我们的方法将推理链形式化为一阶逻辑（FOL）规则（Cresswell 和 Hughes，1996）。具体来说，令 RL(T , ?) 为对事件参数的查询，该事件参数满足关于事件触发器 T 的语义角色 RL （例如，地点）。我们将查询形式化为以下 FOL 规则：

$\<img alt="" data-attachment-key="T4XFLP62" width="513" height="69" src="attachments/T4XFLP62.png" ztype="zimage">$

其中规则主体（右侧）由具有低级谓词 {ri}1n 和中间线索实体 {Bi}n−1 1 的合取命题组成。我们构建一个模型，根据文档上下文自动生成规则，然后将规则转换为推理链来定位事件参数。然而，由于 FOL 规则的离散性质，使用 FOL 规则进行优化通常具有挑战性（Qu 等人，2021a）。受到使用 FOL 增强神经网络的工作的启发（Li 和 Srikumar，2019；Ahmed 等人，2022），我们提出了用于松弛的 T-Norm 模糊逻辑（Hajek，1998），这导致了端到端的训练机制。

阅读全文 »

第一章推荐系统概述

1.1推荐系统的意义

推荐系统就是一个将信息生产者和信息消费者连接起来的桥梁。平台往往会作为推荐系统的载体，实现信息生产者和消费者之间信息的匹配。上述提到的平台方、信息生产者和消费者可以分别用平台方（如：腾讯视频、淘宝、网易云音乐等）、物品（如：视频、商品、音乐等）和用户和来指代。下面分别从这三方需求出发，介绍推荐系统的存在的意义。

平台方

平台方一般是为信息生产者提供物品展示的位置，然后通过不同的方式吸引用户来到平台上寻找他们感兴趣的物品。平台通过商家对物品的展示以及用户的浏览、观看或下单等行为，就产生了所谓的”流量”。

对平台方而言，流量的高效利用是推荐系统存在的重要原因。以典型的电商网站一般具有如图所示的树状拓扑结构，树状结构在连通性方面有着天然的劣势，阻碍这流量的高效流通。推荐系统的出现使得原本的树状结构变成网络拓扑结构，大大增强了整个网络的连通性。推荐模块不仅使用户在当前页面有了更好的选择路径，同时也给了每个商品增加入口和展示机会，进而提高了成交概率。而推荐质量的好坏，直接决定了用户选择这条路径的可能性，进而影响着流量的利用效率。