JDB(中国电子)官方网站

关于JDB电子 资讯中心 企业要闻 媒体聚焦 科技新知 科研创新 业务领域 新能源产业 电除尘系列产品 工业废水处理 垃圾焚烧发电 生态修复及保护 售后服务 JDB(中国电子)官方网站 加入我们 联系我们 JDB电子平台 客户案例 新能源产业 大气污染治理 水污染治理 固危废处置 生态修复及保护
EN
 

资讯中心

科技新知

JDB电子试玩平台通过集成数据和噪声、局部估计 学习割|门神和毕加索|集网络(可

发布时间:2025-02-27
文章来源:JDB电子平台环保

  我们考虑在切分集网络(CNs)中的以下参数学习任务ღ★ღ:给定(1)完全观测数据ღ★ღ,(2)大量边际概率分布(每个分布定义在变量的小子集上)ღ★ღ,以及(3)切分集网络结构ღ★ღ,寻找一组参数设置ღ★ღ,使得由此产生的切分集网络能够高效地整合数据中以及边际分布中存在的统计信息ღ★ღ。在许多实际应用中ღ★ღ,边际分布要么来自专家ღ★ღ,要么来自外部过程ღ★ღ,并且通常是不一致的ღ★ღ,因为它们并非来自同一个联合概率分布ღ★ღ。为了过滤这种不一致性ღ★ღ,我们建议使用两个量的凸组合来近似学习目标ღ★ღ:一个量通过KL散度强制接近边际分布ღ★ღ,另一个量强制接近从数据中学习的切分集网络ღ★ღ。我们开发了一种基于梯度的算法来最小化上述目标ღ★ღ,并证明尽管在贝叶斯网络和马尔可夫网络上计算梯度是NP难的ღ★ღ,但在切分集网络上可以高效地计算梯度ღ★ღ,从而得到一个具有收敛保证的多项式时间算法ღ★ღ。我们通过实验表明ღ★ღ,我们的方法产生的模型是可行的ღ★ღ,并且当边际分布表现出高度不一致性时ღ★ღ,这些模型也明显优于仅从数据中学习的模型ღ★ღ。

  迄今为止ღ★ღ,学习切分集网络(CNs)以及其他类似的可处理概率模型(TPMs)ღ★ღ,如和积网络(Poon和Domingos [2011])和概率句子决策图(Liang等 [2017])的结构和参数的算法ღ★ღ,都假设可以访问没有缺失值或仅有少量变量缺失值的完整或近乎完整的数据ღ★ღ。然而ღ★ღ,在现实世界中ღ★ღ,以下场景却十分常见ღ★ღ。学习算法只能访问少量近乎完整或完整的数据ღ★ღ,以及大量从噪声数据ღ★ღ、不完善领域知识和局部独立预测模型的某种组合中得出的局部边际统计信息ღ★ღ。例如ღ★ღ:(1)在社交网络Degenne和Forsé [1999]ღ★ღ、Scott [1988]等应用领域中ღ★ღ,由于隐私顾虑ღ★ღ,只有有限的全局数据可供使用ღ★ღ。但是ღ★ღ,可以轻松检索到局部统计信息ღ★ღ,例如关于联系人/连接的信息ღ★ღ。(2)在生成模型的惰性学习中(Rahman等 [2019a]ღ★ღ、Zheng和Webb [2000]ღ★ღ、Zhang和Zhou [2007])ღ★ღ,我们从各种来源(如每个统计信息的局部分类器或查询大型数据库)推导出在测试时间(即进行查询时)诱导概率模型所需的充分统计信息ღ★ღ。(3)在主动学习(Settles [2012])中ღ★ღ,学习算法会与用户进行交互门神和毕加索ღ★ღ,请求用户为某些变量提供标签或一般局部边际概率分布ღ★ღ,这些变量是用户在给定观测下的专长所在ღ★ღ。

  在本文中ღ★ღ,我们专注于在给定数据和此类局部ღ★ღ、噪声统计信息的情况下学习切分集网络(CNs)的参数ღ★ღ。我们的学习器以最初从少量几乎没有缺失变量的数据中学习得到的CN作为输入ღ★ღ,然后给定一组统计信息ღ★ღ,迭代更新其参数ღ★ღ,以最小化以下两个量的线)由原始参数表示的分布与由更新后的参数表示的分布之间的距离ღ★ღ;2)给定局部估计与使用更新后的分布计算得到的估计之间的距离之和ღ★ღ。我们为此优化任务推导了一种基于梯度的方法ღ★ღ。由于梯度计算需要计算变量子集的边际概率ღ★ღ,因此在一般的任意概率模型上这是NP难的ღ★ღ,但在CNs上却可以高效计算Vergari等 [2021]ღ★ღ。这体现了在我们的学习环境中使用可处理模型的优点JDB电子试玩平台ღ★ღ。我们在基准数据集上的实验结果表明JDB电子试玩平台ღ★ღ,即使局部估计不一致ღ★ღ,我们利用局部估计的方法在生成和预测性能上都比仅从数据中学习的原始模型有显著改进ღ★ღ。此外ღ★ღ,由于优化问题是平滑的ღ★ღ,我们的方法在温和条件下保证能达到局部最优ღ★ღ。

  相关工作ღ★ღ。Vomlel [1999, 2004]研究了将概率知识库整合在一起的问题ღ★ღ,即从一个低维概率分布(局部估计)构建联合概率分布ღ★ღ。Vomlel使用了经典优化方法——迭代比例拟合程序(IPFP)Deming和Stephan [1940]ღ★ღ,并提出了一种称为广义期望最大化算法(GEMA)的变体来解决该问题ღ★ღ。Vomlel为这些方法提供了收敛证明ღ★ღ,表明当局部估计一致时IPFP收敛ღ★ღ,即使局部估计不一致GEMA也能收敛ღ★ღ。然而ღ★ღ,Vomlel的方法计算复杂度很高(在局部估计定义的图的树宽上是指数级的)ღ★ღ,因此不切实际ღ★ღ。本文提出的方法没有这个限制ღ★ღ。Peng和Ding [2012]为IPFP提出了两种多项式时间近似方法ღ★ღ,并将其应用于贝叶斯网络ღ★ღ。然而jdb电子官网ღ★ღ。ღ★ღ,他们的初步实验研究表明ღ★ღ,由于近似导致的误差相当高ღ★ღ,如果局部估计不一致ღ★ღ,则无法保证收敛ღ★ღ。相比之下ღ★ღ,我们提出的方法近似极少ღ★ღ,并利用可处理推理来得出一种实用方案ღ★ღ。

  我们首先介绍所需的符号ღ★ღ。大写字母(例如ღ★ღ,X, Y, U等)和小写字母(例如ღ★ღ,x, y, u等)分别用于表示离散随机变量及其取值ღ★ღ。而粗体大写字母(例如ღ★ღ,X,Y,U等)和粗体小写字母(例如ღ★ღ,x,y,u等)则分别用于表示离散随机变量集合及其取值集合ღ★ღ。为了简化说明ღ★ღ,我们假设所有变量都是二元的ღ★ღ,取值来自集合{0, 1}ღ★ღ。

  我们专注于学习切割集网络的参数ღ★ღ,这是Rahman和Gogate在2016年提出的ღ★ღ。有关这些易于处理的概率模型的简要介绍ღ★ღ,请参见补充材料ღ★ღ。在高层次上ღ★ღ,切割集网络是一个AND/OR图ღ★ღ,每个AND/OR图的叶节点都附加了一个树状贝叶斯网络ღ★ღ。切割集网络由条件概率参数化ღ★ღ,每个概率要么附加在AND/OR图中从OR节点到AND节点的边上ღ★ღ,要么与叶节点上的树状贝叶斯网络相关联ღ★ღ。更正式地说ღ★ღ,设Θ表示切割集网络的参数集合ღ★ღ,其中θxiui ∈ Θ等于条件概率P(Xi = 1Ui = ui)ღ★ღ。

  我们假设我们可以访问可以通过成对分布来总结的局部信息ღ★ღ。请注意ღ★ღ,我们的算法可以很容易地扩展到任意局部边缘分布ღ★ღ,我们仅为了清晰起见做出这一假设ღ★ღ。设D表示两个定义在同一组变量上的概率分布之间的KL散度(距离)ღ★ღ,E表示随机变量对的子集ღ★ღ,即E ⊆ {(Xj, Xk)Xj, Xk ∈ X 且 j k}ღ★ღ。

  其中λ1 ≥ 0和λ2 ≥ 0是超参数(技术上JDB电子试玩平台ღ★ღ,我们只需要一个超参数ღ★ღ;我们使用两个是为了方便)ღ★ღ,它们分别模拟了局部和全局统计数据的相对重要性ღ★ღ。

  给定的方程(2)中的优化问题在参数Θ上不是凹的ღ★ღ,但是是平滑的ღ★ღ,因此可以使用迭代的梯度上升算法来解决jdbღ★ღ!ღ★ღ。然而ღ★ღ,为了有效地处理第二项的梯度ღ★ღ,我们提出了以下矩匹配方法ღ★ღ。

  设Q表示与R具有相同结构的切割集网络相关的分布ღ★ღ。因此ღ★ღ,Q的参数与R的参数之间存在一一对应关系门神和毕加索ღ★ღ。设Π表示Q的参数集合ღ★ღ。因此ღ★ღ,给定一个参数πxi,ui ∈ Πღ★ღ,就有一个对应的参数θxi,ui在Θ中ღ★ღ。设参数集合Π通过最大化对数似然从数据X中学习得到ღ★ღ。由于切割集网络的参数是条件概率分布ღ★ღ,给定从数据中学习得到的Qღ★ღ,我们可以使用Q和R参数之间的负交叉熵来代替方程(2)的第二项(对数似然)ღ★ღ。数学上ღ★ღ,

  在本节中ღ★ღ,我们将推导出关于每个参数θ_xi,ui的梯度ღ★ღ。关于θ_xi,ui对第二项求偏导数是直接且给出的(结果)为ღ★ღ:

  利用上述导数ღ★ღ,我们正式提出了我们的算法ღ★ღ,用于学习具有局部不一致统计数据的切割集网络或称为LCN-LIS(见补充材料中的算法1)ღ★ღ。

  LCN-LIS的主要优点是它具有多项式计算复杂度ღ★ღ:时间(和空间)复杂度为O(E × Θ × T)ღ★ღ,其中E表示作为输入提供给算法的成对(局部)概率分布的数量ღ★ღ,Θ表示参数的数量ღ★ღ,T表示迭代次数的上限ღ★ღ。

  备注ღ★ღ:请注意ღ★ღ,方程(3)中优化问题的可行解jdb电子平台官网ღ★ღ,ღ★ღ,因此算法1返回的解ღ★ღ,会过滤掉局部估计中的不一致性ღ★ღ,因为它产生了一个全局一致的模型RΘღ★ღ。与之前提出的解决方程(1)中的优化任务的技术ღ★ღ,如迭代比例拟合过程(IPFP)Deming和Stephan [1940]ღ★ღ,Vomlel [2004]不同ღ★ღ,当局部估计不一致时ღ★ღ,这些技术不会收敛ღ★ღ,而算法1会收敛到一个局部最优解(因为目标是平滑的)ღ★ღ。

  总结来说ღ★ღ,我们推导并提出了一个基于梯度的算法ღ★ღ,用于在存在局部估计的情况下学习切割集网络的参数(见算法1)ღ★ღ,并展示了该算法所需的时间和空间与给定的局部统计数据的数量成线可以很容易地扩展到贝叶斯和马尔可夫网络门神和毕加索ღ★ღ。然而ღ★ღ,问题是JDB电子试玩平台ღ★ღ,在这些模型上ღ★ღ,计算方程5中的分子项通常是NP-hard的ღ★ღ。这突出了可处理模型的另一个优点ღ★ღ,即使局部信息不一致ღ★ღ,也可以有效地整合到一个可处理的模型中ღ★ღ。

  我们进行了一项详细且受控的实验研究ღ★ღ,以评估使用不一致的局部统计量对所学模型质量的影响ღ★ღ。具体而言ღ★ღ,我们采用了以下控制变量ღ★ღ:(1)在算法1中从数据X学习到的切分集网络Q的准确性ღ★ღ;(2)局部统计量Pjk(Xj, Xk)的不一致程度ღ★ღ;(3)切分集网络架构ღ★ღ;(4)测试时可用的证据变量或观测值的数量(以测试判别性能)ღ★ღ。我们使用了20个基准数据集ღ★ღ,这些数据集在之前的研究中已被广泛使用(Rooshenas和Lowd [2014, 2013])JDB电子试玩平台ღ★ღ,以评估我们的新方法ღ★ღ。

  我们使用了真实P和所学模型(在各种条件下)之间的负交叉熵作为评估标准ღ★ღ。负交叉熵越高ღ★ღ,模型越好JDB电子试玩平台ღ★ღ。对于每个数据集ღ★ღ,我们学习了一个切分集网络的混合模型(Rahman等人[2014])ღ★ღ,并将其作为真实模型Pღ★ღ。我们使用训练集中随机选择的10%的样本来学习Qღ★ღ。因此ღ★ღ,算法1使用的数据集比用于学习P的数据集少了90%的样本ღ★ღ。我们这样做是为了确保真实模型P与Q之间存在显著差异ღ★ღ,从而帮助我们评估局部信息如何改善一个较差的起始点的质量ღ★ღ。

  我们还使用了一个称为扰动率h的参数来控制Q的质量ღ★ღ。h的值介于0和100之间ღ★ღ,给定h的一个值ღ★ღ,我们将Q中h%的参数替换为一个随机数ღ★ღ。我们对Q进行了归一化ღ★ღ,以确保它是一个有效的概率分布ღ★ღ。

  我们使用了三种类型的切分集网络结构来学习Qღ★ღ:(1)深度为0的切分集网络JDB夺宝电子ღ★ღ。ღ★ღ,这等价于Chow-Liu树(Chow和Liu [1968]ღ★ღ,简称CLT)ღ★ღ;(2)没有任何潜在变量的切分集网络(CN)ღ★ღ;(3)切分集网络的混合(MCN)ღ★ღ。后者是最新模型(Rahman等人[2019b])ღ★ღ。我们学习了判别式和生成式切分集网络ღ★ღ。在判别式网络中ღ★ღ,我们将L%的随机变量设置为证据Eღ★ღ,并在给定证据变量赋值e的情况下ღ★ღ,学习变量X \ E上的概率分布ღ★ღ。我们为L使用了四个值ღ★ღ:0ღ★ღ、20ღ★ღ、50和80ღ★ღ。当L=0时ღ★ღ,我们得到一个生成式模型ღ★ღ,而其余模型为判别式模型ღ★ღ。

  我们使用了三种类型的切分集网络结构来学习Qღ★ღ:(1)深度为0的切分集网络门神和毕加索ღ★ღ,这等价于Chow-Liu树(Chow和Liuღ★ღ,1968年提出ღ★ღ,简称CLT)ღ★ღ;(2)没有任何潜在变量的切分集网络(CN)ღ★ღ;(3)切分集网络的混合(MCN)ღ★ღ。后者是最新模型(Rahman等人ღ★ღ,2019b)ღ★ღ。我们学习了判别式和生成式两种切分集网络门神和毕加索ღ★ღ。在判别式网络中ღ★ღ,我们将L%的随机变量设置为证据Eღ★ღ,并在给定证据变量赋值e的情况下ღ★ღ,学习变量X \ E上的概率分布ღ★ღ。我们为L使用了四个值ღ★ღ:0ღ★ღ、20ღ★ღ、50和80ღ★ღ。当L=0时ღ★ღ,我们得到一个生成式模型ღ★ღ,而其余模型为判别式模型ღ★ღ。

  我们从P生成局部统计量如下ღ★ღ。由于P是一个可处理的模型ღ★ღ,我们可以高效地(在线性时间内)计算所有Xj, Xk ∈ X的Pjk(Xj, Xk)ღ★ღ。为了使其不一致ღ★ღ,我们添加了一个值εღ★ღ,该值是从均值为0ღ★ღ、标准差为σ的正态分布中随机采样的ღ★ღ。我们试验了五个σ值ღ★ღ:0.001ღ★ღ、0.01ღ★ღ、0.05JDB电子试玩平台ღ★ღ、0.1ღ★ღ、0.2ღ★ღ。请注意ღ★ღ,在添加ε之后ღ★ღ,我们必须对分布进行归一化ღ★ღ,以确保它们是有效的ღ★ღ。

  结果ღ★ღ。表1分别展示了Q和R在10个数据集上的生成式(0%证据)性能(更多结果请参见表2ღ★ღ、3ღ★ღ、4和5)ღ★ღ。我们使用σ=0.1和h=0来生成表中给出的实验数据ღ★ღ。每个表中的每个数字都是5次运行的平均值ღ★ღ。为了避免混乱ღ★ღ,我们没有报告标准差ღ★ღ,因为在所有运行中ღ★ღ,标准差都相当小ღ★ღ。这些结果有助于我们分析切分集网络架构和证据变量数量对我们评估标准的影响ღ★ღ。我们观察到ღ★ღ,平均而言ღ★ღ,使用局部不一致统计量可以使每种架构的负交叉熵提高17-23%ღ★ღ。混合切分集网络(MCNs)是整体表现最好的模型ღ★ღ,而Chow-Liu树(CLTs)的表现则明显较差ღ★ღ。随着证据节点数量的增加ღ★ღ,改进的程度没有显著差异ღ★ღ。这表明我们的方法对于判别式和生成式模型同样有效ღ★ღ。

  图1展示了在电影数据集上训练的切分集网络(CN)的负交叉熵分数随扰动率(h)的变化ღ★ღ。我们在补充材料中提供了其余数据集的图表ღ★ღ。这些图表有助于我们评估Q的质量(即起点的影响)对算法1所学模型的影响ღ★ღ。我们观察到ღ★ღ,随着扰动率的增加ღ★ღ,P和Q之间的负交叉熵显著下降ღ★ღ。然而ღ★ღ,P和R之间的负交叉熵保持相对平稳ღ★ღ。这表明使用局部统计量可以显著提高模型质量ღ★ღ,尤其是当基于全局数据的模型不准确时ღ★ღ。

  在本文中ღ★ღ,我们提出了一种在存在噪声局部估计的情况下学习切分集网络参数的新方法ღ★ღ。与在学习过程中使用完整独立同分布(i.i.d.)数据的传统算法不同ღ★ღ,我们提出了一种新颖的方法ღ★ღ,该方法利用噪声局部信息来学习更准确和稳健的模型ღ★ღ。使用局部估计的主要优势在于ღ★ღ,与完整的i.i.d.数据相比ღ★ღ,局部估计通常更容易获得ღ★ღ。我们还通过在基准数据集上的实验表明ღ★ღ,即使局部估计是不一致和带有噪声的ღ★ღ,我们的新算法也能大大提高从i.i.d.数据中学到的初始模型的质量ღ★ღ。