文章来源于互联网:哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
动机
-
分解策略鼓励我们将多模态表示的融合拆分为更小、更易于处理的单元,这些单元能够在不同的粒度级别上探索多模态交互。 -
优先排序策略建议根据“由易到难”和“由粗到细”的顺序来整合多模态信息;这种渐进式的整合有助于MNER预测的逐步优化。这使得模型能够逐步将注意力从简单但粗糙的信息转移到复杂但精确的细节上。 -
不相关性消除策略启发我们显式地筛选并排除不同多模态表示中的无关信息;这可以消除那些可能影响MNER性能的无关信息。
,基于一个预测网络编码多模态特征来在去噪过程中迭代地去噪得到文本中的正确实体区间
。
,图片中的两种粒度两种难度(他们认为对齐的表示是简单的表示,不对齐的是困难的表示)的表示
。该团队的预测网络AMRN包含一个编码网络(DMMF)以及解码网络(MER)。预测网络的设计是基于前面所提到的三种策略。
融合到每个粒度的文本特征中$x_i$, 将不同粒度的图片特征$Y$融合到每个粒度的文本特征
,最后将不同粒度的图片特征Y和文本特征X融合,得到最终的多模态表示。输入到解码网络中进行解码,解码网络得到新的区间,以及每个区间的实体类型。
与
相关性rel,用于消除其中的无关信息。最后结合该相关性使用了一个bottleneck transformer来进行
与
的融合,得到了某一粒度的多模态图像文本融合表示
。
。这一层我们使用了调度器来对不同粒度的图片特征进行动态融合,得到了某一粒度的多模态文本表示
。
融合到区间的表示中,得到总的多模态的文本表示
,输入到解码网络中进行预测。


文章来源于互联网:哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力



