文章来源于互联网:开启空间智能问答新时代:Spatial-RAG框架来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
-
标题:Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Spatial Reasoning Questions -
作者:Dazhou Yu, Riyang Bao, Gengchen Mai, Liang Zhao -
机构:埃默里大学、德州大学奥斯汀分校 -
原文链接:https://arxiv.org/abs/2502.18470

-
空间约束:图 1 用户的问题涉及复杂的空间关系:“沿某条路线推荐餐厅”。传统的空间数据库可以高效处理这些空间查询,但它们无法理解用户的语义需求:“要求肉食”。 -
语义理解:LLMs 擅长理解自然语言中的语义信息,例如用户对餐厅类型、价格或评分的偏好。然而,LLMs 缺乏直接处理空间数据的能力,无法执行复杂的空间计算(例如,计算两个点之间的距离或判断一个点是否位于某个区域内)。
-
通用的 Spatial-RAG 框架:Spatial-RAG 是第一个将 RAG 扩展到空间问答的框架,能够处理广泛的空间推理任务,如地理推荐、空间约束搜索和上下文路径规划。无缝集成了空间数据库、LLMs 和基于检索的增强,使得能够在 LLMs 的熟悉操作范式内有效处理复杂的空间推理问题。 -
稀疏 – 密集空间混合检索器:提出了一种混合检索机制,结合了稀疏检索(基于 SQL 的结构化查询)和密集检索(基于 LLM 的语义匹配)。这种双重方法确保检索结果在空间和语义上与用户查询一致,显著提高了空间上下文中的检索准确性。 -
多目标引导的空间文本生成器:为了处理空间问答任务中的空间约束和文本推理,引入了一个多目标优化框架,动态平衡空间和语义相关性之间的权衡。这确保了生成的响应既几何准确又语言连贯。 -
真实世界评估:在从旅游网站收集的真实世界数据集上评估了方法,该数据集包含用户对不同空间实体的问题和评论。在该数据集上的实验揭示了处理现实世界空间推理问题的能力。


-
构建空间候选集
:系统必须精确定义空间约束,然后检索满足这些约束的空间对象。如图 2 sparse spatial retrieval(稀疏空间检索)所示,通过将输入的自然语言问题解析为空间 SQL 查询来实现这一点,该查询将在空间数据库上执行,以高效地从数据库中检索相关的空间对象。此过程在第 4.2 节中详细说明。 -
计算空间相关性
:为了在集成文本信息的同时有效计算空间相关性,研究人员提出了一种混合空间检索方案。如图 2 所示,该方法结合了来自数据库的稀疏空间相关性分数和来自文本嵌入的密集语义相似性分数。这使得系统能够根据输入问题的空间相关性对检索到的空间对象进行排序,详见第 4.3 节。 -
多目标优化生成:在给定空间和语义约束的情况下,研究人员提出了一个多目标优化问题来平衡这些因素。系统计算候选答案的 Pareto 前沿,LLM 动态在这些解决方案之间进行权衡,以生成最优响应。此步骤在第 4.4 节中详细介绍。
由满足一组空间约束
的所有可能答案 y 组成。形式上,该研究定义:
表示编码空间条件的约束函数(例如,拓扑、方向或距离约束),
是与问题 q 相关的所有空间约束的集合。例如,如果空间约束要求 y 与参考位置
的距离不超过 ϵ,则可能的约束函数为:
中。
是确定对象之间关系的空间查询函数。
表示从问题中提取的参考对象集合。
表示作为潜在答案的目标对象集合。
是控制空间约束的数值参数。-
几何识别:从用户输入中识别并提取参考空间对象
和候选目标空间对象
,并提取它们的空间几何体。 -
查询函数选择:根据预期的空间关系(例如,包含、接近)确定适当的空间函数
。 -
参数估计:分配数值约束
以确保精确的空间过滤(例如,缓冲区半径)。
通常可以分为三种基本类型:点、多段线和多边形。形式上,研究人员定义这些类别如下:-
点:
。此类别包括单个点和多点,表示面积可忽略的位置。例如,停车标志、地址点和用户的当前位置。在空间数据库中,这些实体通常表示为 “点” 几何类型。 -
多段线:
。多段线(包括多段线组)表示宽度可忽略的线性一维对象。常见的例子包括街道、河流、公交路线和电力线。在空间数据库中,这些几何体抽象为 “线串” 类型。 -
多边形:
。多边形(包括多边组)表示定义封闭区域的二维对象。这些几何体对于描绘区域(如人口普查区、地块、县、社区和分区区域)至关重要。

表示点对象(例如,给定位置),
是距离阈值。对于更复杂的查询,例如 “我将从家沿着第 7 街和琼斯街步行到大学校园;请推荐一家我可以在步行途中购买早餐的咖啡馆。”,必须考虑多种几何类型,空间候选集为:
表示多段线对象(例如,路线),
表示多边形区域(例如,大学校园),B 是多段线周围的缓冲区,
是缓冲区大小。
。尽管几何体之间的交互不同,但它们可以通过距离函数
统一处理,该函数计算两个几何实体
之间的最短距离。
和目标几何体集合
,空间候选集
可以定义为:
由 LLM 自主确定,通常基于上下文理解(例如,估计的步行距离或感兴趣区域)。参数
可以表示为:
,其中 ϕ 是将查询 q 的上下文映射到适当数值的函数。
函数
和参数
被确定,系统将构建精确的空间查询 Qs。这确保了从空间数据库中进行精确检索,保持结果的准确性和相关性。通过利用这些数学公式,系统有效地将空间推理任务转化为可执行的查询,促进了 LLM 框架内的强大空间智能。
由两个部分组成:一个来自空间数据库的稀疏空间检索分数,另一个来自基于问题和候选对象空间描述之间的文本相似性的密集空间检索分数。形式上,研究人员定义:
和
是控制每个分数贡献的权重系数。
确定,该函数计算参考对象和目标对象之间的距离。形式上,研究人员定义:
和
分别是参考和目标空间对象。
是测量空间数据库中接近度的距离函数。如果
与
重叠,分配一个完美的相关性分数 1。
的文本描述
,研究人员通过基于注意力的掩码函数提取相关的空间内容:
是空间特征的密集向量表示,
是将输入文本映射到空间相关文本的提取函数,
是文本编码器。
和语义相关性分数
基于密集向量相似性计算。在获得所有分数和候选集后,问题变为多目标优化问题,因为每个视角(空间和语义)都独立贡献。
定义为:
且
, 至少有一个严格不等式}.
中的每个候选都是非支配的,意味着没有其他候选在空间和语义相关性上都严格优于它。
,研究人员使用 LLM 根据用户查询的上下文动态平衡空间约束和语义偏好之间的权衡。具体来说,LLM 接收用户查询、稀疏空间相关性分数和空间对象描述作为输入:
从输入中提取,调整空间与语义相关性的重要性,其中 h 是捕捉查询特定权衡的学习函数。
:
-
Sort-by-distance(SD):按照空间问题中的参考对象距离排序候选空间对象。 -
Text embedding(TE):基于文本描述的嵌入向量,计算目标对象与参考对象的向量距离,并选择最近的对象。 -
Spatial-text(ST):基于用户问题的嵌入向量计算与目标对象文本描述的相似度,并结合目标对象的距离得分进行加权求和后决策。 -
Naive RAG:使用向量数据库存储所有空间对象描述,并基于向量相似性检索最相关的对象。 -
GeoLLM:对空间对象进行编码,并通过添加附近对象的空间信息丰富上下文。


-
Spatial-RAG(GPT-3.5-Turbo 和 GPT-4-Turbo)在交付率上与其他基线方法存在一定差距,大约 86.1% 的问题被成功处理。 -
失败的 12.9% 的情况是由于 无法从空间数据库检索到任何空间对象(可能由于多边形识别错误或 SQL 查询指定区域内无相关对象)。 -
另 0.9% 的情况是 LLM 在重新排序(reranking)过程中未能正确排列检索结果。 -
Spatial-RAG(GPT-4-Turbo)比 GPT-3.5-Turbo 在 Spatial Dense Pass Rate 上高 7%,在 Semantic Pass Rate 上也稍有优势。 -
SD 方法由于仅基于距离返回最近的对象,其 Spatial Dense Pass Rate 较高,但其他指标表现较差。 -
GeoLLM 方法仅基于对象名称和距离,因此在 Spatial Dense Pass Rate 方面表现尚可。 -
TE 和 ST 方法考虑了语义信息,在 Semantic Pass Rate 方面表现较优。 -
Naive RAG 和 ST 共同优化了空间密集检索和用户语义检索,因此两者在这两个方面表现接近。
-
Spatial-RAG 在迈阿密数据集上的表现也较好。 -
基线方法的表现模式与纽约数据集基本一致,但由于迈阿密的数据量较小(QA 对数量仅为 133),模型表现的稳定性可能受到影响。
-
移除稀疏空间模块后,交付率显著提高,但空间得分下降。 -
移除密集语义模块后,空间密集通过率最高,但语义通过率显著降低。


文章来源于互联网:开启空间智能问答新时代:Spatial-RAG框架来了

