ICDE(IEEE International Conference on Data Engineering)是数据库领域最顶级的学术会议,ICDE 2024于2024年5月13日至16日在荷兰乌得勒支举行。
1.1
论文标题
1.2
论文作者
1.3
论文简介
自然语言到SQL(NL2SQL)的翻译任务是将自然语言查询转换成SQL语句,使得用户能够不需要了解数据库模式或SQL语法的情况下,轻松访问数据库管理系统(DBMS)中的数据。大型语言模型(LLM)在理解自然语言方面表现出色,能在很多任务上表现出优异的性能,但对于自然语言到SQL的翻译任务,它们通常缺乏足够的能力来正确组织和生成包含复杂逻辑运算的SQL查询。这导致即使是在执行结果相同的情况下,生成的SQL语句在逻辑上可能与正确的查询存在显著差异,从而导致生成的查询语句不可靠。
02
2.1
论文标题
2.2
论文作者
Yihan Li; Ruifeng Li;Zijing Tan(谈子敬) ; Shuai Ma
2.3
论文简介
03
3.1
论文标题
3.2
论文作者
3.3
论文简介
数据库的自然语言接口(NLIDB)通过直观的自然语言(NL)交互,赋予非技术用户访问数据库的能力。先进的方法,利用神经序列到序列模型或大规模语言模型,通常采用自回归解码来顺序生成唯一的SQL查询。尽管这些翻译模型极大地提高了整体翻译准确性,在NLIDB基准测试中超过了70%,但使用自回归解码来生成单个SQL查询可能导致次优输出,从而可能引起错误的翻译。在本文中,我们提出了Metasql,这是一个统一的生成然后排名框架,可以灵活地与现有的NLIDB结合使用,以持续提高它们的翻译准确性。Metasql引入了查询元数据来控制更好的SQL查询候选项的生成,并使用学习排名算法检索全局优化的查询。具体来说,Metasql首先将给定的NL查询的含义分解为一组可能的查询元数据,代表语义的基本概念。然后,这些元数据被用作语言约束,引导底层翻译模型生成一组候选的SQL查询。最后,Metasql对候选项进行排名,以识别给定NL查询的最佳匹配项。我们进行了广泛的实验,以研究Metasql在两个公共NLIDB基准测试上的性能。结果表明,使用Metasql可以有效提高翻译模型的性能。
04
4.1
论文标题
4.2
论文作者
4.3
论文简介
数量是文本中独特且关键的组成部分,它表征了实体的大小属性,为理解自然语言(尤其是推理任务)提供了精确的视角。近年来,基于大语言模型(LLM)的推理任务研究层出不穷,但大多只关注数值,忽视了单位量的维度概念,尽管它很重要。我们认为,维度的概念对于精确理解数量至关重要,对于法学硕士进行定量推理具有重要意义。然而,维度知识和数量相关基准的缺乏导致了法学硕士的低绩效。因此,我们提出了一个框架来增强基于维度感知的语言模型的定量推理能力。我们首先构建一个维度单位知识库(DimUnitKB)来解决该领域的知识空白。我们提出了一个基准 DimEval,由三个类别的七个任务组成,以探索和增强法学硕士的维度感知技能。为了评估我们方法的有效性,我们提出了定量推理任务并进行实验。实验结果表明,与 GPT-4 相比,我们的维度感知方法在定量推理任务上显着提高了准确性(43.55%->50.67%)。