数重实验室多篇论文被 ICDE 2024 录用!

ICDE(IEEE International Conference on Data Engineering)是数据库领域最顶级的学术会议,ICDE 2024于2024年5月13日至16日在荷兰乌得勒支举行。


数据科学重点实验室四篇论文被 AAAI 2024录用,下面是论文列表及介绍。

1.1

论文标题

PURPLE: Making a Large Language Model a Better SQL Writer

1.2

论文作者

Tonghui Ren; Yuankai Fan ; Zhenying He(何震瀛); Ren Huang; Jiaqi Dai ; Can Huang ; Yinan Jing(荆一楠) ; Kai Zhang ; Yifan Yang ; X. Sean Wang

1.3

论文简介

自然语言到SQL(NL2SQL)的翻译任务是将自然语言查询转换成SQL语句,使得用户能够不需要了解数据库模式或SQL语法的情况下,轻松访问数据库管理系统(DBMS)中的数据。大型语言模型(LLM)在理解自然语言方面表现出色,能在很多任务上表现出优异的性能,但对于自然语言到SQL的翻译任务,它们通常缺乏足够的能力来正确组织和生成包含复杂逻辑运算的SQL查询。这导致即使是在执行结果相同的情况下,生成的SQL语句在逻辑上可能与正确的查询存在显著差异,从而导致生成的查询语句不可靠。


为了解决上述的挑战,我们提出了提出了一种名为PURPLE(Pre-trained models Utilized to Retrieve Prompts for Logical Enhancement,利用预训练模型检索提示以增强逻辑能力)的新方法,旨在改善大型语言模型在自然语言到SQL转换任务中的表现。PURPLE通过几个关键模块来增强大型语言模型的SQL生成能力,包括模式剪枝、骨架预测、示范选择和数据库适配。这种方法通过选取含有所需逻辑运算符组合知识的样本,帮助大型语言模型更好地处理自然语言到SQL的翻译任务中的逻辑组合问题。为了证明PURPLE的有效性,作者在四个主流基准测试集上进行了评估,并探讨了成本与性能之间的权衡。结果显示,PURPLE在准确匹配率方面相较于现有的基于大型语言模型的自然语言到SQL的翻译方法有显著提高,同时也展现出了强大的鲁棒性和成本效益。

02


2.1

论文标题

Efficient Set-based Order Dependency Discovery with a Level-wise Hybrid Strategy

2.2

论文作者

Yihan Li; Ruifeng Li;Zijing Tan(谈子敬) ; Shuai Ma

2.3

论文简介

数据依赖在数据质量管理和元数据管理中都具有重要的地位。近年来,因其在查询优化等领域中的显著用途,次序依赖的相关研究获得了广泛的关注。本文探讨了针对集合次序依赖的发现问题,目标是替代人工,自动从数据中发现隐藏的次序依赖,进而支持在数据管理中的使用。我们提出了一种新颖的分层混合策略来解决这个问题。给定一个关系实例r,我们首先从r的一个样本(子集)中发现候选约束集,然后在r上验证这些发现的约束,并基于验证结果修正样本集,直到样本上的发现结果收敛到r上的结果为止。我们证明了这样一个基于动态和规模不断增长的样本集进行的约束发现,仍然可以保证发现结果集的正确性和完整性,并设计和提出了基于次序依赖的栅格结构的有效遍历策略和按需增量调整样本的技术。在大量数据集上的实验表明,应用我们的方法,可以获得比现有技术多个数量级的性能提升。

03


3.1

论文标题

MetaSQL: A Generate-then-Rank Framework for Natural Language to SQL Translation

3.2

论文作者

Yuankai Fan; Zhenying He(何震瀛); Tonghui Ren ; Can Huang ; Yinan Jing(荆一楠) ; Kai Zhang; X. Sean Wang

3.3

论文简介

数据库的自然语言接口(NLIDB)通过直观的自然语言(NL)交互,赋予非技术用户访问数据库的能力。先进的方法,利用神经序列到序列模型或大规模语言模型,通常采用自回归解码来顺序生成唯一的SQL查询。尽管这些翻译模型极大地提高了整体翻译准确性,在NLIDB基准测试中超过了70%,但使用自回归解码来生成单个SQL查询可能导致次优输出,从而可能引起错误的翻译。在本文中,我们提出了Metasql,这是一个统一的生成然后排名框架,可以灵活地与现有的NLIDB结合使用,以持续提高它们的翻译准确性。Metasql引入了查询元数据来控制更好的SQL查询候选项的生成,并使用学习排名算法检索全局优化的查询。具体来说,Metasql首先将给定的NL查询的含义分解为一组可能的查询元数据,代表语义的基本概念。然后,这些元数据被用作语言约束,引导底层翻译模型生成一组候选的SQL查询。最后,Metasql对候选项进行排名,以识别给定NL查询的最佳匹配项。我们进行了广泛的实验,以研究Metasql在两个公共NLIDB基准测试上的性能。结果表明,使用Metasql可以有效提高翻译模型的性能。

04

4.1

论文标题

Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception

4.2

论文作者

Yuncheng Huang; Qianyu He ; Jiaqing Liang(梁家卿) ; Sihang Jiang; Yanghua Xiao(肖仰华) ; Yunwen Chen

4.3

论文简介

数量是文本中独特且关键的组成部分,它表征了实体的大小属性,为理解自然语言(尤其是推理任务)提供了精确的视角。近年来,基于大语言模型(LLM)的推理任务研究层出不穷,但大多只关注数值,忽视了单位量的维度概念,尽管它很重要。我们认为,维度的概念对于精确理解数量至关重要,对于法学硕士进行定量推理具有重要意义。然而,维度知识和数量相关基准的缺乏导致了法学硕士的低绩效。因此,我们提出了一个框架来增强基于维度感知的语言模型的定量推理能力。我们首先构建一个维度单位知识库(DimUnitKB)来解决该领域的知识空白。我们提出了一个基准 DimEval,由三个类别的七个任务组成,以探索和增强法学硕士的维度感知技能。为了评估我们方法的有效性,我们提出了定量推理任务并进行实验。实验结果表明,与 GPT-4 相比,我们的维度感知方法在定量推理任务上显着提高了准确性(43.55%->50.67%)。


友情链接
联系我们
地址: 中国 上海市杨浦区淞沪路2005号复旦大学江湾校区2号交叉学科楼
邮编: 200438
电话: +86-21-31242153
传真: +86-21-31242153
E-mail: dataology@fudan.edu.cn