首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏智能问数技术路线全景分析

    NL2SQL 目前有什么突破?

    2026年技术演进观察·从学术研究到产业实践一、NL2SQL技术演进历程1.1早期探索(2017-2019)Spider数据集发布后,学术界涌现大量NL2SQL模型:Seq2SQL(Salesforce :预先构建宽表(将多表JOIN物化为单表),NL2SQL只需处理单表查询。 准确率(Spider测试集):单表查询:88-90%多表查询:68-72%复杂嵌套查询:65-70%四、多表JOIN瓶颈:NL2SQL的阿喀琉斯之踵NL2SQL准确率现状(行业平均水平)单表查询85-90% 这促使业界探索超越NL2SQL的下一代技术路径。 NL2SQL核心瓶颈:多表JOIN准确率仍然较低(≤70%),难以满足企业级应用需求。纯NL2SQL路线缺乏知识积累机制,相同错误重复出现。

    37910编辑于 2026-03-13
  • 来自专栏NLP/KG

    NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道

    NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider NL2SQL、数据智能分析简介NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的SQL查询。 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。 NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道5.优化二:提示工程更多内容参考☆☆NL2SQL进阶系列(4):ConvAI 更多内容请参考NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道

    4.8K25编辑于 2024-04-19
  • 来自专栏机器之心

    NL2SQL值得你关注

    在本文中,追一科技介绍了 NL2SQL 的价值,及其过去、现在与未来,希望能有更多关于 NL2SQL 的落地场景研究。 NL2SQL 不仅可以独当一面,降低人机交互的距离和门槛,也可以与其它技术相辅相成。 那 NL2SQL 在学术中的定位是怎么样的呢? WikiSQL 是 Salesforce 在 2017 年提出的大型标注 NL2SQL 数据集,也是目前规模最大的 NL2SQL 数据集。 学界和工业界也越来越关注这方面的研究,追一科技 6 月份将发起首届中文 NL2SQL 挑战赛,期待 NL2SQL 在不远的将来会迎来属于自己的春天,学术应用两开花。 ?

    2.1K41发布于 2019-06-05
  • 来自专栏AI科技大本营的专栏

    首届中文NL2SQL挑战赛:千支队伍参赛,国防科大夺冠

    赛事情况:国内外千支队伍,角逐Top5 (一)千支队伍挑战NL2SQL,角逐五强 任务上的创新、应用上的潜力,NL2SQL比赛一经推出,就受到了学界和工业界的广泛关注。 NL2SQL:当NLP唤醒数据库的灵魂六问 (一)什么是NL2SQLNL2SQL可以让机器理解这样的自然语言,并从表格中检索出答案。 (二)NL2SQL应用前景,可以用在哪些场景,解决什么问题? (四)NL2SQL在学术中的定位是怎么样的呢? (1)WikiSQL是Salesforce在2017年提出的一个大型标注NL2SQL数据集,也是目前规模最大的NL2SQL数据集。

    1.7K40发布于 2019-10-15
  • 来自专栏镁客网

    南京大学人工智能学院教授俞扬:从应用出发多角度设计,可得更优算法模型

    “从技术层面看,NL2SQL是将自然语言转化为SQL语句的一项任务,在研究领域是一个比较新的方向。 正如俞扬提到,NL2SQL是一个技术与应用结合的产物。这场关于NL2SQL的大赛,其意义不仅仅在于对一项技术的推动,而是业内对技术与应用深度结合的重视。 从NL2SQL竞赛看技术落地 具体去看,NL2SQL是如何帮助改进传统数据库查询的? 但同时他也指出,透过比赛可以看出NL2SQL还有很大的提升空间,比如说在算法泛化能力这一普遍关注点上。 最后 近年来,NLP的技术研究带来了一些创新型研究机会,NL2SQL是其中之一。

    76320发布于 2019-10-31
  • 来自专栏机器之心

    夺冠首届中文自动转SQL大赛,准确率高达92%,国防科大如何刷新纪录?

    火热的中文 NL2SQL 挑战赛 这次 NL2SQL 挑战赛真的很受关注,自 6 月份比赛启动以来,海内外共有 1457 支队伍、1630 名选手报名参赛,参与院校数达 170 所,其中 227 支队伍 首个中文 NL2SQL 数据集 这次挑战赛这么受关注,很大一部分可以归功于新数据集的发布。 中文 NL2SQL 的冠军解决方案 在这次挑战赛中,中文 NL2SQL 数据与 WikiSQL 主要有三点差异,即更口语化的表达、可用表格数据以及单位存在差异。 在理解冠军方案 M-XQL 之前,如果读者之前不太了解中文 NL2SQL 任务,我们建议可以先看看前一篇赛题解读文章:让机器自动写 SQL 语言,首届中文 NL2SQL 挑战赛等你来战。 前面国防科大的 M-SQL 将 NL2SQL 视为槽值填充的任务,而浙江大学团队从 QA 的角度思考 NL2SQL

    1.6K20发布于 2019-10-17
  • 来自专栏NLP/KG

    NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解

    NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL] NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL] NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理 NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。 最终,DAIL-SQL在NL2SQL的国际权威榜单Spider上取得了86.6的执行准确率,比第二名的DIN-SQL高1.3个百分点。

    2.1K10编辑于 2024-04-14
  • 来自专栏大模型应用开发

    在GiteeAI上免费体验满血版本的DeepSeek结合NL2Sql效果如何?

    然而nl2sql对于大模型的能力和embedding有一定的要求的。所以如果生成sql的效果不理想不妨试着换个模型试试!今天我们来看看,通过Gitee AI来免费体验一下DeepSeek的满血版本。

    31110编辑于 2025-10-14
  • 来自专栏QQ大数据团队的专栏

    腾讯云TCDataAgent:跻身国际Bird榜单前三,研究成果入选VLDB

    本文共计784字 预计阅读时长3分钟 国产Agent进入“NL2SQL全球最难榜单”前三。 来源:BIRD-Bench官网截图 BIRD-Bench以其严苛性被誉为“NL2SQL全球最难榜单”。 相比于传统NL2SQL方案往往只能依赖有限信息“猜测”用户意图,易因数据结构复杂或语义模糊出错。 腾讯云TCDataAgent在NL2SQL领域的技术研究成果也获得了国际学术界的认可,相关论文已被今年的数据库领域顶级国际会议VLDB接收。 论文中的实验表明,TCDataAgent的核心"数据库内容感知"技术模块",可以无缝集成到其他NL2SQL系统中,最高能将查询执行准确率提升18.3%,并在多个主流方法上实现了超过5%的性能提升。

    55010编辑于 2025-07-08
  • 数据集推荐 06 | 首款 NL2GeoSQL 的测试基准和数据集来了!

    为了帮助更多开发者快速获取资源,我们将近年来公开的 Text2SQL/NL2SQL 数据集进行了整理清单,持续分享给大家! 本期为系列文章的第六期,将介绍 大模型在地理空间查询 SQL 生成 和 提高 NL2SQL 精准度 方面的两款数据集:GeoSQL-Eval 与 DeKeyNLU。 传统的 NL2SQL 基准测试无法涵盖空间数据类型、函数和坐标系等复杂元素,导致在实际应用场景中出现函数错觉和参数误用等错误。 在 NL2SQL 流程中,实体检索被认为是影响整体准确率的最关键环节,其次是用户问题理解和修正机制。 这些发现凸显了以数据集为中心的方法和精心设计的流程对于提升 NL2SQL 系统能力的重要价值,并为用户实现直观、准确的数据交互铺平了道路。

    15210编辑于 2026-02-12
  • AI 数据分析如何保障准确性?构建可信数据基础成为关键

    但在当前市场中,大多数 ChatBI 产品依赖大模型直接生成 SQL 的技术路径(NL2SQL),普遍面临“大模型幻觉”导致的数据不可信问题——模型可能生成与事实不符、计算逻辑矛盾、口径不一致甚至完全虚构的数据结果 究其根本,在于 NL2SQL 方案的局限性。目前市面上主流的 NL2SQL 方案是直接将自然语言映射为 SQL,依赖表结构与字段名的精确匹配。 技术路径对比:NL2SQL vs NL2MQL2SQL 的本质差异1、NL2SQL:基于物理表的“概率生成”大模型直接解析用户问题,尝试从物理表结构中生成 SQL。 同一指标在不同场景下,也可能存在着不同的计算逻辑(如“销售额”是否含税),NL2SQL 技术路径则难以统一管理,无法保障数据和业务语义对齐。 传统 NL2SQL 模式下,业务人员看不懂 SQL,无法判断结果是否可信。

    47410编辑于 2025-11-25
  • 有哪些ChatBI产品使用了NL2DSL2SQL的技术路线,其市场成熟度如何?

     将自然语言转换为数据库查询的技术(称为 NL2SQL)已从一个新兴概念发展成为成熟且具有商业可行性的解决方案。 这种范式转变解决了直接 NL2SQL 方法的根本局限性,例如准确性低、存在安全风险以及无法处理复杂的企业数据模式。 1.2 从自然语言到 SQL(NL2SQL):直接方法第一代 NL2SQL 技术旨在通过将用户的纯英语查询转换为可执行的 SQL 语句来直接解决瓶颈问题。 在这种情况下,NL2SQL 的作用是简化和加速特定任务(例如数据探索或工作流程生成)的执行,而非唯一的价值主张。 已识别的风险: 与 NL2SQL 相关的主要安全风险是未经授权的数据访问、意外的数据修改和 SQL 注入攻击。

    71710编辑于 2025-10-17
  • 来自专栏NLP/KG

    NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧

    NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL]NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder 、Text2SQL开源应用实践详解NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL]NL2SQL进阶系列(3):Data-Copilot、Chat2DB、Vanna ]☆☆NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM)、新一代数据集BIRD-SQL解读NL2SQL实践系列(1):深入解析Prompt 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。

    81410编辑于 2024-04-18
  • 来自专栏NLP/KG

    NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧

    NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧 NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL] NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理 NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder 、Text2SQL开源应用实践详解 NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL] NL2SQL进阶系列(3):Data-Copilot、Chat2DB、 Vanna Text2SQL优化框架开源应用实践详解[Text2SQL] NL2SQL进阶系列(4):ConvAI、DIN-SQL等16个业界开源应用实践详解[Text2SQL] NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。

    3.6K11编辑于 2024-04-20
  • 来自专栏Python数据科学

    中文自动转SQL,准确率高达92%,这位Kaggle大师刷新世界纪录丨GitHub

    郭一璞 发自 南大仙林 量子位 报道 | 公众号 QbitAI 在追一科技主办的首届中文NL2SQL挑战赛上,又一项超越国外水平的NLP研究成果诞生了。 在NL2SQL这项任务上,比赛中的最佳成绩达到了92.19%的准确率,超过英文NL2SQL数据集WikiSQL目前91.8%的最高成绩。 NL2SQL最佳方法揭秘 NL2SQL,也就是把自然语言“翻译”成机器能理解的SQL语句,在人机交互中有巨大的价值,这样的成绩意味着,92.19%的情况下,你说的话都能被机器准确的理解,并给到你想要的答案 肖仰华教授说,现在阻碍大数据价值变现的最大难题就是访问数据门槛太高,依赖数据库管理员写复杂的SQL,而且考虑到中文的表述更加多样,中文NL2SQL要比英文难很多。 而在NL2SQL这个任务上,曾经在腾讯达到T4职级的刘云峰说,中文NL2SQL在比赛之前只有追一和微软两家,通过这场比赛,如果能达到众人拾柴火焰高的目的,就可以将这项技术推广出去了: “客户这边有一个钉子

    1K10发布于 2019-10-15
  • 来自专栏NLP/KG

    NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解Text2SQL

    NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解Text2SQLNL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL]NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder 、Text2SQL开源应用实践详解NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL]NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的SQL 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。 最终,DAIL-SQL在NL2SQL的国际权威榜单Spider上取得了86.6的执行准确率,比第二名的DIN-SQL高1.3个百分点。

    1.7K11编辑于 2024-04-12
  • 数据智能体目前能做到多少准确率?

    准确率的分类85-90%单表查询NL2SQL 平均水平60-70%多表查询纯 NL2SQL 瓶颈85-90%宽表覆盖范围预置宽表方案95%+多表查询本体 + 智能体路线二、各技术路线准确率对比技术路线准确率对比 (行业平均水平)纯 NL2SQL - 单表查询85-90%纯 NL2SQL - 多表查询60-70%预置宽表 - 宽表覆盖范围85-90%预置宽表 - 宽表外查询无法回答本体 + 智能体 - 单表查询98% +本体 + 智能体 - 多表查询95%+三、主流厂商准确率实测 字节 Data Agent(预置宽表 + NL2SQL)互联网大厂代表准确率水平:宽表覆盖范围内:85-90%宽表范围外:无法回答特点分析 六层语义定义解决业务术语理解问题热数据卡片机制支持知识积累自动质检环节验证结果一致性需要满血大模型算力(DeepSeek V3 671B 等)本地化部署,持续运营投入四、影响准确率的核心因素4.1 技术架构纯 NL2SQL 询问测试集规模、来源、方法)无法解释错误原因(出错后无法定位问题)没有知识积累机制(系统无法从历史中学习)准确率定义模糊(不说明是单表、多表、还是综合)宽表/指标方案不说明覆盖范围限制六、结论准确率现状:纯 NL2SQL

    24410编辑于 2026-03-16
  • NL2SQL解决了?别闹了!大模型让你和数据库聊天背后的真相

    今天我们就来揭秘一下,为什么企业级的NL2SQL技术远比你想象的复杂。 在NL2SQL的世界里,一句"显示销售详情"可能有一千种不同的SQL查询方式。让我们看看一个简单的例子:用户问: "最危险的地区在哪里?" 第四大挑战:基准测试的"掩耳盗铃"当考试题目本身就有问题现在我们来说说NL2SQL领域最大的问题之一:如何评估系统是否真的"聪明"。 第五大挑战:AI的"社会责任"问题当数据库里有"危险内容"AI时代的NL2SQL面临着前所未有的责任问题。 如果有了完美的NL2SQL系统,小张只需要说:"查询上月各部门业绩数据",系统就会:智能消歧:询问具体需求("您指的是自然月还是财务月?")

    72310编辑于 2025-12-12
  • 来自专栏深度学习与python

    解构智能问数:为什么 NL2SQL 不是终点,语义层才是破局关键?

    然而,一个普遍的误解是将智能问数简单地等同于“自然语言转 SQL”(NL2SQL)的 AI 问题——仿佛只要接入一个强大的 LLM,就能让业务人员轻松获得准确、一致且可解释的数据洞察。 语义层的引入是 NL2Semantic2SQL 相比 NL2SQL 的核心优势,它不仅提升了查询的准确性,还增强了系统的可解释性和业务人员的自助能力。 开发效率与维护成本的对比 基于传统物理数仓的 NL2SQL 路线在应对业务变化时,常常面临开发效率、数据质量与维护成本难以兼顾的挑战。 传统物理数仓的 NL2SQL 路线由于依赖人工 ETL 开发宽表和汇总表,导致指标定义分散在不同表中,口径难以统一。 总结来看,传统 NL2SQL 依赖人工宽表的模式,因维护成本高、口径碎片化难以适应敏捷需求。

    1.3K10编辑于 2025-06-24
  • 来自专栏智能问数技术路线全景分析

    数据智能体技术路线深度对比:本体神经网络 vs 预制指标平台

    技术路线二:NL2SQL路径NL2SQL(NaturalLanguagetoSQL)路径试图将自然语言直接转换为SQL查询语句。这种方法在单表查询场景下表现尚可,准确率能达到90%左右。 NL2SQL的主要挑战在于自然语言的歧义性和SQL语法的复杂性。用户在描述查询条件时往往不够精确,而系统需要准确理解字段关系、连接条件和聚合逻辑。 此外,NL2SQL方案通常需要大量的人工标注数据进行训练,且对数据库结构的变化较为敏感。代表厂家如火山引擎,通常配合人工预制宽表以提升跨表查询准确率。 技术路线查询准确性维护成本扩展性适用场景RAG召回低(基于文本提取)中等差静态知识问答NL2SQL中(单表高,多表低)高中等简单查询场景预制指标平台高(但范围受限)极高(指数级增长)差固定报表需求本体神经网络高

    11100编辑于 2026-03-18
领券