EN
生成式人工智能与数据分析:从问题到查询
2025-08-06

一家全球领先的在线科技企业携手欧立腾(ALTEN),共同开发了一套可靠的框架,用于测试和增强大语言模型(LLM)的能力,确保在复杂数据集中实现精准、高效的自然语言转 SQL(NL2SQL)查询生成。该合作显著提升了 LLM 的查询准确率,使其能够更精确地将自然语言输入转化为有效的 SQL 语句。

 

挑战

在以数据为核心的决策时代,将自然语言转化为结构化查询语言(SQL)是 LLM 面临的一大难题。现有模型常会生成错误的 SQL 指令,造成数据不准确、决策失误或系统风险。这些问题包括:

  • 向客户或管理层提供错误信息
  • 误导性数据影响关键决策
  • 数据库崩溃或数据完整性受损
  • 合规风险及敏感信息泄露

因此,核心挑战在于 提升 LLM 的自然语言转 SQL 能力,使其能够针对特定数据集生成准确且稳定的查询语句,确保系统的可靠性与安全性。

 

解决方案

欧立腾组建了专门的工程团队,基于系统化的基准测试方法,设计、验证并优化了 LLM 驱动的 NL2SQL 系统:

  • 自动化基准测试框架(GAINS): 欧立腾开发了 生成式 AI 基准系统(GAINS),用于评估和比较包括 ChatGPT、Gemini、Claude 3 在内的主流 LLM 在 SQL 生成中的表现;
  • 提示词工程优化: 优化提示设计,引导模型针对给定数据集生成准确且高效的 SQL;
  • 定制数据集构建: 创建专属行业数据集,生成高质量的自然语言与 SQL 配对数据,用于模型训练与微调;
  • 模型训练与验证: 通过反复测试与修正,识别并修复 SQL 输出及数据集中的错误;
  • 数据库系统集成: 在 Google BigQuery、Amazon Redshift、Databricks、Snowflake、MySQL、PostgreSQL 等主流平台上应用与验证成果;
  • 持续优化机制: 对模型结果进行长期对比与反馈调整,持续提升生成的准确性、可靠性与效率。

 

成果

  • 查询准确率显著提升: LLM 能够精准地生成符合自然语言需求的 SQL;
  • AI 框架标准化: 欧立腾的 GAINS 系统为 LLM 性能评估提供了可重复、透明且可量化的评估标准;
  • 效率提升: 自动化验证减少了人工调试,节省时间与成本;
  • 商业信任增强: 可靠的数据查询能力提升了企业决策的可信度与数据治理水平;
  • 可扩展应用: 该方法论可推广至其他 AI 驱动的数据分析领域。

凭借在生成式 AI 与数据工程方面的深厚经验,欧立腾正在打通自然语言理解与结构化数据分析之间的壁垒,帮助企业将“问题”转化为“可执行的答案”。