生成式人工智能与数据分析:从问题到查询
2025-08-06

一家全球领先的在线科技企业携手欧立腾(ALTEN),共同开发了一套可靠的框架,用于测试和增强大语言模型(LLM)的能力,确保在复杂数据集中实现精准、高效的自然语言转 SQL(NL2SQL)查询生成。该合作显著提升了 LLM 的查询准确率,使其能够更精确地将自然语言输入转化为有效的 SQL 语句。
挑战
在以数据为核心的决策时代,将自然语言转化为结构化查询语言(SQL)是 LLM 面临的一大难题。现有模型常会生成错误的 SQL 指令,造成数据不准确、决策失误或系统风险。这些问题包括:
- 向客户或管理层提供错误信息
- 误导性数据影响关键决策
- 数据库崩溃或数据完整性受损
- 合规风险及敏感信息泄露
因此,核心挑战在于 提升 LLM 的自然语言转 SQL 能力,使其能够针对特定数据集生成准确且稳定的查询语句,确保系统的可靠性与安全性。
解决方案
欧立腾组建了专门的工程团队,基于系统化的基准测试方法,设计、验证并优化了 LLM 驱动的 NL2SQL 系统:
- 自动化基准测试框架(GAINS): 欧立腾开发了 生成式 AI 基准系统(GAINS),用于评估和比较包括 ChatGPT、Gemini、Claude 3 在内的主流 LLM 在 SQL 生成中的表现;
- 提示词工程优化: 优化提示设计,引导模型针对给定数据集生成准确且高效的 SQL;
- 定制数据集构建: 创建专属行业数据集,生成高质量的自然语言与 SQL 配对数据,用于模型训练与微调;
- 模型训练与验证: 通过反复测试与修正,识别并修复 SQL 输出及数据集中的错误;
- 数据库系统集成: 在 Google BigQuery、Amazon Redshift、Databricks、Snowflake、MySQL、PostgreSQL 等主流平台上应用与验证成果;
- 持续优化机制: 对模型结果进行长期对比与反馈调整,持续提升生成的准确性、可靠性与效率。
成果
- 查询准确率显著提升: LLM 能够精准地生成符合自然语言需求的 SQL;
- AI 框架标准化: 欧立腾的 GAINS 系统为 LLM 性能评估提供了可重复、透明且可量化的评估标准;
- 效率提升: 自动化验证减少了人工调试,节省时间与成本;
- 商业信任增强: 可靠的数据查询能力提升了企业决策的可信度与数据治理水平;
- 可扩展应用: 该方法论可推广至其他 AI 驱动的数据分析领域。
凭借在生成式 AI 与数据工程方面的深厚经验,欧立腾正在打通自然语言理解与结构化数据分析之间的壁垒,帮助企业将“问题”转化为“可执行的答案”。

EN






















