生成式人工智能与数据分析：从问题到查询

主页

关于

信息总览

新闻动态

详情

生成式人工智能与数据分析：从问题到查询

2025-08-06

一家全球领先的在线科技企业携手欧立腾（ALTEN），共同开发了一套可靠的框架，用于测试和增强大语言模型（LLM）的能力，确保在复杂数据集中实现精准、高效的自然语言转 SQL（NL2SQL）查询生成。该合作显著提升了 LLM 的查询准确率，使其能够更精确地将自然语言输入转化为有效的 SQL 语句。

挑战

在以数据为核心的决策时代，将自然语言转化为结构化查询语言（SQL）是 LLM 面临的一大难题。现有模型常会生成错误的 SQL 指令，造成数据不准确、决策失误或系统风险。这些问题包括：

因此，核心挑战在于提升 LLM 的自然语言转 SQL 能力，使其能够针对特定数据集生成准确且稳定的查询语句，确保系统的可靠性与安全性。

解决方案

欧立腾组建了专门的工程团队，基于系统化的基准测试方法，设计、验证并优化了 LLM 驱动的 NL2SQL 系统：

自动化基准测试框架（GAINS）：欧立腾开发了生成式 AI 基准系统（GAINS），用于评估和比较包括 ChatGPT、Gemini、Claude 3 在内的主流 LLM 在 SQL 生成中的表现；
提示词工程优化：优化提示设计，引导模型针对给定数据集生成准确且高效的 SQL；
定制数据集构建：创建专属行业数据集，生成高质量的自然语言与 SQL 配对数据，用于模型训练与微调；
模型训练与验证：通过反复测试与修正，识别并修复 SQL 输出及数据集中的错误；
数据库系统集成：在 Google BigQuery、Amazon Redshift、Databricks、Snowflake、MySQL、PostgreSQL 等主流平台上应用与验证成果；
持续优化机制：对模型结果进行长期对比与反馈调整，持续提升生成的准确性、可靠性与效率。

成果