AI智能体对数据库架构变革的影响分析-中国教育和科研计算机网CERNET

资讯

校园信息化

技术

资源与应用

产品与装备

信息服务

首页 > 教育信息化 > 技　　术 > 人工智能AI

AI智能体对数据库架构变革的影响分析

2025-08-12 中国教育网络

　　业界正通过白皮书和实践案例逐步勾勒出AI智能体时代的数据架构演进蓝图

　　在传统架构中，业务场景（如高校教师画像）往往依赖数据仓库或中台系统，采用人工编写SQL查询或BI报表等手段来收集、处理和分析数据。这个过程需要专业的数据工程人员进行数据建模、ETL和报表开发，数据流转周期长，响应速度相对较慢。业务人员“拉”取数据（人拉数），只有在提出明确需求后才由系统提供分析结果。

　　引入AI智能体后，这种模式出现了根本性转变。智能体可以通过自然语言交互或预设目标，自动从多个数据库和API中检索数据并即时完成统计分析，甚至主动“推送”关键洞察给用户（AI推数）。例如，在教师画像场景下，AI智能体可理解用户提问后，自动组合调用相关数据源，生成分析报告并进行可视化展示，无需用户手动编写查询语句。智能体能够跨系统协同工作，快速处理结构化和非结构化数据，并结合最新模型算法提供智能推荐。总体而言，AI智能体时代下，数据库架构正从以往的被动响应转向主动服务，极大提高了数据处理的自动化和实时性。

　　AI智能体关键技术：Function Calling、MCP与Agent-Agent协议

　　AI智能体的核心在于与外部系统的协作能力。Function Calling机制允许大型语言模型（LLM）在生成过程中调用外部函数或API。例如，当用户提问需要数据库查询时，模型会输出一个预定义函数名和参数（如调用get_student_stats(student_id)），外部平台接收到后执行实际查询并将结果返给模型。这一机制并非模型自身能力，而是开发者在模型外围提供的中间层，使得模型能够“调用”各种工具和服务完成任务。

　　为规范这一交互过程，MCP协议（Model Context Protocol，大模型上下文协议）由Anthropic提出，定义了LLM与外部数据源或工具交互的标准接口。通过MCP，语言模型可以实时访问数据库、API或其他知识库，并保证数据调用的安全合规。MCP支持多种传输方式（如STDIO、服务器推送事件等），使得大模型可以在不同系统架构间灵活使用外部资源。

　　另一方面，为实现多智能体间的协作，Agent-Agent协议（也称A2A，Agent-to-Agent协议）成为关键。Google在2025年提出了开源的A2A协议，旨在让不同平台和框架中的AI智能体彼此通信与协作。通过A2A协议，多个智能体可以跨越组织或技术边界，以统一的标准交换信息、分配任务并反馈结果。例如，图示中两个不同平台的智能体通过A2A协议互联（蓝色箭头），在底层还可通过MCP协议访问企业API和应用。A2A协议内置企业级安全认证和授权机制，确保在跨系统协同时保护数据隐私。

图1 Agent-Agent协议

　　总的来看，Function Calling、MCP和A2A三者各有侧重：Function Calling针对单一模型调用具体功能，MCP让模型与外部数据源互通，A2A则实现多智能体间的标准化协作。三者协同使用可以构建起多Agent体系中的信息流和任务流，实现从请求接入、数据交互到任务协调的全流程自动化。

　　AI智能体架构

　　AI智能体通常由多个模块组成：Prompt模板（定义任务和场景）、规划/推理模块（借助LLM进行决策）、执行工具（调用数据库、API、计算任务）和记忆模块（保存中间结果和历史信息）。如图2所示，智能体根据用户指令启动规划流程，LLM模型负责逻辑推理并输出行动方案，然后Agent调用相应的工具进行具体操作，并将重要信息写入记忆以备后续使用。阿里云等业界专家指出，AI智能体正从单一Agent体系快速演进到多智能体协同平台，越来越强调以数据为核心的策略。这意味着未来的智能体系统将拥有更完善的内部结构和协作机制，以支持更复杂的业务场景和持续学习优化。

图2 智能体架构

　　AI智能体驱动下的新数据架构层级

　　面向AI智能体的数据库架构需要重新分层以满足协同和高效访问的要求。可粗略划分为四个层级：

　　交互层：为AI智能体与数据库系统之间提供统一的接口和服务。这层负责接收智能体的查询请求或数据写入需求，将其转换为数据库能够理解的指令，并将结果返回。数据交互层可包含语义层和API网关，屏蔽底层异构数据源的差异。

　　协调层：承担多智能体任务调度与信息交换的功能。协调层内部基于A2A协议等实现智能体的发现、注册与通信，负责任务分配和依赖关系管理。它使多个智能体可以并发或串行地执行任务，并实时共享中间结果。通过协调层，智能体之间的协作和资源分配可以动态优化，类似微服务编排引擎的角色。

　　操作层：执行具体的数据库操作和业务逻辑。这一层接收来自协调层的指令，由执行工具（如数据库引擎、数据分析引擎、向量检索引擎等）完成实际的数据查询、计算或变更操作。操作层聚焦高效处理单个任务，支持事务、流式计算、向量检索等多种计算模型，保证数据处理的可靠性和性能。

　　存取层：底层物理存储层，管理数据的持久化存储和访问。这包括传统的数据仓库、数据湖、NoSQL数据库、向量数据库等。存取层负责数据的底层组织、索引和安全管理，并通过标准接口（如JDBC/ODBC、对象存储API等）提供数据读写服务。在智能体架构中，存取层可能进一步演进为分布式、去中心化的存储系统，以支持可扩展的并发访问。

　　这种四层架构（交互→协调→操作→存取）使得AI智能体系统具备较好的解耦和弹性。数据交互层和操作层聚焦数据的输入输出与处理效率，协调层处理多Agent的协作逻辑，存取层则保障数据安全与高可用。通过这样的分层设计，可以有效支撑大规模、多Agent的协同业务场景，同时也有利于数据治理和系统维护。

　　从“人拉数”到“AI推数”的本质转变

　　过去的数据架构强调人主动拉数据：只有用户在BI系统提出需求时，才通过ETL管道检索并计算数据；最终结果也只是简单报表或仪表盘，许多数据静默于底层未被深入挖掘。AI智能体时代，这种方式转变为AI自动推数据：智能体会基于业务场景和用户角色主动执行分析任务。

　　例如，科研管理场景下，以往需数据人员周期性生成研究产出统计报表；而通过AI智能体，可以让系统在每季度结束时自动提取课题成果、项目进度等指标，甚至在指标出现异常时自动发出预警和优化建议，而无需人类触发查询。这种从被动“拉取”到主动“推送”的转变，离不开多智能体对数据的持续监控和主动调度能力。智能体可以实时利用最新数据和模型，随时为用户提供个性化洞察，大大提高了数据价值的利用效率。在这个过程中，数据架构要能支持更高频次的数据访问和实时分析，否则将难以跟上“人人可用数据”的需求。

　　数据“可用不可见”的协同模式与数据安全

　　多智能体协作环境下，常见的数据保护理念是“可用不可见”：即数据能够被算法安全使用，但原始数据对外部智能体不可见。国家相关政策明确要求“原始数据不出域、数据可用不可见”，强调在数据流通中通过模型和验证等技术提供数据服务，同时保护隐私和主权。具体而言，AI智能体往往通过隐私计算、同态加密、联邦学习等技术对数据进行使用。这样，智能体可执行跨域计算或模型训练，却不会泄露敏感原始信息，从而保障数据提供方的安全和权益。

　　例如，在一个多院校联合科研平台上，某院校的数据可以留在本地服务器，AI智能体通过联邦模型从各方“学习”科研趋势，而无需把所有原始数据汇聚。政策文件指出，高价值、高敏感数据应保证“可控可计量、可溯可审计”的同时保持“可用不可见”。这意味着AI智能体方案设计中必须嵌入数据控制策略和审计机制，确保即使在多方协同分析时，数据主权和安全需求也能得到满足。采用这一模式，既支持智能体灵活获取数据价值，又符合数据安全等合规要求，成为保障数据安全的关键手段。

　　新架构对数据中台、数据仓库与数据湖的影响

　　AI智能体架构的兴起对传统数据平台提出了挑战和重塑要求。传统数据中台强调统一的数据管理和复用，但在多智能体协同时代，这种单一中枢式架构容易成为性能瓶颈和单点故障。阿里巴巴等企业发现，过去各行业将大量应用迁往基于Hadoop的大数据平台，但随着私有化Hadoop衰落和云计算兴起，云数仓和湖仓一体化架构快速兴起，导致“数据仓库”技术流派分裂。面对AI场景，新架构需要更好的弹性和分布式能力。

　　传统数据仓库/数据湖多依赖批量ETL和预定义模型，在实时性和多模态数据支持上有限。最新研究认为，AI时代要求数据平台能同时支持高维向量检索与低延迟事务处理。这促使出现“AI原生数据库”或湖仓一体技术路线，统一管理结构化和非结构化数据，以减少数据复制和同步成本。同时，越来越多组织转向数据网格（Data Mesh）等联邦式架构，通过域为单位自主管理数据产品，并以一致的治理策略串联全局。这种架构可以将数据所有权下沉到业务团队，提高灵活性和可扩展性，适配AI智能体跨域高并发访问的需求。

　　总之，未来数据平台可能演化为以“数据产品+联邦治理”为核心的新模式：数据湖和仓库被拆分成多个可组合的数据服务，数据中台的角色则转为制定标准、提供公共服务的治理平台。这一演进路径既考虑AI场景的实时性和多样性，也兼顾数据质量与安全，可视为对传统中台模式的补充与升级。

　　业界实践与案例参考

　　多家厂商和机构正在探索AI与数据平台融合的实践经验。MongoDB在其AI数据库方案中集成了原生Function Calling能力，使开发者可通过大语言模型直接发出自然语言查询请求，系统通过Text2SQL模块自动生成对应语句并返回结果。这种方式简化了数据操作流程，也使数据库可以直接服务于智能体体系，支持向量检索、图谱构建等AI功能，已在多个SaaS平台中落地。阿里云尝试构建“Agent-as-a-Service”平台，以“数据为中心”组装各业务Agent（如预算Agent、人事Agent、合同Agent）。每个Agent暴露标准能力，通过数据协调层调度任务，在MCP协议支持下执行权限校验、数据调用、任务反馈等。平台中不要求数据集中化，而是以“数据不出域”的理念完成各部门之间的智能协同与分析服务，广泛应用于集团内部管理报表和自动审计场景。Alation的专业报告也强调，支持智能体的现代数据架构应走向域驱动的分布式治理模式，以提供实时、可信的数据服务。此外，学术界和产业界的AI原生数据库研究也表明，数据库系统需要集成AI特性，如自动化优化和原生向量索引，以满足生成式AI应用对数据处理的新要求。

　　综上，可见业界正通过白皮书和实践案例，逐步勾勒出AI智能体时代的数据架构演进蓝图。从注重统一存储和ETL的传统模式，到强调分布式数据产品与协同治理的新模式，数据库架构在不断适应AI带来的挑战。本文所述的技术协议和分层架构，结合上述案例经验，为企业和高校在构建智能化数据平台时提供了参考思路。

　　来源：《中国教育网络》2025年6月刊

　　作者：王玉平

　　责编：陈茜

　　特别声明：本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者在两周内速来电或来函联系。