业界正通过白皮书和实践案例逐步勾勒出AI智能体时代的数据架构演进蓝图
在传统架构中,业务场景(如高校教师画像)往往依赖数据仓库或中台系统,采用人工编写SQL查询或BI报表等手段来收集、处理和分析数据。这个过程需要专业的数据工程人员进行数据建模、ETL和报表开发,数据流转周期长,响应速度相对较慢。业务人员“拉”取数据(人拉数),只有在提出明确需求后才由系统提供分析结果。
引入AI智能体后,这种模式出现了根本性转变。智能体可以通过自然语言交互或预设目标,自动从多个数据库和API中检索数据并即时完成统计分析,甚至主动“推送”关键洞察给用户(AI推数)。例如,在教师画像场景下,AI智能体可理解用户提问后,自动组合调用相关数据源,生成分析报告并进行可视化展示,无需用户手动编写查询语句。智能体能够跨系统协同工作,快速处理结构化和非结构化数据,并结合最新模型算法提供智能推荐。总体而言,AI智能体时代下,数据库架构正从以往的被动响应转向主动服务,极大提高了数据处理的自动化和实时性。
AI智能体关键技术:Function Calling、MCP与Agent-Agent协议
AI智能体的核心在于与外部系统的协作能力。Function Calling机制允许大型语言模型(LLM)在生成过程中调用外部函数或API。例如,当用户提问需要数据库查询时,模型会输出一个预定义函数名和参数(如调用get_student_stats(student_id)),外部平台接收到后执行实际查询并将结果返给模型。这一机制并非模型自身能力,而是开发者在模型外围提供的中间层,使得模型能够“调用”各种工具和服务完成任务。
为规范这一交互过程,MCP协议(Model Context Protocol,大模型上下文协议)由Anthropic提出,定义了LLM与外部数据源或工具交互的标准接口。通过MCP,语言模型可以实时访问数据库、API或其他知识库,并保证数据调用的安全合规。MCP支持多种传输方式(如STDIO、服务器推送事件等),使得大模型可以在不同系统架构间灵活使用外部资源。
另一方面,为实现多智能体间的协作,Agent-Agent协议(也称A2A,Agent-to-Agent协议)成为关键。Google在2025年提出了开源的A2A协议,旨在让不同平台和框架中的AI智能体彼此通信与协作。通过A2A协议,多个智能体可以跨越组织或技术边界,以统一的标准交换信息、分配任务并反馈结果。例如,图示中两个不同平台的智能体通过A2A协议互联(蓝色箭头),在底层还可通过MCP协议访问企业API和应用。A2A协议内置企业级安全认证和授权机制,确保在跨系统协同时保护数据隐私。
图1 Agent-Agent协议
总的来看,Function Calling、MCP和A2A三者各有侧重:Function Calling针对单一模型调用具体功能,MCP让模型与外部数据源互通,A2A则实现多智能体间的标准化协作。三者协同使用可以构建起多Agent体系中的信息流和任务流,实现从请求接入、数据交互到任务协调的全流程自动化。
AI智能体架构
AI智能体通常由多个模块组成:Prompt模板(定义任务和场景)、规划/推理模块(借助LLM进行决策)、执行工具(调用数据库、API、计算任务)和记忆模块(保存中间结果和历史信息)。如图2所示,智能体根据用户指令启动规划流程,LLM模型负责逻辑推理并输出行动方案,然后Agent调用相应的工具进行具体操作,并将重要信息写入记忆以备后续使用。阿里云等业界专家指出,AI智能体正从单一Agent体系快速演进到多智能体协同平台,越来越强调以数据为核心的策略。这意味着未来的智能体系统将拥有更完善的内部结构和协作机制,以支持更复杂的业务场景和持续学习优化。
图2 智能体架构
AI智能体驱动下的新数据架构层级
面向AI智能体的数据库架构需要重新分层以满足协同和高效访问的要求。可粗略划分为四个层级:
交互层:为AI智能体与数据库系统之间提供统一的接口和服务。这层负责接收智能体的查询请求或数据写入需求,将其转换为数据库能够理解的指令,并将结果返回。数据交互层可包含语义层和API网关,屏蔽底层异构数据源的差异。
协调层:承担多智能体任务调度与信息交换的功能。协调层内部基于A2A协议等实现智能体的发现、注册与通信,负责任务分配和依赖关系管理。它使多个智能体可以并发或串行地执行任务,并实时共享中间结果。通过协调层,智能体之间的协作和资源分配可以动态优化,类似微服务编排引擎的角色。
操作层:执行具体的数据库操作和业务逻辑。这一层接收来自协调层的指令,由执行工具(如数据库引擎、数据分析引擎、向量检索引擎等)完成实际的数据查询、计算或变更操作。操作层聚焦高效处理单个任务,支持事务、流式计算、向量检索等多种计算模型,保证数据处理的可靠性和性能。
存取层:底层物理存储层,管理数据的持久化存储和访问。这包括传统的数据仓库、数据湖、NoSQL数据库、向量数据库等。存取层负责数据的底层组织、索引和安全管理,并通过标准接口(如JDBC/ODBC、对象存储API等)提供数据读写服务。在智能体架构中,存取层可能进一步演进为分布式、去中心化的存储系统,以支持可扩展的并发访问。
这种四层架构(交互→协调→操作→存取)使得AI智能体系统具备较好的解耦和弹性。数据交互层和操作层聚焦数据的输入输出与处理效率,协调层处理多Agent的协作逻辑,存取层则保障数据安全与高可用。通过这样的分层设计,可以有效支撑大规模、多Agent的协同业务场景,同时也有利于数据治理和系统维护。
从“人拉数”到“AI推数”的本质转变
过去的数据架构强调人主动拉数据:只有用户在BI系统提出需求时,才通过ETL管道检索并计算数据;最终结果也只是简单报表或仪表盘,许多数据静默于底层未被深入挖掘。AI智能体时代,这种方式转变为AI自动推数据:智能体会基于业务场景和用户角色主动执行分析任务。
例如,科研管理场景下,以往需数据人员周期性生成研究产出统计报表;而通过AI智能体,可以让系统在每季度结束时自动提取课题成果、项目进度等指标,甚至在指标出现异常时自动发出预警和优化建议,而无需人类触发查询。这种从被动“拉取”到主动“推送”的转变,离不开多智能体对数据的持续监控和主动调度能力。智能体可以实时利用最新数据和模型,随时为用户提供个性化洞察,大大提高了数据价值的利用效率。在这个过程中,数据架构要能支持更高频次的数据访问和实时分析,否则将难以跟上“人人可用数据”的需求。
数据“可用不可见”的协同模式与数据安全
多智能体协作环境下,常见的数据保护理念是“可用不可见”:即数据能够被算法安全使用,但原始数据对外部智能体不可见。国家相关政策明确要求“原始数据不出域、数据可用不可见”,强调在数据流通中通过模型和验证等技术提供数据服务,同时保护隐私和主权。具体而言,AI智能体往往通过隐私计算、同态加密、联邦学习等技术对数据进行使用。这样,智能体可执行跨域计算或模型训练,却不会泄露敏感原始信息,从而保障数据提供方的安全和权益。
例如,在一个多院校联合科研平台上,某院校的数据可以留在本地服务器,AI智能体通过联邦模型从各方“学习”科研趋势,而无需把所有原始数据汇聚。政策文件指出,高价值、高敏感数据应保证“可控可计量、可溯可审计”的同时保持“可用不可见”。这意味着AI智能体方案设计中必须嵌入数据控制策略和审计机制,确保即使在多方协同分析时,数据主权和安全需求也能得到满足。采用这一模式,既支持智能体灵活获取数据价值,又符合数据安全等合规要求,成为保障数据安全的关键手段。
新架构对数据中台、数据仓库与数据湖的影响
AI智能体架构的兴起对传统数据平台提出了挑战和重塑要求。传统数据中台强调统一的数据管理和复用,但在多智能体协同时代,这种单一中枢式架构容易成为性能瓶颈和单点故障。阿里巴巴等企业发现,过去各行业将大量应用迁往基于Hadoop的大数据平台,但随着私有化Hadoop衰落和云计算兴起,云数仓和湖仓一体化架构快速兴起,导致“数据仓库”技术流派分裂。面对AI场景,新架构需要更好的弹性和分布式能力。
传统数据仓库/数据湖多依赖批量ETL和预定义模型,在实时性和多模态数据支持上有限。最新研究认为,AI时代要求数据平台能同时支持高维向量检索与低延迟事务处理。这促使出现“AI原生数据库”或湖仓一体技术路线,统一管理结构化和非结构化数据,以减少数据复制和同步成本。同时,越来越多组织转向数据网格(Data Mesh)等联邦式架构,通过域为单位自主管理数据产品,并以一致的治理策略串联全局。这种架构可以将数据所有权下沉到业务团队,提高灵活性和可扩展性,适配AI智能体跨域高并发访问的需求。
总之,未来数据平台可能演化为以“数据产品+联邦治理”为核心的新模式:数据湖和仓库被拆分成多个可组合的数据服务,数据中台的角色则转为制定标准、提供公共服务的治理平台。这一演进路径既考虑AI场景的实时性和多样性,也兼顾数据质量与安全,可视为对传统中台模式的补充与升级。
业界实践与案例参考
多家厂商和机构正在探索AI与数据平台融合的实践经验。MongoDB在其AI数据库方案中集成了原生Function Calling能力,使开发者可通过大语言模型直接发出自然语言查询请求,系统通过Text2SQL模块自动生成对应语句并返回结果。这种方式简化了数据操作流程,也使数据库可以直接服务于智能体体系,支持向量检索、图谱构建等AI功能,已在多个SaaS平台中落地。阿里云尝试构建“Agent-as-a-Service”平台,以“数据为中心”组装各业务Agent(如预算Agent、人事Agent、合同Agent)。每个Agent暴露标准能力,通过数据协调层调度任务,在MCP协议支持下执行权限校验、数据调用、任务反馈等。平台中不要求数据集中化,而是以“数据不出域”的理念完成各部门之间的智能协同与分析服务,广泛应用于集团内部管理报表和自动审计场景。Alation的专业报告也强调,支持智能体的现代数据架构应走向域驱动的分布式治理模式,以提供实时、可信的数据服务。此外,学术界和产业界的AI原生数据库研究也表明,数据库系统需要集成AI特性,如自动化优化和原生向量索引,以满足生成式AI应用对数据处理的新要求。
综上,可见业界正通过白皮书和实践案例,逐步勾勒出AI智能体时代的数据架构演进蓝图。从注重统一存储和ETL的传统模式,到强调分布式数据产品与协同治理的新模式,数据库架构在不断适应AI带来的挑战。本文所述的技术协议和分层架构,结合上述案例经验,为企业和高校在构建智能化数据平台时提供了参考思路。
来源:《中国教育网络》2025年6月刊
作者:王玉平
责编:陈茜