数澜科技联合创始人白松:大模型赋能数据中台

 新闻资讯     |      2024-01-10 09:07

  数澜科技联合创始人白松:大模型赋能数据中台打造企业智能大脑本文由数澜科技联合创始人白松撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。

  自ChatGPT惊艳问世后,2023年全球已进入“百模大战”时代。随着模型规模的不断增大,大模型涌现出上下文学习、推理、思维链等类似人类思维方式的多种能力。2023年越来越多的研究者开始把大模型作为AI智能体的核心大脑,并结合已有的工具来解决非常复杂的业务问题。正如OpenAI联合创始人安德烈·卡帕斯所说,在各行各业对数字化实体的打造进程中,将广泛采用AI 智能体的产品形式来开展业务。因此,本文将探讨在2024年基于“大模型+大数据”双引擎驱动的模式,借助大模型智能体来助力数据中台进行升级变革,使业务人员可以“零代码”来构建企业的智能大脑。

  AI智能体是一种能够感知环境、进行决策和执行动作的智能实体,旨在大模型技术的驱动下,让人们以自然语言为交互方式自动化的处理复杂工作任务,从而极大程度释放人员精力。它被设计为具有独立思考和行动能力的AI程序,使用时只需要提供一个目标,比如比较Meta和Tesla两家公司年初至今股价的变化并保存为一张图,它就会自我思考后产生一系列的子任务,分别是查询当前时间、查看两家公司至今的股价变化数据以及把结果画一张图并保存。

  当前已经进化到多智能体沟通协作的时代,其中以微软的AutoGen框架为代表,它支持使用多个代理开发大模型应用程序,这些代理可以像人类一样相互沟通协作以解决任务。AutoGen代理是可定制的、可对话的,能够通过代理间的对话集体解决任务。这些可对话代理是具有特定角色的实体,能够向其他代理发送和接收消息以互相沟通协作,例如定义产品经理、开发、测试、人类四种代理角色来完成一个业务应用的研发,其中人类代理可以在交互过程中不断给出反馈。

  在大模型时代,所有的软件都有必要进行升级或者重构,数据中台也不例外。因此本节探讨基于大模型及智能体技术,大模型如何助力数据中台进行演进,而数据中台的数据又会源源不断流进大模型对其进行反馈和优化,两者相辅相成,不断演进,最终构建出强大的中台大脑。两者的协同进化按照深度分为三个层次: 数据中台AI开发助手、基于数据增强的智能中台引擎和存储计算的变革升级。

  由于大模型出色的自然语言理解能力及可生成高质量代码,因此在第一层次上把大模型作为数据中台的辅助工具,即AI开发助手,来提升开发人员的效率。例如用自然语言来快速生成作业代码,以及基于“API链”技术来通过语音的方式来操控数据中台。

  在第二层次上会基于AI智能体技术把大语言模型作为大脑、数据中台作为工具,同时把数据中台已有的数据告知大模型,这样大模型和数据中台两者通过不断进行交互,以及结合过程中人类的反馈不断进行学习,最终构造出智能化的数据中台引擎。例如让大模型结合数据中台已沉淀的元数据、作业代码和运行日志等来微调出专有Text2Code工具,当大模型输出代码显示给用户后,人类再进行反馈或者运行,运行出错后的错误信息也可反馈给大模型重新生成新的改进代码。另外,还可以在数据分级分类、作业调度、资源优化、中台知识库RAG等方面进行更深层次的探索和应用。

  最后一个层次是利用大模型智能体技术对大数据计算、存储引擎进行变革升级,让他们提供极简的操作以及更加自主智能化。例如通过智能体技术把Flink和大语言模型封装出FlinkGPT,它可以支持用自然语言来创建自定义函数。同样,在数据存储发面,可以用大模型进行数据生命周期管理,根据数据的使用频率自主决定数据的存储介质,以降低数据的存储成本。

  基于大模型驱动的数据中台,能让AI和数据双平民化,因此本节探讨在新技术变革下,企业如何以“懂数据”的业务人员为主导来构建企业数据图谱和智能大脑,能极大加快企业的数据化建设进程,并提升企业的智能化水平。

  大模型的出现让AI平民化,通过AI智能体把大模型和数据中台连通后,能实现数据平民化,构建出面向企业业务人员的智能数据中台。在企业当中数据由业务产生,因此业务人员对数据的理解是最懂、最深的,但以前由于技术的限制,业务人员无法直接探索数据、洞察数据、以及利用数据产生新的业务价值,这极大阻碍企业的数字化转型。大模型及智能体的出现,就可以让业务人员通过自然语言的交互方式来操作数据,充分发挥会业务人员对数据的理解价值,使他们成为企业数据化转型升级的关键人才。

  当前很多企业在数字化转型的进程中,数据仓库已积累出大量的数据,但是这些数据绝大多数没有连接起来导致企业决策者难以掌握全局的数据图谱。基于大模型智能体技术的数据平民化策略,业务人员根据自己对数据的理解,以自然语言的方式告知大模型数据间的业务关联关系,然后大模型再结合学习到的数据中台里面的元数据、数据血缘、样本数据等知识,就能自主构建出企业的数据链条图谱,让企业决策者、业务人员看清楚每一条数据的流动节点和动向,进而进行企业的精细化管控。下图是某大型制造企业在财务应收应付环节,业务人员基于大模型智能体技术构建出的数据链条,能清楚的看到每一笔交易在业务环节、财务环节和资金环节中的十多个业务系统的流转,为下面的企业大脑建设做好数据铺垫。

  构建出企业数据图谱后,业务人员便可借助大模型智能体的Text2SQL技术用自然语言来创建数据监控规则。当前大模型的代码生成能力也已足够强大,因此在规则层面除SQL方式外,还可以生成集成机器学习、自然语言处理、深度学习等算法的智能规则。随着企业数据中台中沉淀的数据、规则的不断增加,以及运行过程中的人类操作反馈,数据中台会把这些数据给到大模型,大模型通过学习会基于对数据和规则的深度理解,后续便可以自主构建出监控规则,能极大提升企业数据化建设的效率。并且随着时间的推移,数据中台和大模型交互的不断沟通加深,便能帮助企业决策者进行智能、自主决策,成为真正的企业智能大脑。

  2024年AI智能体仍会是高速发展的一年,且会作为连接数据中台和大模型的桥梁,让大模型助力数据中台真正AI化,构建企业智能新未来。

  白松,数澜科技联合创始人、研发中心副总经理,杭州市高层次人才,华数数字电视传媒集团投资决策委员会专家。硕士毕业于西北工业大学,在大数据、实时计算和大模型等领域拥有十年研发经验。2023年于SCI期刊Sensors上发表学术论文,作为演讲嘉宾出席Apache CommunityOverCode 2023和Flink Forward 2023亚洲大会。现负责数澜科技核心产品——数栖平台和数栖EMR的研发工作,数栖产品已成为数百家国内外客户建设数据中台的基础设施。曾担任河南省大数据中心、中信集团、三一集团、万科集团、富士康集团、浙江交投集团等单位和公司的数据中台相关项目总技术负责人。