第二届职工大赛获奖选手作品展播——“数据开发利用”项目二等奖吕磊
来源: | 作者:scbigdata | 发布时间: 2023-12-11 | 1757 次浏览 | 分享到:
吕磊,成都超有范儿科技有限公司研究院院长。成都市健康码支付端核心建设者,微信端:高新区,天府新区,郫都区健康码核心建设者;成都亿元消费券发放的支付宝端核心建设者。2022年“数字基座”产品获最具市场热度解决方案奖;2022年“疫情防控平台”获最具人气产品奖。

11月30日,川渝大数据产业第二届职工创新大赛决赛在中国·雅安大数据产业园开赛,31位选手同台竞技,最终遴选出一等奖两位,二等奖四位,三等奖六位。四川省大数据产业联合会微信公众号将连续展播获奖选手的作品,让更多的人了解到他们在大数据领域的创新成果和独特见解。这些作品涵盖了大数据分析、数据挖掘、人工智能等多个领域,充分展示了川渝地区大数据产业的创新能力和发展潜力。

“数据开发利用”二等奖

选手简介:吕磊,成都超有范儿科技有限公司研究院院长。成都市健康码支付端核心建设者,微信端:高新区,天府新区,郫都区健康码核心建设者;成都亿元消费券发放的支付宝端核心建设者。2022年“数字基座”产品获最具市场热度解决方案奖;2022年“疫情防控平台”获最具人气产品奖。






劳动创新成果

SFAI-AGENT 人工智能应用数据工具链

一、产品背景

根据《“十四五”数字经济发展规划》明确提出要充分发挥数据要素作用、强化高质量数据要素供给,加快数据要素市场化流通,创新数据要素开发利用机制;加快构建数据要素市场规则,培育市场主体,完善治理体系,到2025年初步建立数据要素市场体系。

数据只有在流通和再产生循环中,才能产生其商业价值和社会价值。本项目SFAI_AGENT是一套基于人工智能技术的大数据工具中间件,它融合了大模型时代的AI Agent的特点,旨在解决数据要素流通和数据开发利用场景中的痛点问题。

二、产品概述

SFAI_AGENT具备可信数据流通管道,上下文感知、推理能力和大模型支持等能力,为开发者提供了强大的工具来构建智能应用程序。

(一)可信数据流通管道

在确保数据安全的前提下,建立可信的数据流通路径,以及探索出一套合理的数据资产服务化管理模式,是本案重要特点;这种数据交汇服务一般有三种模式,第一种是建立可信数据交易流通路径:建立一套兼容各行各业数据,按标准对数据分级分类,数据权属明确,交易过程可信可追溯,交易后防滥用的数据流通体系,实现全域、跨界、综合、协同、高效、安全的数据交易流通需求。第二种模式是,数据不出域,支持让模型动而数据不动,实现“原始数据不出域、数据可用不可见”的交易范式。第三种模式是,系统提供安全的计算沙盒,数据使用方可以购买数据的使用权,在沙盒中使用数据。SFAI_AGENT采用第一种模式,并提出和实现数据“一体两翼”的设计思想。

(二)上下文感知

SFAI_AGENT通过将语言模型连接到上下文来源,使其能够感知上下文信息。这意味着它能够理解提示指令、少量示例以及基于内容的响应等上下文信息。通过上下文感知功能,SFAI_AGENT能够更好地理解用户输入和需求,从而提供更准确和个性化的回答和服务。

(三)推理能力

SFAI_AGENT依赖于语言模型进行推理,它可以根据提供的上下文信息来确定如何回答问题、采取何种行动等。这种推理能力使得SFAI_AGENT能够在复杂的情境中做出合理的决策,并提供相关的解决方案。无论是在数据应用,还是其他领域,SFAI_AGENT的推理能力都能够大大提升用户体验和应用程序的效果。

(四)大模型支持

SFAI_AGENT利用大模型来解决数据要素流通和数据开发利用的痛点问题。大模型具备更强大的学习和推理能力,能够处理更复杂的任务和问题。SFAI_AGENT的大模型支持使得它能够更好地理解和处理各种类型的数据,并提供高质量的解决方案。无论是在自然语言处理、图像识别还是其他领域,SFAI_AGENT都能够通过大模型的支持实现更高的准确性和效率。

(五)组件化和数据智能体

SFAI_AGENT提供了组件化和数据智能体的方式,使开发者能够轻松构建和定制语言驱动的应用程序。组件化的设计使得开发者可以灵活选择和组合不同的功能模块,快速构建所需的应用程序。同时,数据智能体的提供使得系统应用者可以基于预定义的结构化组件组合快速入门,对于复杂的应用程序,组件化和智能体的特点使得可以定制数据业务流,使得构建新数据业务链变得简单。

三、创新点和知识产区

(一)采用“一体两翼”的设计思想实现全域跨界协同数据高速路,解决轻量级数据注册和数据传输的安全性和确权的问题。

(二)采用NLP前沿技术打造的预训练CloudStack-Ubind模型,依靠人类反馈强化学习(RLHF)来训练偏好的中英语言模型,具有15亿参数多个版本模态,主要基于上下文时序的注意力机制和连续意图识别,任务分解模型为核心,形成具有强数据记忆和推理分析的多模态特征的企业专家模型。

(三)基于CloudStack-Ubind任务模型分解领域问题,构建Agent中间件来解决任务队列,调用和上下文环境等问题。

已获得2项发明专利,3项软著。项目成果已应用于四川大学等高校。