第二届职工大赛获奖选手作品展播——“数据要素流通”项目二等奖蔡红亮
来源: | 作者:scbigdata | 发布时间: 2023-12-08 | 1746 次浏览 | 分享到:
蔡红亮,成都信息工程大学副教授,硕士生导师,博士,中国科学院-德国Fraunhofer联合培养博士。主持德国CASED-EC SPRIDE项目子课题,多项四川省科技厅重点研发计划项目及四川省教育厅项目,获得四川省科技进步奖二等奖和四川省计算机科学技术一等奖,发表了JACM等多篇SCI论文及国际顶级会议论文,获得国家发明专利十余项。

11月30日,川渝大数据产业第二届职工创新大赛决赛在中国·雅安大数据产业园开赛,31位选手同台竞技,最终遴选出一等奖两位,二等奖四位,三等奖六位。四川省大数据产业联合会微信公众号将连续展播获奖选手的作品,让更多的人了解到他们在大数据领域的创新成果和独特见解。这些作品涵盖了大数据分析、数据挖掘、人工智能等多个领域,充分展示了川渝地区大数据产业的创新能力和发展潜力。

“数据要素流通”二等奖


选手简介:蔡红亮,成都信息工程大学副教授,硕士生导师,博士,中国科学院-德国Fraunhofer联合培养博士。主持德国CASED-EC SPRIDE项目子课题,多项四川省科技厅重点研发计划项目及四川省教育厅项目,获得四川省科技进步奖二等奖和四川省计算机科学技术一等奖,发表了JACM等多篇SCI论文及国际顶级会议论文,获得国家发明专利十余项。






劳动创新成果

数据空间高效利用的大数据可靠分存技术及应用

一、创新背景

随着云计算技术和大数据产业的兴起,数据量极速增长,据国内外权威机构预测,2025年全球数据量总和达到175ZB,2035年会达到2142ZB。爆炸式增长的数据对分布式存储系统的安全性和可靠性提出了巨大的挑战,海量数据的存储成为迫切需要解决的问题。然而分布式存储系统常常会因为软件故障,硬件故障,病毒攻击,人工操作失误导致节点失效,以致数据丢失。据EMC公司的全球数据保护研究报告显示,每年企业因数据丢失和宕机造成的损失达11万亿人民币。因此需要在分布式存储系统中采用数据可靠性增强的方式来保证系统的可用性,以免服务器宕机、外部因素等带来的数据丢失、请求不能正常响应情况的发生。

二、项目内容及创新

(一)研究可用于多容错的分布式存储纠删码容错编码方法,该类方法可以在一定比例的节点失效的情况下,采用一定的恢复方法进行丢失数据的恢复,纠错能力高,需要增加的额外存储空间较少;

(二)研究了数据编译码优化方法,通过将高维有限域转化为低维有限域并结合矩阵相关理论进行复杂度的优化,降低编译码成本;

(三)研究一系列的数据恢复技术,该技术可以在不同层面进行数据恢复,即能够在磁盘层面和节点层面采用快速的恢复方法进行数据恢复,数据恢复可以进行基于异或的快速恢复,也可以进行低修复带宽的数据恢复;

(四)研究一套基于以上理论的高容错、可自动恢复的分布式存储技术体系,基于该体系构造的存储系统可对存储空间要求低,具备比备份等方法更高的容错能力和存储效率,可采用不同的编码方法实现多种存储策略。

三、项目优点及成果

(一)容错能力强:容错能力可突破一般固定容错数量限制,达到一定比例,并且根据容错需求可进行容错设置;

(二)存储效率高:不需要保留额外的多个备份的数据,同等容错条件下只需增加很少的数据,存储空间利用率高;

(三)修复成本低:为降低对修复带宽的压力,本项目可采用低修复成本编码技术,降低数据传输量,以降低修复成本;

(四)可扩展性强:在保持高可靠性的前提下,本项目可以根据系统扩展的需求进行数据迁移和扩容,有利于实现弹性存储。

本项目获得授权专利十余项,发表论文二十余篇,获得软件著作权近十项,基于项目成果获得了四川省科技进步二等奖和四川省科学技术一等奖。