内页横幅
您现在的位置:首页>联盟动态

北京发布首批100个AI大模型高质量训练数据集 联盟多家成员企业入围

2024-04-03 16:22:22
字体【

xx0@2x.png

329日,数据驱动,智绘未来为主题的2024 北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会举办。会上,北京国际大数据交易所(以下简称北数所)牵头正式发布首批100个人工智能大模型高质量训练数据集,经联盟牵头推荐,中关村数字媒体产业联盟成员单位新华网、中国搜索、中文在线、山东工艺美术学院、北京服装学院、硅星人等企业的高质量数据集入选。

通过北数所进行人工智能数据集进场交易,将更好的为模型训练提供更加合规可靠、便捷化、规模化的数据服务,进一步提高数据来源合规性,降低数据交易成本。

未来,中关村数字媒体产业联盟还将持续在数字媒体领域的高质量数据集提供、数据安全保障等方面,不断提升服务能力,汇聚和储备大模型训练所需的高质量语料集,通过在可信数据空间打造集数据托管-数据标注-数据训练-数据交易于一体的数据可信流通体系,为人工智能大模型训练提供合规高效、安全有序的数据支撑,与合作伙伴共同推动北京数据基础制度先行区人工智能数据训练基地建设工作。

06.jpg

会上,北京金控集团董事长、北京国际大数据交易所董事长范文仲在发布会上发言指出,当前,我国人工智能的发展需要突破两大瓶颈问题,一是缺乏高质量的训练数据,二是缺乏满足智能运算要求的算力。他表示,从数据来看,人工智能大模型的训练越来越依赖高质量数据集的提供。企业要发展人工智能技术,往往缺乏数量足够大、合法合规、可用度高、成本适宜的多模态数据集。目前训练数据集涉及的知识产权合规性问题是一大难点。人工智能模型训练所用的部分数据,例如书籍、期刊、论文等,可能存在知识产权争议。范文仲建议政府出台法规,鼓励敏感的大模型数据进场交易,使用避风港原则和发展人工智能训练保险产品,不断降低人工智能模型训练的合规风险。

从算力来看,算力作为数字经济时代的基础支撑和新型生产力,赋能作用日渐凸显。然而,我国算力市场发展面临着高质量算力资源不足且分散、算力资源供需错配时有发生、算力投入远超中小企业承受范围等问题。

对此,范文仲建议,一是大力发展聚合计算先进技术,科学组合不同类型的算力单元,实现计算密度、性能和效率的大幅提升。二是打造统一的算力交易和调度平台,智能统筹调度周边城市各类算力资源,为中小人工智能企业训练大模型提供价格低廉的普惠算力。

本次大会发布了第一批人工智能大模型高质量训练数据集。该数据集是北数所联合北京人工智能产业联盟共同征集的,包括中科院大气物理所、北京科学技术研究院、中国知网、中汽智联、北方健康、中文在线、中国搜索、牡丹集团、新华网、山东工艺美术学院、北京服装学院、硅星人等36家机构及企业提供的大模型语料训练数据,共同为先行区人工智能训练场示范基地建立模型训练语料资源库。

首批发布的数据集覆盖科技创新、金融服务、医疗健康、医药研发、自动驾驶、气象服务、商业航天、影视创作等20多个应用场景,共计100余个语料数据,数据总量逾150PB,涵盖了专业知识问答、古今文化书籍、互联网舆情资讯、多语种音视频、教学资源题库、科研数据、高清图片等多领域、多模态的数据语料。

在算力方面,北数所已建设了算力交易专区,上线了东数西算算力服务平台和北京算力交易统一系统,致力于为全国各行业智算、超算、通用算力等各类算力产品提供算力发现、供需撮合、交易购买、调度使用等于一体的、稳定可信的综合服务平台。北数所还积极争取各级政府财政专项资金支持,通过北数所进场交易的算力,将会获得适度的资金奖励和补贴,进一步降低企业算力和数据的使用成本,涵养和培育持久的数据和算力流通生态,让小公司也能做大模型。

1月27日,中关村数字媒体产业联盟举办了“数据要素x ”与数据资产研讨会,并正式成立了中关村数字媒体产业联盟数据工作委员会,在数据要素与数据资产方面,联盟将积极开展数据要素与数据资产标准化建设、高端智库与课题研究工作、数据技术与服务平台建设、数据领域相关培训与活动、数据产业基地(园区)建设等五项工作。

319日,中关村数字媒体产业联盟赴北京国际大数据交易所进行了调研及座谈交流,联盟与北数所将深入贯彻落实国家“数据二十条”的相关政策,围绕“数据+数字媒体”广泛开展合作,联盟也将发挥在数字媒体领域的优势,全面推动联盟企业和数字媒体相关企业积极开展数据业务。

相关链接

联盟在京举办“数据要素x ”与数据资产研讨会  成立数据工作委员会   启动中数联数据资产服务平台

建立高效的数据供需机制,推动数据资产化流程管理  联盟赴北京国际大数据交易所调研

联盟赴人民网·人民数据调研交流  发挥数据领域国家队主力军作用  赋能数字经济高质量发展 加快发展新质生产力

联盟赴大兴调研并成功举办数字经济赋能区域经济高质量发展研讨会  大力发展新质生产力