多语言语料库“万卷·丝路”发布,AI赋能共建“一带一路”

4个月前 生活 27观看
摘要随着共建“一带一路”进入高质量发展新阶段,科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室(上海AI实验室)通过研发先进数据智能技术,提供多语言语料库等举措,探索以人工智能赋能高质量共建“一带一路”。1

随着共建“一带一路”进入高质量发展新阶段,科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室(上海AI实验室)通过研发先进数据智能技术,提供多语言语料库等举措,探索以人工智能赋能高质量共建“一带一路”。B5y喜好网-记录每日喜好的科技时尚娱乐生活

1月9日,上海AI实验室联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑。B5y喜好网-记录每日喜好的科技时尚娱乐生活

“万卷·丝路”首期开源了包含泰、俄、阿、韩、越等五个语种的语料,总规模超1.2TB(单语种均超过150GB),Token总数超过300B,涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。B5y喜好网-记录每日喜好的科技时尚娱乐生活

开源链接:https://opendatalab.com/applyMultilingualCorpusB5y喜好网-记录每日喜好的科技时尚娱乐生活

海量数据+细分领域,适应多样化研究需求B5y喜好网-记录每日喜好的科技时尚娱乐生活

数据是人工智能重要的基础设施,数据质量是决定人工智能应用能力的关键因素之一。针对多语言语料库发展不平衡、高质量语料短缺的研究现状,上海AI实验室开源了“万卷·丝路”多语言语料库。作为综合性文本语料库,“万卷·丝路”采集了多个国家地区的网络公开信息、文献、专利等资料,数据总规模超1.2TB,Token总数超过300B(300 billion),处于国际领先水平。首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GBB5y喜好网-记录每日喜好的科技时尚娱乐生活

基于“书生·浦语”智能标签分类体系,上海AI实验室研究团队将每个语料子集细分为7个大类和32个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多类具有语言所在地特征内容,便于研究者根据具体需求检索数据,并可适应不同研究领域多样化需求。B5y喜好网-记录每日喜好的科技时尚娱乐生活

imageB5y喜好网-记录每日喜好的科技时尚娱乐生活

“万卷·丝路”语料库子集分类(共计7个大类、32个小类,图表中仅展示了部分标签)

专家标注+数据智能,兼顾安全与质量B5y喜好网-记录每日喜好的科技时尚娱乐生活

“万卷·丝路”语料库通过专家人工标注,确立了包含七个维度的文本数据质量评估体系,从完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等方面保障数据的高标准与高质量。B5y喜好网-记录每日喜好的科技时尚娱乐生活

通过使用基于大语言模型的数据质量评估开源工具——Dingo(https://github.com/DataEval/dingo),研究团队从多维度对“万卷·丝路”的数据质量进行了全面评估。结果表明,其五个子集均获得优异的综合评分,显著优于同类语言语料库。B5y喜好网-记录每日喜好的科技时尚娱乐生活

imageB5y喜好网-记录每日喜好的科技时尚娱乐生活

为充分体现多语言特色、全面提升数据质量与适用性,发挥实验室领先的数据处理能力优势,研究团队为“万卷·丝路”设计一套精准化数据处理流程:B5y喜好网-记录每日喜好的科技时尚娱乐生活

1、对网页及非网页数据进行标准化处理,统一数据格式,然后运用局部敏感哈希算法高效去重,降低冗余;B5y喜好网-记录每日喜好的科技时尚娱乐生活

2、在安全性处理上,建立域名黑名单筛除不良网页数据,构建多语言特色敏感词表并结合语境评估,精准过滤有害内容,同时训练语言安全模型,进行多维度不良内容检测和筛选;B5y喜好网-记录每日喜好的科技时尚娱乐生活

3、利用主题分类器对数据进行分类,优化知识域分布;B5y喜好网-记录每日喜好的科技时尚娱乐生活

4、通过PPL(困惑度)初筛快速剔除低质量数据,再借助基于BERT的质量分类模型精准筛选高质量内容。B5y喜好网-记录每日喜好的科技时尚娱乐生活

该流程有效融合多语言特点与行业通识技术,为多语言模型训练提供了高质量、安全可靠的数据基础。B5y喜好网-记录每日喜好的科技时尚娱乐生活

imageB5y喜好网-记录每日喜好的科技时尚娱乐生活

万卷·丝路数据处理流程

为评估“万卷·丝路”数据集质量,研究团队采样了部分“万卷·丝路”数据在开源基座上进行继续预训练,实验结果显示,使用“万卷·丝路”后,模型在多语言内容理解及推理能力上的表现均获得了提升。B5y喜好网-记录每日喜好的科技时尚娱乐生活

大模型语料数据联盟B5y喜好网-记录每日喜好的科技时尚娱乐生活

由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,大模型语料数据联盟于2023年7月6日世界人工智能大会开幕式上宣布成立,旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。B5y喜好网-记录每日喜好的科技时尚娱乐生活

下载更多开源语料,请登录大模型语料数据联盟开源数据服务指定平台:https://opendatalab.comB5y喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
19.99-24.99万元 荣威iMAX8 DMH新陆尊已上市

19.99-24.99万元 荣威iMAX

荣威iMAX8 DMH新陆尊已在11月8日正

11-19 62阅读
年轻人的高颜值潮流5G首选 华为“nova13香”上市好评如潮

年轻人的高颜值潮流5G首选

10月22日,华为nova 13系列正式来袭,10

11-19 64阅读
腾势D9四座版迎来OTA升级 新增功能及多项优化

腾势D9四座版迎来OTA升级

腾势官方消息,旗下腾势D9四座版车型

11-19 65阅读
 立冬时节“霜寒重”,墨迹天气暖意浓

立冬时节“霜寒重”,墨迹

“寒风入城悄无声,未品秋浓已立冬。”

11-19 65阅读
礼仪服务保障+艺术品双语讲解,东航近80名乘务员亮相“四叶草”

礼仪服务保障+艺术品双语

11月4日第七届中国国际进口博览会开

11-19 65阅读
结婚10年经历2度怀孕1次流产 他们是韩国最长久的高颜值夫妇(结婚10年经历2度怀孕1次流产)

结婚10年经历2度怀孕1次流

11月23日韩佳人所属公司相关人士

11-19 69阅读
 湾区时尚璀璨绽放,S/S 2025深圳时装周照亮潮流未来

湾区时尚璀璨绽放,S/S 202

10月26日,备受瞩目的S/S 2025深圳时装

11-19 67阅读
尚仄国际LOOLAYY六礼品牌中法时装周巴黎大秀

尚仄国际LOOLAYY六礼品牌

<<高情远韵>> 2024年9月27日13:30-

11-19 71阅读
本·谢尔顿亮相On昂跑上海派对 联结网球社群 尽释运动热爱

本·谢尔顿亮相On昂跑上海

中国上海,2024年10月2日– 今日,瑞士运

11-19 69阅读
雅鹿1972亮相巴黎时装周,开启中国羽绒新航程

雅鹿1972亮相巴黎时装周,开

北京时间2024年9月30日晚,以“羽绘沧

11-19 64阅读
第一次摆摊

第一次摆摊

第一次摆摊,有点社恐,不敢说话。 有

11-19 67阅读
馒头身价飙升

馒头身价飙升

花卷看到馒头身价飙升至30块钱时大为

11-19 66阅读
海绵宝宝被开了

海绵宝宝被开了

海绵宝宝被开了。 他含着泪:“蟹老

11-19 68阅读
备考半个月没喝过奶茶

备考半个月没喝过奶茶

备考半个月没喝过奶茶。 去点奶茶

11-19 64阅读