商务服务
蓝海沙龙|第272期:“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开
2024-11-10 16:06

裴玮表示,2022年全球大模型迎来了爆发增长,总体看我国在大模型领域取得了一定的成就,但仍面临着一些挑战,其中最显著的问题之一就是高质量中文语料资源的短缺。以ChatGPT为例,训练数据中文资料比重不足千分之一。高质量中文语料库的不足,导致国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集或是爬取网络数据。鉴于此,探索我国大模型中文语料库的高质量发展路径,对于大模型行业的未来发展具有重要意义和价值。本次研讨会主要就我国大模型中文语料库的发展现状、面临的形式、任务及其高质量发展路径等进行探讨。

蓝海沙龙|第272期:“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开

张正表示,在过去几年时间内,模型的参数规模增长给性能带来了一定提升,但训练数据的质量和组织形式对模型性能的提升带来了更大的帮助。数据工作已经成为大模型行业中最受关注的一个任务,在模型规模不变的前提下,数据的变化能够让模型效果得到非常大的提升。模型参数量越大,数量越多,能力越强。一些科学家提出,大模型的本质是对数据做无损压缩,目前各家大模型公司的一个核心任务就是,如何对数据做有效清洗,以及如何更进一步人工合成一些高价值数据,从数据层面提升模型的性能。

王峥表示,大模型训练所需要的语料具有“广”“齐”“专”的特点,训练过程并不依赖个人信息。模型语料需要政府和社会力量更好地协同。在政府侧进一步加强应用于训练的公共数据开放,特别是具有科研属性的公共数据,同时鼓励社会力量参训练公共数据集的开发建设,通过多方参与机制提高训练数据质量和安全性。对于受财政支持的科研和文化单位所有的知识产权类数据,鼓励通过开放、共享等方式向社会公开,基于非营利性成本补偿原则明确合理收费标准。低质量的语料可以用数据治理的标准来去劣,而高质量语料很难有统一的客观标准去衡量,应该交给市场机制去尝试和探索,不要预设前置标准。

高震表示,语料数据的权利清洁性是语料库建设、流通和使用的重要合规前提,个人信息、知识产权等法律规则的因应完善,安全合规技术的配套发展,以及协会引导下的行业自律和标准化建设三管齐下,预期能够更好地解决相关难题。

洪涛表示,关于古籍文献和语料库的基本情况,我国现存古籍大概20万种,50万版本。整个古籍数字化的用字量大,普及难度大,中文古籍语料库内容多,但是高质量古籍数据稀缺。古籍领域大模型垂直应用场景包括古文应用场景和传统文化的场景。古文应用场景更多地用于古籍整理和学术研究,传统文化的场景应用于文化普及。要想对这两个场景更好的服务,要综合训练古籍和现代文献才能实现传统文化内容创新性应用。

赵灿表示,我国大模型及中文语料库建设上虽有成果但面临总量不足、分布不均、垂直覆盖有限、质量参差不齐等挑战,尤其是优质、专业、多元的中文数据供给存在明显短板。建议在国家相关政策引导下,建设数据流动和交易特区,推动跨行业数据资产入表,强化跨域数据服务的深度融合,同时不断完善数据撮合交易机制与基础设施建设,示范引领数据资产产业发展,为构建高质量的大模型中文语料库提供有力支撑。

李鹏飞表示,随着人工智能大模型在各领域各场景加速落地,大模型训练数据语料的价值日益凸显,正成为影响大模型应用效果的关键因素。当前,大模型训练语料在数据获取、数据质量、数据处理、数据隐私和安全等方面还有诸多问题有待解决。需要行业伙伴共同探索数据合作机制与商业模式,推动数据资源在合规前提下的开放共享,构建大模型语料质量评价体系,打造安全可信的数据处理基础设施,共同推动人工智能行业高质量发展。

赵宇表示,大模型语料库的建设离不开高质量的数据解析和清洗,需要大量的人力和算力投入。如何更好地评估数据价值和数据成本,是建设数据共享生态的关键。因此,建议发挥国家宏观调配优势,从国家层面建立统一的数据机关、数据平台,完善法律法规,设置激励政策,统一数据质量标准,从而促进数据市场繁荣。

杨志勇表示,随着人工智能时代的来临,建设好中文语料库尤为重要,应突出“两量”和“一护”。“两量”一是可信的中文文本数量,二是文本内容的质量;“一护”是版权护航,才能行稳致远。

燕江依表示,在大模型时代,海量、高质量、多样化的训练数据集,成为拉开能力差距的关键要素。通过添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等手段,形成优质的标准化数据集和完备的数据全生命周期管理体系。人工智能高质量数据集应满足为可靠性、准确性、完整性、多样性、标注精确性、安全性、均衡性、及时性等八大特征。建议联动各方生态力量,完善人工智能数据生态服务,推动人工智能高质量数据集建设发展。

徐月梅表示,大语言模型的多语言能力参差不齐,迫切需要提升大语言模型的中文语言能力。训练语料的清洗程度、多样性、规模大小对模型的性能有重要影响。建设高质量中文训练语料是关键,如何评价语料的高质量,值得探究。

吴沈括表示,作为全球业内共识,语料数据的质量,决定了人工智能算法的水平以及大模型的水准。在当下国际数据治理时代背景下,各个国家和地区都十分重视语料生态的培育建设,包括通过制定出台相关的政策法规作出系统的正向促动。就现实而言,中文语料的建设具有显著的现实意义和紧迫性,其过程需要注重考虑数据质量、权益保护以及行业生态等多重价值。一方面,要提高数据等要素资源的供给水平,包括深度挖掘公共数据的价值潜力。另一方面,要持续提高语料数据的质量要求,包括必要的基础设施支撑和技术标准指引。同时,也要培育壮大行业生态水准,通过推动千行百业的融合与交互,凭借全面、有效的激励机制,提升中文语料建设工作的可持续发展能力。

秦艳华表示,高质量中文语料库建设势在必行,希望由相关部门或协会或公益组织筹集人力、物力、财力,集中搭建全国最具影响力的中文语料库平台,构建通用大语言模型,并开源,免费供大家使用。

    以上就是本篇文章【蓝海沙龙|第272期:“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开】的全部内容了,欢迎阅览 ! 文章地址:http://www.cs-ej.cn/news/6225.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 成事e家移动站 http://shsunc.cs-ej.cn/ , 查看更多   
最新新闻
对爸爸的评价事件总览
  火山的女儿游戏里从夏火到冬火年都会有不同的关于对父亲的评价事件,为了方便大家顺利游戏,这里给整理了火山的女儿对爸爸的
怎么通过「飞瓜快手」快速获取账号的活跃粉丝画像分析?
随着快手精细化运营的,越来越多的用户意识到只有吸引到精准的目标用户才能更好地实现账号变现。那要怎么快速获取快手账号的活跃
大数据是什么 大数据对人们生活的影响
大数据是什么大数据或称巨量资料,是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理
“草原云”旗县(市、区)融媒指数分析(2023年第40期)
10月9日-10月15日“草原云”旗县(市、区)客户端融媒指数排行榜本周“草原云”旗县(市、区)客户端融媒指数排行榜“克什克腾融
构建人脸识别应用程序的两种思路:基于Python、OpenCV、Transformers和Qdrant
import face_recognition as frimport pickleimport osfrom face_recognition.face_recognition_cli import image_files_in_fold
陈凯歌、黄建新、张一白、管虎、薛晓路、徐峥、宁浩、文牧野,什么电影竟拥有这样的神仙阵容!
对于目前的中国电影而言,这是一个什么样的神仙阵容?!陈凯歌、黄建新、张一白、管虎、薛晓路、徐峥、宁浩、文牧野——这一溜导
英文韵脚生成器(押韵助手)手机版
英文韵脚生成器(押韵助手)手机版是一款专门为rap歌手推出创作说唱音乐的英文韵脚生成器,用户只需要在其中输入不同的词汇在其中
补体罕见病有药可用之后:如何真正惠及患者?
21世纪经济报道记者 韩利明 上海报道“罕见病”是发病率极低、患病总人口数极少的疾病,世界卫生组织将罕见病定义为患病人数占总
跟着这门240词汇策略课,掌握小学英语学术词汇!
花生君:这是小花生推出的《240词汇策略课》,国内1-6年级孩子适用,包含国内小学阶段需要掌握的词汇策略,对标美国小学1-3年级
盘点互联网金融大数据公司十大模式:反欺诈、评分评级、数据银行……
盘点互联网金融大数据公司十大模式:反欺诈、评分评级、数据银行…… 大数据不只是玩概念,还要干实事。数据日渐成为各个平台的
本企业新闻