蓝海沙龙｜第272期：“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开

蓝海沙龙｜第272期：“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开

2024-11-10 16:06

裴玮表示，2022年全球大模型迎来了爆发增长，总体看我国在大模型领域取得了一定的成就，但仍面临着一些挑战，其中最显著的问题之一就是高质量中文语料资源的短缺。以ChatGPT为例，训练数据中文资料比重不足千分之一。高质量中文语料库的不足，导致国内许多从事大模型开发的研究机构和企业在进行模型训练时，不得不依赖于外文标注数据集、开源数据集或是爬取网络数据。鉴于此，探索我国大模型中文语料库的高质量发展路径，对于大模型行业的未来发展具有重要意义和价值。本次研讨会主要就我国大模型中文语料库的发展现状、面临的形式、任务及其高质量发展路径等进行探讨。

张正表示，在过去几年时间内，模型的参数规模增长给性能带来了一定提升，但训练数据的质量和组织形式对模型性能的提升带来了更大的帮助。数据工作已经成为大模型行业中最受关注的一个任务，在模型规模不变的前提下，数据的变化能够让模型效果得到非常大的提升。模型参数量越大，数量越多，能力越强。一些科学家提出，大模型的本质是对数据做无损压缩，目前各家大模型公司的一个核心任务就是，如何对数据做有效清洗，以及如何更进一步人工合成一些高价值数据，从数据层面提升模型的性能。

王峥表示，大模型训练所需要的语料具有“广”“齐”“专”的特点，训练过程并不依赖个人信息。模型语料需要政府和社会力量更好地协同。在政府侧进一步加强应用于训练的公共数据开放，特别是具有科研属性的公共数据，同时鼓励社会力量参训练公共数据集的开发建设，通过多方参与机制提高训练数据质量和安全性。对于受财政支持的科研和文化单位所有的知识产权类数据，鼓励通过开放、共享等方式向社会公开，基于非营利性成本补偿原则明确合理收费标准。低质量的语料可以用数据治理的标准来去劣，而高质量语料很难有统一的客观标准去衡量，应该交给市场机制去尝试和探索，不要预设前置标准。

高震表示，语料数据的权利清洁性是语料库建设、流通和使用的重要合规前提，个人信息、知识产权等法律规则的因应完善，安全合规技术的配套发展，以及协会引导下的行业自律和标准化建设三管齐下，预期能够更好地解决相关难题。

洪涛表示，关于古籍文献和语料库的基本情况，我国现存古籍大概20万种，50万版本。整个古籍数字化的用字量大，普及难度大，中文古籍语料库内容多，但是高质量古籍数据稀缺。古籍领域大模型垂直应用场景包括古文应用场景和传统文化的场景。古文应用场景更多地用于古籍整理和学术研究，传统文化的场景应用于文化普及。要想对这两个场景更好的服务，要综合训练古籍和现代文献才能实现传统文化内容创新性应用。

赵灿表示，我国大模型及中文语料库建设上虽有成果但面临总量不足、分布不均、垂直覆盖有限、质量参差不齐等挑战，尤其是优质、专业、多元的中文数据供给存在明显短板。建议在国家相关政策引导下，建设数据流动和交易特区，推动跨行业数据资产入表，强化跨域数据服务的深度融合，同时不断完善数据撮合交易机制与基础设施建设，示范引领数据资产产业发展，为构建高质量的大模型中文语料库提供有力支撑。

李鹏飞表示，随着人工智能大模型在各领域各场景加速落地，大模型训练数据语料的价值日益凸显，正成为影响大模型应用效果的关键因素。当前，大模型训练语料在数据获取、数据质量、数据处理、数据隐私和安全等方面还有诸多问题有待解决。需要行业伙伴共同探索数据合作机制与商业模式，推动数据资源在合规前提下的开放共享，构建大模型语料质量评价体系，打造安全可信的数据处理基础设施，共同推动人工智能行业高质量发展。

赵宇表示，大模型语料库的建设离不开高质量的数据解析和清洗，需要大量的人力和算力投入。如何更好地评估数据价值和数据成本，是建设数据共享生态的关键。因此，建议发挥国家宏观调配优势，从国家层面建立统一的数据机关、数据平台，完善法律法规，设置激励政策，统一数据质量标准，从而促进数据市场繁荣。

杨志勇表示，随着人工智能时代的来临，建设好中文语料库尤为重要，应突出“两量”和“一护”。“两量”一是可信的中文文本数量，二是文本内容的质量；“一护”是版权护航，才能行稳致远。

燕江依表示，在大模型时代，海量、高质量、多样化的训练数据集，成为拉开能力差距的关键要素。通过添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等手段，形成优质的标准化数据集和完备的数据全生命周期管理体系。人工智能高质量数据集应满足为可靠性、准确性、完整性、多样性、标注精确性、安全性、均衡性、及时性等八大特征。建议联动各方生态力量，完善人工智能数据生态服务，推动人工智能高质量数据集建设发展。

徐月梅表示，大语言模型的多语言能力参差不齐，迫切需要提升大语言模型的中文语言能力。训练语料的清洗程度、多样性、规模大小对模型的性能有重要影响。建设高质量中文训练语料是关键，如何评价语料的高质量，值得探究。

吴沈括表示，作为全球业内共识，语料数据的质量，决定了人工智能算法的水平以及大模型的水准。在当下国际数据治理时代背景下，各个国家和地区都十分重视语料生态的培育建设，包括通过制定出台相关的政策法规作出系统的正向促动。就现实而言，中文语料的建设具有显著的现实意义和紧迫性，其过程需要注重考虑数据质量、权益保护以及行业生态等多重价值。一方面，要提高数据等要素资源的供给水平，包括深度挖掘公共数据的价值潜力。另一方面，要持续提高语料数据的质量要求，包括必要的基础设施支撑和技术标准指引。同时，也要培育壮大行业生态水准，通过推动千行百业的融合与交互，凭借全面、有效的激励机制，提升中文语料建设工作的可持续发展能力。

秦艳华表示，高质量中文语料库建设势在必行，希望由相关部门或协会或公益组织筹集人力、物力、财力，集中搭建全国最具影响力的中文语料库平台，构建通用大语言模型，并开源，免费供大家使用。

以上就是本篇文章【蓝海沙龙｜第272期：“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开】的全部内容了，欢迎阅览！文章地址：http://www.cs-ej.cn/news/6225.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页成事e家移动站 http://shsunc.cs-ej.cn/ , 查看更多