商务服务
学语言必备:国内外16个语料库,墙裂分享!
2024-11-10 17:15
译只喵
学语言的筒子,特别是搞翻译做学术的朋友,经常需要跟各种语料库打交道。今天我们就跟大家分享几个业内比较老牌的语料库,希望对大家以后的工作或学习都会有帮助~

学语言必备:国内外16个语料库,墙裂分享!

来源:译象、译匠

语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。下面推荐一些优质的语料库资源。

国内语料库资源

01
国家语委现代汉语语料库

http://www.cncorpus.org

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

02
北京大学“《人民日报》标注语料库”

http://www.icl.pku.edu.cn/icl_res

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

03
北大语料库——北京大学中国语言学研究中心

http://ccl.pku.edu.cn/corpus.asp

北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。

04
北京语言大学高翻学院的“高翻记忆库”

http://stitm.blcu.edu.cn

05
中央研究院“现代汉语平衡语料库”

http://www.sinica.edu.tw/SinicaCorpus

专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

06
红楼梦网络教学研究资料中心

http://cls.hs.yzu.edu.tw/HLM/home.htm

元智大学中国文学网络系统研究室所开发的“网络展书读—中国文学网络系统”,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

07
搜文解字

http://words.sinica.edu.tw

包含“搜词寻字”、“文学之美”、“游戏解惑”、“古文字的世界”四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

08
中国传媒大学“传媒语言语料库在线分词标注系统”

http://ling.cuc.edu.cn/cucseg

09
哈工大信息检索研究室对外共享语料库资源

http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

该语料库为汉英双语语料库,10万对齐双语句对,同义词词林扩展版。77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库。40个主题,同一主题下是同一事件的不同报道。

汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看。

问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到。单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

10
香港教育学院“LIVAC汉语共时语料库”

http://www.livac.org/index.php?lang=sc

自1995年开始,以“共时”方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC(Linguistic Variation in Chinese Speech Communities)共时语料库。

本语料库最大特点是采用“共时性”视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

11
中文语言资源联盟

http://www.chineseldc.org

Chinese Linguistic Data Consortium(简称ChineseLDC)是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。

ChineseLDC将建设和收集中文信息处理所需要的各种语言资源,包括词典、语料库、数据、工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源。)

国外语料库资源

01
杨百翰大学语料库

http://view.byu.edu

杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。

02
联合国文件数据库

http://www.un.org/en/search/user_help.shtml

本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

03
兰开斯特汉语语料库(LCMC) 

http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474

应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。LCMC语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过上述网址可以免费索取LCMC预料用于研究之用。

04
语言开放典藏社群(OLAC)

http://search.language-archives.org/index.html

Open Language Archives Community(OLAC),语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。

05
SKETCHENGINE多语言语料库

http://www.sketchengine.co.uk

每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。

觉得好的话

别忘了分享喔~

    以上就是本篇文章【学语言必备:国内外16个语料库,墙裂分享!】的全部内容了,欢迎阅览 ! 文章地址:http://www.cs-ej.cn/news/11382.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 成事e家移动站 http://shsunc.cs-ej.cn/ , 查看更多   
最新新闻
对爸爸的评价事件总览
  火山的女儿游戏里从夏火到冬火年都会有不同的关于对父亲的评价事件,为了方便大家顺利游戏,这里给整理了火山的女儿对爸爸的
怎么通过「飞瓜快手」快速获取账号的活跃粉丝画像分析?
随着快手精细化运营的,越来越多的用户意识到只有吸引到精准的目标用户才能更好地实现账号变现。那要怎么快速获取快手账号的活跃
大数据是什么 大数据对人们生活的影响
大数据是什么大数据或称巨量资料,是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理
“草原云”旗县(市、区)融媒指数分析(2023年第40期)
10月9日-10月15日“草原云”旗县(市、区)客户端融媒指数排行榜本周“草原云”旗县(市、区)客户端融媒指数排行榜“克什克腾融
构建人脸识别应用程序的两种思路:基于Python、OpenCV、Transformers和Qdrant
import face_recognition as frimport pickleimport osfrom face_recognition.face_recognition_cli import image_files_in_fold
陈凯歌、黄建新、张一白、管虎、薛晓路、徐峥、宁浩、文牧野,什么电影竟拥有这样的神仙阵容!
对于目前的中国电影而言,这是一个什么样的神仙阵容?!陈凯歌、黄建新、张一白、管虎、薛晓路、徐峥、宁浩、文牧野——这一溜导
英文韵脚生成器(押韵助手)手机版
英文韵脚生成器(押韵助手)手机版是一款专门为rap歌手推出创作说唱音乐的英文韵脚生成器,用户只需要在其中输入不同的词汇在其中
补体罕见病有药可用之后:如何真正惠及患者?
21世纪经济报道记者 韩利明 上海报道“罕见病”是发病率极低、患病总人口数极少的疾病,世界卫生组织将罕见病定义为患病人数占总
跟着这门240词汇策略课,掌握小学英语学术词汇!
花生君:这是小花生推出的《240词汇策略课》,国内1-6年级孩子适用,包含国内小学阶段需要掌握的词汇策略,对标美国小学1-3年级
盘点互联网金融大数据公司十大模式:反欺诈、评分评级、数据银行……
盘点互联网金融大数据公司十大模式:反欺诈、评分评级、数据银行…… 大数据不只是玩概念,还要干实事。数据日渐成为各个平台的
本企业新闻