汉教人新工具!北京语言大学BCC语料库2.0版发布
点击上方蓝字关注绵绵汉硕路

27汉硕考研备考交流QQ群:912451661(内含免费资料)
27哈尔滨师范大学考研QQ群:755630289
26汉硕考研复试QQ群:288232184
院校26汉硕复试QQ群:
哈尔滨师范大学26汉硕考研复试QQ群:1041386671
黑龙江大学26复试汉硕考研复试QQ群:1019458511
国际中文教育证书考试及求职交流群:630343960
国际中文教师外派志愿者QQ群: 698352134
公派教师交流群-国际中文教师:1087079983
国际中文教育专业博士备考交流群:1044184225
汉硕考研第7年,跟着绵绵汉硕路硕博师资团队,高效自律备考!
2026年3月15日晚,由北京语言大学语言资源高精尖创新中心主办的“语料库建设研讨会暨BCC 2.0发布会”在线上召开。会议面向全国语言研究者与从业者,发布了北京语言大学语料库中心BCC语料库(Beijing Language and Culture University Corpus Center)2.0版本,为大模型时代的语言资源建设与智能化研究注入新动能。
BCC(BCC Corpus)是 LangSC(语言结构计算开发包)的语料库检索引擎模块。 它支持基于模式的语料检索和统计分析,能够对任意文本语料建立索引并提供高效检索。 你可以用它在本地构建个性化语料库,进行词频统计、上下文浏览、搭配分析等操作。

BCC语料库系统发起人、负责人、北京语言大学语言资源高精尖创新中心主任教授荀恩东表示,北语语料库团队已深耕语料服务领域近20年,始终陪伴语言研究者成长,见证了语言资源建设理念的迭代革新。大模型时代,语料库建设和研究在重新照准定位的同时,将为数字中国建设、数字中文发展和学科转型提供强劲动力和生产基础。
在题为《BCC语料库建设与应用》的主报告中,荀恩东教授全面回顾了BCC语料库从1.0到2.0的发展历程,重点阐释了数智时代语料库建设和研究的新方向与新趋势,并介绍了新版本在底层检索引擎重构、语料数据更新等方面的核心突破。
他指出,BCC 2.0通过技术升级全面提升了检索精度与效能,数据上,补全历史语料,新增《人民日报》、新闻联播全量数据,并扩充近代汉语、《申报》等资源,语料更丰富、时效性更强。
检索内核全面重构,速度更快、资源占用更低,支持普通笔记本运行,同时实现结构化、树状句法深度检索,解决传统检索效率低的问题。
平台从封闭服务转向开放共享,发布Python开发包,开放个人语料库自主构建功能,能够灵活贴合不同研究者的个性化需求,为语言研究迈向智能化新高度提供坚实支撑。未来还将结合大模型,实现自动标注、自然语言检索等智能功能。

在专题演示环节,北京语言大学副研究员饶高琦展示了BCC语料库2.0的新突破与新功能,直观呈现了新版本在数据质量、检索效率、服务水平上的优势。
团队以《利用 LangSC 构建个人 BCC 语料库——从“提供语料库”到“提供建库能力”》为题进行演示BCC 2.0在持续提供通用语料服务的基础上,进一步向学界开放建库能力,使研究者能够将自有语料组织为可检索、可统计、可扩展的个人 BCC 语料库,推动语言资源建设由“提供语料库”向“提供建库能力”转变。
结合具体案例,现场演示了利用LangSC从原始文本出发构建个人BCC语料库的基本流程。个性化语料库不仅能够满足研究者对专题语料的精细化管理和检索需求,还可在服务化封装和界面化呈现的基础上,拓展至教学支持、团队共享和平台建设等更开放的场景。BCC 2.0展示了语言资源建设在技术支持下的新可能,也为构建更加开放、灵活、可持续的中文语料资源体系提供了新的思路。
据悉,BCC 2.0语料库覆盖当代社会语言生活的多个领域,包括新闻、文学、口语、近代汉语、古汉语以及多领域平衡语料库。实现了多个当代语体和近代以来154年历时报刊语料的全覆盖。实现超大规模数据高速层次检索,支持词性、短语结构和文本的复杂混合查询。并实现了在线统计和结果可视化。为助力语料库能力广泛赋能学界,团队发布了包含BCC主要功能的语言结构计算工具包,可供各单位研究者免费离线试用。本次发布还开放了多个领域的字词频基础数据集。
未来,团队将持续优化BCC语料库功能,为学科转型发展夯实语言资源基础,助力中国语言文字研究事业高质量发展。
BCC 2.0 实现了数据、引擎、服务三大维度的全面升级:数据层面完成语体语义、古今语料及近现代时间轴的全覆盖,新增 “新闻联播” 语料并将历史数据更新至 2026 年,引入 “申报” 语料完善近代汉语内容,同时支持 “起骸骨” 等词语在不同典籍中的对比研究;引擎层面采用全新 GSS 结构化检索引擎,支持树状结构精确检索,有效解决组合爆炸问题,显著提升检索速度与稳定性;服务层面开放数据基础信息,提供更丰富的词频、词表等数据下载服务,并推出更美观易用的可视化图表。
此外,为降低语料库构建的技术门槛,北京语言大学同步发布了 LSC 即 BCC 语言结构计算工具包,支持研究者借助 Python 脚本轻松搭建个人语料库,用户仅需将原始语料放入指定文件夹,通过简易代码即可完成索引构建与检索,无需复杂预处理,该工具包还兼容无标注、分词 / 组块标注、结构化括号树形标注等多种语料格式。

个人BCC语料库构建工具包与
使用指南请参考:
https://bcc.blcu.edu.cn/build-corpus.html
实训手册:
https://bcc.blcu.edu.cn/LangSC.html
相关资源:
https://cnlp.blcu.edu.cn/#/?redirect=%2Fcourses
往期推荐文章
博士招考 | 延迟13天!北京语言大学调整2026年博士研究生招生报名截止时间
15人进面!北京师范大学2026年语言学与应用语言学专业学术学位博士研究生复试名单及考核安排已公布!
来源 | 光明微教育 语言资源高精尖创新中心
编辑 | 和其正
审核 | 绵绵学姐


我知道,你“在看”

点击左下角「阅读原文」免费试听绵绵汉硕路课程
夜雨聆风