南农教授团队推出全国首个“非遗”大语言模型

南农教授团队推出全国首个“非遗”大语言模型
2024年10月26日 23:10 扬子晚报

日前,在《中国世界级非遗文化悦读系列》丛书发布会上,南京农业大学信息管理学院王东波教授团队联合南京大学“术语与翻译跨学科研究”基地,推出非遗领域大语言模型,为非遗文化的保护与传播开辟了新路径。

记者了解到,非物质文化遗产传承大多以口头传播为主,由于其内容丰富而形式多样,在传承过程中极易随着时间流逝而丢失。非遗领域大语言模型的推出可以有效推动非遗文化的数字化保护,助力传统故事、技艺、习俗等内容的数字化、知识化、系统化,从而建立非遗的长效保护体系,确保非遗文化的可持续发展。

“在非物质文化遗产领域,数据的独特性与复杂性成为了领域化大模型构建的关键挑战。”王东波告诉记者,为确保非遗大模型能够精准理解和运用文化遗产领域的独特知识,研究团队在数据收集阶段深入中国非物质文化遗产网,从机构、政策、资源、咨询、学术五大板块获取并整理了海量数据,涵盖了政策通知、新闻专题、学术建设及项目介绍等多维度信息。此外,团队还充分利用了学术文献数据库中的大量非遗相关期刊论文摘要,最终通过对网页内容的分类解析和期刊论文摘要的整理,构建了一个内容丰富、体量庞大的非遗领域预训练数据集。这一数据集的构建,为非遗大模型获取领域知识奠定了坚实基础。

为使模型能够更好地理解和响应非遗相关的问题,研究团队结合前期获取的非遗领域数据,通过对数据的量化统计和领域专家的分析,构建了面向非遗领域的知识实体标注方案。在此基础上,经过长期的人工数据标注与校验,实现了非遗数据知识实体的精细标注,为后续模型的进一步训练提供了高质量数据基础。

值得一提的是,依托南京农业大学高性能算力平台,研究团队在现有高性能大语言模型的基础上训练了非遗领域基座大模型,并进一步构建了非遗对话大模型。对话大模型让更多非遗知识的研究和学习者能够更加便捷地获取非遗相关知识,在非遗文化推广与挖掘方面提供智能技术支持。

王东波介绍,在非遗传播过程中,非遗对话大模型可以实现非遗文化的自动化传播与知识普及,并通过其强大的跨语言能力,将不同地域的非遗文化融合,打破语言障碍,更有助于非遗文化走向国际,为中华民族文化自信道路建设贡献力量。在辅助非遗传承方面,非遗大模型能够为非遗传承人提供更加便捷的技术支持,使非遗传承人能够更好地利用新技术实现非遗文化的创造性转化。同时,借助大语言模型在非遗基础上进行文化再创造,深入挖掘非遗文化中蕴含的精神财富,结合知识图谱技术对非遗文化进行知识化存储,有助于研究人员更系统地研究非遗文化的内在逻辑和传承脉络。

通讯员 赵志枭

扬子晚报/紫牛新闻记者 王赟

校对 王菲

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部