中新网兰州3月28日电 (丁思 刘玉桃)为破解智能化简牍文字识别与内容理解这一重大难题,近日,西北师范大学联合甘肃简牍博物馆推出了DeepJiandu数据集,全球与众共享。
DeepJiandu数据集,是在该校简牍学术资源数据共享平台的基础之上,研究发布的全球首个专门用于复杂场景下简牍字符检测与识别的大规模数据集。该数据集的发布,极大促进人工智能技术对简牍文献信息的理解,为简牍学搭上AI技术快车提供有力支撑。

该工作由西北师范大学简牍研究院、甘肃省简牍智能计算与数字人(16.730, -0.44, -2.56%)文工程研究中心张强教授团队负责开展,甘肃简牍博物馆、上海中西书局、甘肃文化出版社、西南大学等单位参与了该项工作。
据张强介绍,在纸张普及前的千余年中,简牍是中国古代记录历史信息的重要媒介,承载了战国、秦、汉、魏晋等时期的典籍、律令、契约等,形成了完整的文明记忆链条,简牍是文字传播的核心媒介。
然而,简牍因竹木材质易受腐蚀,尤其在出土后易出现氧化、变色或粘连问题;同时由于简牍材料的脆弱性,长期埋藏环境导致字符模糊、字迹缺损、产生畸变等问题,使得人工识别与整理这些珍贵文献极为困难。现有的数字化技术虽在甲骨文、东巴文、古彝文、古希腊铭文、古埃及象形文字、玛雅文字等相关文献资料等领域取得突破,但在简牍文献资料的智能化处理与分析程度不高,特别缺乏高质量的数据集,制约了人工智能技术在该领域的应用。

“DeepJiandu数据集的构建正是为了解决这一问题。”张强介绍说,研究团队通过高光谱成像、图像增强、多光谱融合等技术,确保了高质量的数据构建。数据集涵盖2242种字符类别,并由简牍学专家与计算机专家合作标注,确保数据的专业性与准确性。此外,数据集的设计考虑到简牍中字符的残损、异形字、多种布局等复杂场景,有效提升了模型对历史文献的适应能力。
DeepJiandu数据集的发布,填补了历史文献数字化与人工智能结合的空白,为简牍整理与自动识别提供了重要支持,提升考古学者对简牍文献的解读效率。此外,结合计算机视觉与历史语言学,该数据集还将推动文博机构的数字化转型,为多模态文化遗产保护提供新的技术路径。
张强表示,随着DeepJiandu数据集的推广,研究团队预计将有更多深度学习、计算机视觉领域的研究者加入简牍文献的数字化处理研究,并推动人工智能在历史文献解析、文化遗产保护等多学科交叉领域的应用。未来,团队将继续优化数据集,并探索多模态融合等前沿技术,为数字人文研究提供更强大的技术支持。
目前,DeepJiandu数据集已载入西北师范大学简牍学术资源数据共享平台。该平台已开发了实物库、释文库、字形库、著录库、文献库和专家库六个库,利用人工智能、大数据分析、虚拟现实等先进技术,完成了对4万枚西北汉简的数字化收录,不仅为专家学者提供了便捷的研究工具,也向公众展示了简牍文化的独特魅力。该平台现拥有千余名国内外在线用户,覆盖了国内外384个科研、文化机构和高等院校。(完)


APP专享直播
热门推荐
特朗普:对普京感到“非常生气” 收起特朗普:对普京感到“非常生气”
- 2025年03月30日
- 22:42
- APP专享
- 扒圈小记
5,745
视频|马斯克称火星将是美国的一部分
- 2025年03月31日
- 05:20
- APP专享
- 扒圈小记
4,976
博世智驾吴永桥:特斯拉FSD断代领先国内方案
- 2025年03月30日
- 08:28
- APP专享
- 北京时间
3,300

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
数字江恩今天 10:06:22
明日来说,只要不加速跌破今日低点都算正常;反之若再突破今日尾盘高点,则说明今日探底成功。但是,短线来说,3386还有压力。 -
数字江恩今天 10:06:15
看5分钟,第二浪如期走出了abc的内部形态。但这里,市场对3439的回踩是第二浪,还是新的下跌,颇有争论。这个分歧可以以3297为界,这里若不跌破,那边是新上涨的1+2浪;反之,跌破则可以是新的下跌。所以不跌破3297,那么本周和今日形态一样,都是探底回升。【更多独家重磅股市观点请点击】 -
数字江恩今天 10:05:55
从指数来看,今日上证、创业板、科创50、国政2000四大指数全部都是探底反弹的长下影。银行、石油、电力、煤炭、电信运营商这些权重是今日大盘做大的支撑,盘中反弹时财税数字化、算力、ai智能体较为积极。 -
数字江恩今天 10:05:47
A股两市今日成交5315 + 6901 = 12216 亿人民币,相对昨日缩量约1300亿。大盘低开震荡后,盘中一度恐慌性杀跌,午后震荡拉起,收了一根长下影小阴线,收跌16个点。个股方面,只有1/4的个股收红上涨。 -
数字江恩今天 10:05:40
探底回升 -
趋势领涨今天 09:29:43
华为公布2024年业绩了,营收高达8621亿元,同比增长22%,创历史第二高纪录(仅次于2020年的8914亿元);净利润626亿元,上一年同期是净利润870亿元,同比下滑出现了大幅下滑,为什么下滑?因为华为在加大投资,华为轮值董事长孟晚舟强调,“2025年,华为将进一步把‘以质取胜’落实到各项管理制度和业务活动中,坚持质量目标牵引,不断提升质量竞争力。”同时,华为将持续做强根生态,向开发者持续提供好用易用的工具和产品,加速生态繁荣,共促产业活力。 -
趋势领涨今天 09:26:55
国新办今日就第八届数字中国建设峰会有关情况举行发布会,国家发展改革委党组成员、国家数据局局长刘烈宏表示,持续推进高质量数据供给。高质量的数据供给是人工智能发展的不竭动力。行业应用和典型场景的落地,是推动人工智能进化普及的关键一环。基于我国海量数据(sh603138)资源和丰富应用场景的优势,我们将加快推动数据要素和人工智能产业赋能、终端应用和场景培育相结合。积极引导做好高质量数据集建设工作,“人工智能+”行动到哪里,高质量数据集的建设和推广就要到哪里。进一步推动数据标注产业高质量发展,为人工智能技术创新和产业应用提供坚实的数据基础。 -
张馨元今天 08:21:18
国新办今日就第八届数字中国建设峰会有关情况举行发布会,工业和信息化部信息技术发展司司长王彦青表示,推进原创性数字技术攻关,聚焦人工智能、关键软件、工业互联网等重点领域,深化技术创新、产业创新深度融合,培育一批创新成果转化平台,助力科技成果产业化,持续提升数字技术的自主创新能力。实施数字产业优质企业培育工程,建立多层次、分阶段、递进式企业培育体系,培育一批具有产业链控制力的生态主导型企业,开展数字产业集群梯度培育行动,进一步发挥产业集聚优势,打造一批具有国际竞争力的数字产业集群。 -
张馨元今天 08:05:52
华为今日发布2024年年度报告,报告显示,华为经营结果符合预期,实现全球销售收入8,621亿元人民币,同比增长22.4%;净利润626亿元人民币,同比减少28%。2024年研发投入达到1,797亿元人民币,约占全年收入的20.8%,近十年累计投入的研发费用超过12,490亿元人民币。 -
巨丰投资张翠霞今天 07:28:19
4小时运行结束,总结全天市场运行,1)月底收官之战,再次绿盘报收,相较于24年下半年月底拉尾盘,从12月底节奏发生改变,不错指数弱势,题材出现转折点,deepseek算力出现超跌修复,化解题材A杀走势,四月份年报披露正式开始,重点关注个股基本面,预期结构型行情;2)量能,沪深两市今日成交额12443亿元,较上个交易日11450亿元增加993亿元;3)行业板块方面,以加权涨幅来看56家行业9家红盘,电信运营、石油、银行等板块涨幅居前;航空、酒店餐饮、化纤等板块跌幅居前;4)市场延续结构型行情,题材热点快速轮动。详细解盘,可关注《翠霞首席课》的“热点直击”和“操盘指南”~~~