摘要:
实现多源异构的图书资源的深度融合,有利于拓展图书服务的广度和全面性,促进智慧图书馆体系的建设,其中,多样异构、名称不一的图书元数据的语义聚合是深度融合多来源图书信息的关键所在。为此,通过对比分析图书在不同平台分布的元数据的差异性,以 BERT-Base-Chinese 作为词嵌入模型,从元数据字段本身、属性值两个角度,分析元数据之间的语义相似度和距离发现,基于距离矩阵可以实现层次聚类,并自动构建元数据之间的映射对应关系,从而实现名称或属性相似的图书元数据之间的语义聚合。实验结果表明,该模型识别的映射关系精准度达到了 93.33%,大大降低了元数据聚集与融合过程中需付出的人力成本。此外,图书元数据语义聚合方式获得的结果具备横向扩展的空间,聚合过程亦可迭代复用,在其他信息聚合场景
也具有一定的兼容性和通用性。
彭贤哲, 石进.
基于层次聚类的图书元数据语义聚合研究
[J]. 图书馆建设, 2025, 331(1): 82-.