机构知识图谱的构建及其应用

更多详情

内容简介: 本文首先对国内外知识图谱的理论研究和实际应用进行了较为全面的梳理。其次,本书提出了机构知识图谱构建的方法和流程,并探讨了如何利用引文数据库、学术搜索引擎和项目数据库等数据源来构建机构知识图谱。最后,本书就机构知识图谱的应用进行了实证研究。该研究将丰富知识图谱研究的理论与方法,为学术同行的相关研究和科研管理部门的相关工作提供参考。

目录: 序一(叶继元)
序二(武夷山)
第1章 知识图谱概述
第一节 知识图谱的发展历程
第二节 知识图谱的内涵
第三节 知识图谱与搜索引擎
第2章 知识图谱研究与应用现状
第一节 知识图谱研究现状分析
第二节 知识图谱的应用
第3章 构建机构知识图谱的方法、工具、数据源和流程
第一节 构建机构知识图谱的方法
第二节 构建机构知识图谱的工具及数据源
第三节 机构知识图谱构建流程
第4章 基于引文数据源的机构知识图谱构建
第一节 基于来源文献属性与被引文献属性的机构知识图谱
第二节 基于Web of Science数据的机构知识图谱
第三节 基于CSSCI数据的机构知识图谱比较
第四节 安徽财经大学机构知识图谱构建
第5章 基于学术搜索引擎的机构知识图谱构建
第一节 学术搜索引擎及其应用
第二节 数据采集与整理
第三节 三个研究机构数据的比较与分析
第四节 作者引文网络、合作网络与合作路径
第6章 基于项目数据源的机构项目图谱构建
第一节 国内相关研究文献评述
第二节 数据源及数据分析概念模型
第三节 机构项目知识图谱的实证研究
第7章 机构知识图谱的应用研究
第一节 基于两类合作网络的科研创新团队成员遴选研究
第二节 科研合作网络在创新团队成员遴选中的应用研究
第三节 基于期刊数据的机构合作演变研究
第四节 学术期刊发文主题演变的实证研究
后记


书摘: 《机构知识图谱的构建及其应用》:
  第1章 知识图谱概述
  图画作为人类最早期的叙事方式,在人类文明出现以前,便跨越了语言、文字的障碍,成为史前文明时代最重要的交流方式。历史总是惊人地相似,几千年之后的今天,“读图时代”再次到来。2011年4月12日,百度首席执行官(Chief Executive Officer,CEO)李彦宏在百度联盟2011峰会上预言,中国互联网未来几年的主要发展机遇,将集中在“中间页”“读图时代”“应用为王”等三大领域。他还表示,全新的读图时代已经来临,主营图片内容的网站将获长足发展
  截至2011年12月,中国学术期刊网络出版总库收录全文文献总量3 398 万余篇;其中超过63%的文献中有规范的图片,平均每篇文献有图片4张左右。中国优秀硕士学位论文全文数据库收录优秀硕士学位论文134万余篇,其中超过80%的优秀硕士论文中有图片,平均每篇论文中有图片40张左右。中国博士学位论文全文数据库收录博士学位论文17万余篇,其中超过80%的博士论文中有图片,平均每篇论文中有图片50张左右。这些数据从一个侧面反映出,学术图片在科学研究领域是研究人员表达和传播知识内容的一种重要方式。
  中国知识基础设施(China National Knowledge Infrastructure,CNKI)学术图片知识库是我国第一个学术类图片的知识库产品。它采用同方知网自主研发的智能挖掘技术,从各类学术文献中提取出千万量级的图形、图像等内容,加以规范化编辑整理,提供相似图表的检索、对比和分析功能等知识发现功能,将大大提高学术文献知识传播和应用效果。它以CNKI中国知识资源总库文献中提取的图片为分类元数据,把所有的图片划分为五个大类——形态图、谱线图、曲线图、系统图、分析图,二级类目下又细分为254种类型。该学术图片知识库现有图片2 600万余张,预计2013年之后每年新增图片150万余张。
  笔者利用CNKI学术图片知识库查询发现,图书情报与数字图书馆、互联网技术、计算机软件及应用、新闻与传媒的学术图片数量分别为56 129张、411 305张、2 708 384张和51 557张(截至2014年10月27日)。从数据可以发现,不同学科之间学术图片的数量有较大的差异。例如,计算机软件及应用专题的学术图片数量达到了百万级,互联网技术的学术图片数量是十万级,图书情报与数字图书馆、新闻与传媒是万级。这一方面与学术期刊的数量有关,期刊数量越多,论文中出现学术图片的几率越大;另一方面也体现了学术图片在表达知识方面的研究习惯。另外,从表1-1看,每个专题的学术图片数量是一个稳定上升但有一定波动的状态。2013年学术图片占总体数量的比例差别较大,可能与数据库中图片更新数据不及时有一定关系。
  由于学术图片在表达和传播知识方面的优势,同时随着各种条件的成熟,知识图谱目前已经成为一个快速发展的跨学科研究领域。如果以2003年加利福尼亚的学术研究会作为这个领域研究开始的一个时间节点,它已经走过了11个年头。尽管学术界目前对知识图谱的概念还存在不同的认识,但已经形成了一个基本共识:知识图谱是通过不同类型的图形和图像来揭示知识单元之间的关系及知识发展的过程。
  表1-1 2005~2013年四个专题学术图片数量所占比例单位:%
  知识图谱的出现得益于很多方面的因素。第一,数据、信息和知识的数量在不断增加,为知识图谱的研究提供了丰富的“原材料”。第二,相关理论与技术的发展为研究人员加工“原材料”,使其以不同类型的图形、图像等图片形式呈现提供了可能。尤其是数据可视化、信息可视化和知识可视化理论和技术在近年来发展非常迅速,产生了许多可以让研究人员应用的各类可视化工具。第三,由于知识的急剧增加,研究者从现有知识当中查找自己所需要的知识的难度也相应增加,效率在下降,因此产生了从大量知识当中快速获取自己所需知识的需求。第四,传统互联网和移动互联网技术的不断发展,催生了许多个性化的应用,为用户需要的满足提供了不同的平台。第五,谷歌、百度、搜狗等搜索引擎企业和中国知网、万方数据等数据库服务发现了通过可视化技术提升信息服务水平的商机。
  ……

\n \n