我国省级科技管理部门官网文本数据的主题建模
情报工作的目的之一是为领导等决策者提供决策支持,帮助决策者洞悉全貌,定位战略信息。科技部门作为科技情报链条的关键环节,连接着政府、企业和民众,也是科技政策和科技产业的重要节点,发挥着不可或缺的作用。随着科技领域的不断发展,对科技部门的分析研究逐渐成为科技情报研究的重要切入点之一。然而科技部门与其他机构相比呈现出不同的特征,科技领域的信息呈现出内容量大、信息密度高、变化迅速等特征,且随着科技的不断发展,科技部门所发布的政策等信息层出不穷且更新迅速,使用传统的情报分析方法难以迅速、准确、动态地对科技部门进行分析。此外,科技部门的服务对象非常宽泛,从科技部门本身的组织架构定位来说,科技部门作为上级部门政策法规或规范性文件的下达者和交流者,承担着上传下达的重要工作;从科技部门的服务功能来说,科技部门负责与企业与个人进行科技领域的交流和服务呈现出显著的主体多元性和复杂性。这些特征成为了针对科技部门进行情报分析工作时的难点。
当下科技部门的信息公开内容广泛,涉及科技部门概况、科技政策与法律法规、科技预算决算和相关专题报道等,呈现出主题多元化的特征。通过研究科技部门的公开数据,不仅仅能够从表面分析科技部门的特征与状况,也能透过现象看本质,从公开数据推测未来的科技管理业务模式和科技领域的发展方向。
为了更深入地了解科技部门的情况,知悉科技部门向社会提供的信息资源与服务,刻画不同科技部门的特征,探测科技部门的潜在情报需求,需要对科技部门进行用户画像,以全方位刻画科技部门的状况。主题建模作为用户画像的重要组成部分,能够以若干关键词对科技部门进行总体概括,帮助分析者快速获取用户画像常用的标签词。本文在科技情报领域多源数据的基础上尝试使用LDA2vec进行主题建模,进而寻找省级科技部门的主题特征,为用户画像提供参考。
1 研究现状
1.1 中文文本主题建模研究
在中文的文本主题建模领域目前国内已经有许多学者对主题建模进行研究,围绕着主题建模形成了一系列的研究成果,主要分为主题建模算法和主题建模应用两个方面的研究。
主题建模算法方面,李文波等针对传统LDA模型的问题,设计出有监督数据的情况下改进模型Labeled-LDA,克服了原始模型中隐含主题的强制分配的缺陷[1]。张超基于LDA模型,结合词性特征对现有模型进行改进,使新模型较为充分地利用文本的语义信息[2]。郭蓝天等将LDA和CBOW语言模型进行结合,将其应用到社交网络上的话题发现,提升了模型的响应度和精度[3]。
主题建模应用方面,W.S.Lee等使用LDA对IPC标准下的多元专利进行分析,发现技术融合的新兴领域[4]。勒孚刚使用LDA模型对专利文本进行分析,在对专利文本进行分类的基础上开展演化研究[5]。张群等使用复旦大学中文文本分类语料库作为数据集,通过LDA等方法进行短文本分类,取得较好的效果[6]。裴超等基于改进的LDA算法应对微博短文本的语义稀疏问题,并将其用于K-means的聚类算法,改善微博用户的聚类效果[7]。
1.2 政策文本计算研究
论文、专利、科技报告、政策文本等是科技情报研究的重要信息来源与研究对象,对这些数据进行采集、分析与挖掘是情报领域的重要研究内容。随着自然语言处理的技术不断成熟与深度学习技术的飞速发展,利用技术对这些文本内容进行深入的计算处理与分析挖掘成为当前研究的新方法与前沿热点。文本计算作为大数据环境下文本分析和计算科学的学科交叉领域,有着精细化政策文本分析的特点。基于政策文本的特殊性和价值性,诸多学者围绕着政策文本开展了一系列研究。张涛等使用关键词抽取和主题分析法对互联网租赁自行车相关的政策文件进行计算分析,证实相关政策的有效性[8]。杨慧等选取国际气候领域的政策文本进行研究,将量化计算和实证研究相结合,对比分析中国和美国、欧盟的气候政策情况[9]。刘晓彤对近10年国务院、科技部、商务部等国家级机构发布的创业政策文本进行多角度分析,结合图谱分析和内容分析对国家创业政策进行解读[10]。然而,相较于专利等领域,使用文本计算方法对政策领域进行分析的研究相对较少,且多数集中在文本计算与实证分析进行结合和对比研究。
1.3 研究述评
综上所述,目前主题建模是中文文本数据分析的重要方法,围绕着主题建模也形成了一系列有影响的研究成果。但从科技情报领域的角度而言,还存在一些有待深入研究的问题,具体表现在:
文章来源:《水产科技情报》 网址: http://www.sckjqbzz.cn/qikandaodu/2021/0207/336.html