词向量提升体育学知识挖掘精准度的应用前瞻
-
-
在智能算法快速发展背景下,学界已开始借助词提取、主题聚类、情感分析、网络分析等自然语言处理方法对现有体育学知识进行挖掘整合,并基于此展开体系构建与话语呈现研究,以回应中国特色体育学“三大体系”与自主知识体系建设。事实上,在自然语言处理过程中,文本分词结果对知识挖掘结果起基础性作用。从现有研究看,体育学知识挖掘研究多只采用jieba、Han LP等基础分词模块对文本进行简单分词,这较难捕捉到一些体育学特色突出的词汇,继而影响体育学知识挖掘的精准度。
词向量(Word Embedding)是一种通过对文本语料展开大数据学习,将其中的词语或短语映射到一个低维、连续、稠密的实数向量空间中,并用一个固定长度对词语进行向量化表示的形式。这可以使相似语义的词语在几何层面距离相近,提升知识挖掘的精准度。需要说明的是,词向量模型的精准性与其所依赖文本语料库的规模与多样性紧密相关,规模大且覆盖广的训练集能够帮助词向量模型更精准地对某些特定词语进行表达。因此,在体育学知识挖掘过程中,基于足够多的体育类文本语料训练而来的词向量模型,可以较敏锐地捕捉到单个词语在各种体育学知识情境中的多重含义,弥补传统分词方法在体育学特色词识别、新词发现、一词多义等文本处理方面的不足,继而有效提升体育学知识挖掘过程中词提取、文本分类、情感分析、网络分析、主题聚类分析、知识图谱构建、跨模态知识融合、知识演化与追踪的精准度。
以体育学知识演化与追踪研究为例:首先,在严格遵循法律、政策、道德与技术规范的前提下,研究者可以借助爬虫技术大规模地获取包含体育类期刊文献、电子图书、政策文件、新闻报道、网络评论、对话访谈等的文本语料作为训练集,并采用词向量训练工具(如Word2Vec)对其进行训练,以获得包含体育学专业术语和语义特性的专属词向量模型。其次,运用余弦相似度计算同一词语在不同时间阶段词向量空间中的距离,通过对比其表示差异,窥见体育学领域中新词出现、旧词消亡、词义扩展或收缩、词语关系变化等情况。在此基础上,利用这些具有时序特征的词向量信息对主题分析方法(如LDA)进行参数优化或预处理改进,以辅助主题模型更精准地挖掘出文本内隐藏的体育学特色词语与潜在主题结构。最后,可以采用t-SNE或UMAP降维技术将词向量组成的文档表示或主题结构分布映射至低维空间,并对体育学知识主题的演进过程进行可视化展示,由此实现对体育学知识发展态势的精准把握。总之,在智能算法时代,学者们应关注词向量等自然语言处理方法在提升体育学知识挖掘精准度上的技术支撑作用,推动体育学领域在知识整合、体系构建、话语呈现、学科建设等方面的研究范式转换。
计量
- 文章访问数: 40
- HTML全文浏览量: 149
- PDF下载量: 12