这项新技术让开源情报智能分析更加准确高效!
近日,道达天际推出的《一种针对开源情报的文本聚类算法优化方法》获得国家知识产权局专利授权,从预审至授权用时仅1个月!该专利是公司在开源情报处理技术领域持续创新的成果,能够为客户提供更高效、智能的情报服务,推动了公司在情报分析处理业务方向的进一步发展。
情报是决策的前提和基础,但并不是说,情报越多越好,如果超过了一定的界限,事情就可能走向反面,尤其是信息泛滥的今天。随着信息技术的日新月异以及全球化进程的加速,互联网各类信息呈指数级的增长速度,铺天盖地,难辨真假。互联网产生的开源情报不经过分析是无法使用的,有价值的情报必须经过分析才能得出。如何从海量的开源信息中快速、准确的归类信息,以帮助分析人员快速的归类情报内容并检索到需要的信息,是情报分析处理领域亟需解决的痛点。
另一方面,相对于传统信息处理技术主要处理精确数据,开源情报数据作为非结构化数据的复杂性,进一步增加了其处理和归类的难度。
传统的文本聚类是一种无监督的机器学习方法,不需要预先对文档进行手工标注类别,可以将文本根据语义自动分成几类,能够帮助情报分析人员提高分析效率和效果。现在流行的聚类算法包括基于划分的聚类算法(如K-means算法)、基于密度的聚类算法(如DBSCAN算法)等。聚类算法是针对数字进行计算的,需要对文本聚类,以将文本的词汇转化为数字向量,常用的算法包括词袋模型、word2vec等。当前使用聚类算法对开源情报进行聚类分析时,面临分词和选词效率低,以及特殊情报的特殊语义要求难以准确满足等问题。
为解决上述问题,道达天际发明了一种基于自然语言处理的文本聚类算法优化方法,该方法在传统机器学习、和自然语言处理技术的基础上进一步优化算法,通过基于积累的历史情报语言模型不断自动优化关键词、语义向量的算法效果等来进行评估,并根据这些评估结果对开源情报信息进行有效聚类分析,提高开源情报处理的效率和准确性。
核心技术价值: 一、有效利用历史语言处理模型,优化关键词的权重值计算方法,为选取高权重值的关键词进行无监督聚类提供基础,有效提升开源情报信息的文本聚类效果; 二、有效优化关键词向量加权算法,基于历史模型优化关键词权重修正系数,实现了通过修正后的关键词向量统计指标优化聚类结果,从而显著提升了开源情报文本的聚类结果质量; 三、本发明通过无监督聚类算法对目标词向量进行了聚类,并基于聚类结果对历史词库模型不断优化更新,实现了在满足开源情报文本信息获取任务要求的情况下,不断循环加强对目标情报对应的关键词的敏感度,从而显著提升了开源情报文本的聚类结果质量。
此发明提高了开源情报聚类分析的准确性和科学性,能够在大量的开源情报中有效筛选出关键信息,确保了关键领域情报的特殊语义能够被快速识别和优先处理。此外,通过对领域情报的特殊语义和背景信息的识别,增强了对情报聚类效果的准确性,能够为情报分析人员和决策者提供更加清晰、准确的情报支持。