收藏 分享(赏)

消防安全宣传网站设计与实现 11000.doc

上传人:晚风 文档编号:4188466 上传时间:2021-07-27 格式:DOC 页数:31 大小:1.70MB
下载 相关 举报
消防安全宣传网站设计与实现 11000.doc_第1页
第1页 / 共31页
消防安全宣传网站设计与实现 11000.doc_第2页
第2页 / 共31页
消防安全宣传网站设计与实现 11000.doc_第3页
第3页 / 共31页
消防安全宣传网站设计与实现 11000.doc_第4页
第4页 / 共31页
消防安全宣传网站设计与实现 11000.doc_第5页
第5页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、本科毕业论文(设计)KNN算法在敏感信息识别中的应用研究姓 名: 学 号: 年 级: 2015 级 系 部: 图像与网络侦查系 专业班级: 网络安全与执法 3班 指导教师: 职 称: 教授 完成日期:二一八年五月声 明本人郑重声明:所呈交的毕业论文(设计),是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本毕业论文(设计)不包含任何其他个人或集体已经发表或撰写过的科研成果。对本论文(设计)所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明并表示谢意本人签名: 年 月 日铁道警察学院本科毕业论文(设计)KNN算法在敏感信息识别中的应用研究摘 要:科

2、技的进步虽然帮助我们更快更多地获取到信息,但同时信息量的爆炸也给不法分子留下了可乘之机。不法分子在网络上大肆传播不良信息,这也给公安工作中的敏感信息研判带来了困难。KNN算法是一种文本分类算法, 具有容易理解,易于实现等优点,常常被运用于文本的分类及预测。本文试通过简述KNN算法工作原理,优化KNN算法,加快其对敏感信息的识别速度,提高识别敏感信息的效率,为公安工作中敏感信息的识别提供帮助,节省警力使用,使公安信息工作更加快速、高效,同时为实现智慧警务做一份贡献。关键词:KNN算法;敏感信息;文本分类;敏感信息Sensitive Information Recognition Based on

3、 K-Nearest NeighborAbstract:The progress of science and technology helps us to get more information more quickly,butat the same time the information explosion also left an opportunity for criminals.Criminals spread bad information on the Interne,which also brings difficulties to the research and jud

4、gment of sensitive information in public security work.K-Nearest Neighbor algorithm as one of the best text categorization algorithms is easy to understand and implement.It is often used in text categorization and prediction.In this paper,I try to briefly describe the working principle of KNN algori

5、thm and optimize KNN algorithm.This paper aim at speeding up the recognition of sensitive information and improving the efficiency of identifying sensitive information,which can provide assistance for the identification of sensitive information in public security work.Key words:K-Nearest Neighbor al

6、gorithm; sensitive information; text categorization; accuracy rate目 录1 引言11.1研究背景及研究意义11.2 国内外研究现状12 传统KNN算法32.1 KNN算法三要素32.2 KNN算法流程52.3 KNN算法优缺点52.4 KNN算法的代码实现63文本分类73.1 文本预处理73.2特征选择93.3 特征权重计算103.4 性能评估114 KNN算法的改进134.1 特征项的提取134.2 特征项的权值计算134.3 非敏感信息文本的阈值134.4 算法设计145 实验验证与分析165.1 实验环境165.2 实验验

7、证165.3 数据分析176 结束语18参考文献19致 谢20IV 1 引言1.1研究背景及研究意义伴随着信息技术的飞速进步,微博、微信等软件的出现使得人们接触信息的方式也愈发灵活多变,各式各样的信息呈爆发式增长。但是,人们在越来越方便快捷地获取信息的同时,接触到有害信息的风险也大大增加。敏感信息的大量出现对社会稳定和经济发展有着不容小视的恶劣影响,对未成年人的健康成长更是十分不利。敏感信息主要包括涉及敏感政治的信息、淫秽色情信息、暴力信息、涉及邪教的信息等等,因其具有普遍广泛性、社会危险性、隐蔽性高等特点,对社会和谐稳定产生了巨大威胁。网络信息多种多样,敏感信息可以以图像、视频、音频等形式存

8、在和传播,这给公安民警有效地识别和分类这些敏感信息带来了困难。现有的文本分类算法有很多,其中经常使用的有KNN(K-Nearest Neighbor algorithm)算法、朴素贝叶斯(NB)分类算法和神经网络(NN)算法等。本文提出将KNN算法运用于敏感信息的识别当中,KNN算法作为一种实施简便、不需要对文本进行训练的惰性学习算法,被广泛应用于各个领域。但是,在实际应用中,KNN算法也有很大的不足,在实际应用中往往需要面对海量的数据,而KNN算法需要计算测试样本到每一个训练样本间距离,计算量过于庞大,大大降低了分类效率。为此,本文将从特征项的选择以及特征值权重的计算方法这两方面对KNN算法

9、进行改进,以达到基于KNN算法对网络敏感信息进行识别的效果。1.2 国内外研究现状最近几年,一些学者对敏感信息识别的新技术做了有关研究调查。其中,李杨,潘泉等撰写的基于短文本情感分析的敏感信息识别中,通过设定情感敏感关键词对情感类型进行分析,实现了敏感信息的识别;李城也在其文章微博敏感信息追踪溯源关键技术研究中运用WEB爬虫程序对特定关键词下的相关敏感微博进行爬取,实现了对微博上的敏感信息进行识别。近年来,对KNN算法在文本分类中的研究也取得了不小进步。例如,康进峰,王国营撰写的文章用于色情网页过滤中的 KNN 算法改进通过改进权值计算公式以及特征项的选取,有效提高了KNN算法的准确率;郑伟,

10、王若怡等的文章KNN算法在舆情领域中的应用研究,在KNN中采用相似度作为权重参与计算,对KNN算法下的网络舆情的识别与分类进行了研究;黄超,陈军华撰写的基于改进K最近邻算法的中文文本分类利用DF-卡方统计量法对特征维数进行了有效约减,提升了KNN算法进行文本分类的性能。国外不少学者也对KNN算法很感兴趣,并对其进行了深入研究。文章A new extracting algorithm of k nearest neighbors searching for point clouds提出了一种在搜索开始前通过提取最近邻点来减少给定数据集中目标点数量的新策略和相应的算法,避免了提取最邻近点过程中反复

11、计算欧氏距离,节省了时间;文章KRNN: k Rare-class Nearest Neighbour classification研究了KNN算法面向特定学习算法的局部策略,提出了一种K稀有类最近邻算法,即KRNN算法,通过直接调整KRNN的诱导偏差,解决了数据稀疏性的不平衡问题。在实际应用中,算法的效率往往受到多种因素的影响,例如样本的数量、样本的分布以及实现算法数据结构的选择。因此,严谨公正地比较不同算法在解决同一问题时的效率就显得格外重要。本文通过设计实验来比较经典KNN算法和改进以后的KNN算法在解决敏感信息识别这一问题上的效率。2 传统KNN算法KNN(K-Nearest Neig

12、hbor)算法,其核心思想是:在众多的样本种找到和目标样本最近的,并且要找到K个。然后在此基础上分类进行统计找到包含目标样本最多的组合,并且做上标记。输入:目标文本,文本的类别,以及目标文本向量。输出:目标文本所属类别。2.1 KNN算法三要素2.1.1 距离度量对于KNN算法而言,挑选出与训练样本距离最近的K个测试样本是整个算法的关键。要想得出测试样本与训练样本间距离,第一步就是选择合适的计算样本之间距离的最优的算法。(1)欧氏距离(Euclidean Distance)欧氏距离是我们接触最早的方法,也是最容易让人理解的,在接受小学教育时,在平面空间中求两点之间的距离的方法就是欧式距离。到了

13、初中和高中,学到了三维立体空间,更是对欧式算法的运用。计算公式相信我们也非常熟悉,如下:假设二维平面上有两个点,其坐标分别为,两点之间的欧式距离为:维维空间中的两个点的坐标分别表示如下,欧式距离为:(2) 切比雪夫距离(Chebyshev Distance) 根据国际象棋的规则中,我们看到将可以走向附近的任意一格。所以,将从格子到格子要走多远的距离呢。这个问题非常值得人思考,将走的距离就称之为切比雪夫距离。其计算公式如下:二维平面上的两点,间的切比雪夫距离为:N维空间中的两个向量,的切比雪夫距离为:(3)曼哈顿距离(Manhattan Distance)曼哈顿距离,根据名字就可以进行大概、简单

14、的理解,就是从的一个十字路口为起点到下一个十字路口,这之间开车的距离显而易见不可能时直线,所以把这种不是直线距离的两个识字路口的路程称之为曼哈顿距离。公式就是下面所展示的这样:假设二维平面上有两个点,分别为,这两点之间的曼哈顿距离可以做如下表示:多维空间中的两个点,他们之间的曼哈顿距离可以表示如下:(4)余弦相似度(Cosine Similarity)二维空间里,点可以用坐标表示成两个向量,的余弦夹角:类比推理可得,多维空间中的两个向量,的余弦夹角:2.1.2 K值的选择K值的选择也是KNN算法中是十分重要的一部分。如果选择的K值较小,就等同于依照较小范围内的训练样本对于测试样本的类别进行判别

15、,使得算法变得过于复杂,则产生的误差也会变大;如果选择的K值较大,就等同于依照较大范围内的训练样本对测试样本进行判别,使得算法过于简单,也大大增加了误差产生的可能。只有选择的K值可以使测试样本与训练样本较为接近时,KNN算法才能充分发挥其作用。一般采用交叉验证法来选取合适的K值。2.1.3 分类决策规则看哪个类别中聚集的目标样本附近的临近样本多,则我们找的目标样本就在这个类别当中,这种原理就类似于投票原理的少数人听多数人的一样的道理。2.2 KNN算法流程(1)就是运用之前分析提到的计算距离的方法计算出每一个训练样本和目标样本之间的距离;(2)将这些距离按照大小以此进行排序;(2)找出K值,将

16、距离目标样本最近的K个训练样本挑选出来;(3)确定这K个训练样本在哪个类别中的个数最多;(4)根据推理和KNN算法的基本原理,得出结论:目标样本也在训练样本最多的那个类别中。2.3 KNN算法优缺点KNN算法优点:(1)非常的简答,通俗易懂、便于理解,容易操作,由于KNN算法的核心思想比较简单,其理论推导和算法步骤也相对简单,因此比较容易实现。(2)KNN算法作为一种惰性学习(lazy-learning),其在进行分类时不需要对样本进行训练,只要输入大量的样本,计算机就可以进行分类,再输入一个新的样本,计算机就可以进行识别。(3)KNN算法在进行分类时,其计算时间只与样本的数量有关,计算时间与

17、样本数量成正比关系,即样本数量越多,花费时间越多。(4)由于KNN算法只需要计算测试样本到训练样本的距离,就可以进行分类,计算过程相对简单,所以KNN算法常被用于解决许多现实生活中的分类问题。KNN算法缺点:(1)计算量较大,KNN算法在进行分类时虽然只需要计算每一个测试样本与所有训练样本之间的距离,计算十分简单,但是当样本数量庞大时,KNN算法所需计算量也会比较大,这对计算机的性能也是一种挑战。(2)在运用KNN算法进行文本分类时,如果一种类别里面的样本数量非常多,而另外一个类别中则恰恰相反,包含的样本数量非常少。这时,就说明我们设计的样本类别不合理,需要重新根据数据的分布确定一个新的类别。

18、以此才能缩小目标样本在哪个类别中的范围。我们要做的就是在数量多的哪个类别中重新分类。如果不这样做的话带来的后果将会是导致测试样本大多被分进包含样本数量较大的那个类别的情况,导致错误判断,使得KNN算法进行分类出来的结果将不再具有准确性,且不具有说服力。2.4 KNN算法的代码实现def knn(k,testdata,traindata,labels): #k代表分类数,测试数据,训练数据,所得到的测试结果属于哪一类(labels) traindata.shape0 #shape返回两个参数(数组),shape0得到训练集行数 dif=np.tile(testdata,(traindata,1)

19、-traindata #利用numpy中的tile扩展维数后,才能进行计算,列数确定一直,扩展行(行扩展一直,列不变) sqdif=dif*2 #对差值的每个元素取平方 sumsqdif=sqdif.sum(axis=1) #按行进行计算,得到列向量组,axis=0则得到的是行向量 distance=sumsqdif*0.5 sortdistance=distance.argsort() #按照升序去排 count= #建立一个空字典 for i in range(0,k): vote=labelssortdistancei countvote=count.get(vote,0)+1 #get

20、(5,0)+1,意思是在count字典中出现一次vote值,则对应加15:1,多次循环累加 sortcount=sorted(count.items(),key=operator.itemgetter(1),reverse=True) #排序依据字典中的第一个词去排序,默认是升序(False) #key指定依据哪个区排,operator.itemgeter(1)指定第一个元素去排 return sortcount003 文本分类如果想要将KNN算法运用于敏感信息的识别当中,首先要实现KNN算法的文本分类。文本分类的流程如下:分类器进行分类分类结果评估图3.1文本分类流程对文本进行分类需要分五个

21、阶段分别进行:先对文本的数据进行粗略的排出和挑选,避免差异较大的数据混在其中干扰结果、按照数据的特征进行排序光合分类、权重计算阶段、算法设计阶段、性能评估阶段。3.1 文本预处理目前为止,计算机还无法对文本中的信息进行识别,所以,当然计算及就无法处理文本中的数据。因此我们在遇到文本时样本时,就需要人工进行预处理和排除干扰项。文本预处理的作用主要在于:剔除对文本分类没有作用的信息,为计算提供便利。文本预处理阶段主要需要进行:分词处理、停止使用的词进行处理、选择不同的文本类型等。3.1.1 分词处理英文文本的通常做法时各个单词之间用空格去隔开,组成句子;分开来;而中文文本和英文文本之间就不同,字与

22、字之间、词与词之间没有任何间隔和符号标记,这就不利于用计算机对其进行智能的识别,所以,这就是中文文本面临的难题,也是文本识别必须要解决的问题。所以,识别中文文本就是要在词与词之间留下特征处理的关键就是要自动识别词语词之间的分隔,将一连串的汉字作为一个词组组。现在在使用的分词方法有以下几种:通过字符串粉刺、通过理解分词和基于大数据的统计来分词。3.1.2 停用词处理停用词就是指在文中经常可以看到,但是又不起什么作用的词语,这些词语出现在文本中对中文文本的分类毫无帮助。这些词在文本中经常出现,却并没有什么实际意义,如果不将其从本文中剔除,会严重干扰特征词的选取。停用词一般通过人工搜索整理,制作停用

23、词表。3.1.3 文本表示模型现在,我们经常可以看到文本表示模型主要有以下几种有:词袋模型(Bag of Words Model)、布尔模型(Boolean Model)、向量空间模型(Vector Space Model)等。向量空间模型时运用的最多的,可能时因为方便理解,方便使用,准确率还相对较高,并且我们在基础数学中经常可以看到在运用。(1) 词袋模型(Bag of Words Model) 词袋模型的基本思想是:如果很多文本中都出现同一个词,那么这个词可能是一个比较常用的词,对文本分类的帮助较小,因此对这种词的权重进行降低。(2) 布尔模型(Boolean Model)布尔模型的核心思

24、想是:每个词在文档中出现则记为1,不出现则记为0,依靠这种思想将每一个文本转化为向量。布尔模型具有原理简单易懂,运行速度快,易于实现的优点,但是由于其非常“刚性”:“与”意味着全部; “或”意味着任何一个,“非”意味着没有,查询过于死板,灵活性不足,导致查询结果不准确。(3) 向量空间模型(Vector Space Model)向量空间模型(Vector Space Model)是一个数学模型,它将文本当做一个向量,将文本中的各个词语看做是向量的各个维数,大大降低了计算的复杂程度,为特征项相似度的计算与排序提供了便利。本文也采用向量空间模型来表示文本。3.2特征选择一个经过了文本预处理之后的文

25、本,往往会生成大量词条。假设将一个文本内的所有词条都视为这个文本的特征项,就会使得这个文本的特征项尤其巨大,且由于文本的特征项过多,可能导致有效的特征项未被识别出来,这对文本分类的效果有着巨大的影响。正因如此,我们需要对进行过文本预处理所产生的词条进行特征选择,把最能体现文本特征的词条选择出来,这样不仅可以避免分类准确率的降低,甚至可以提高分类的精准度。3.2.1文档频数(DF)文档频数(DF)意思是某个单词在文中出现的次数。如果出现的次数越多的词说明该词语对该篇文本的重要性程度高的概率机越大。所以我们可以通过该词的出现的次数来看出该词是否对于该篇文章非常的重要,如果不重要就进行剔除,然后按照

26、之前就确定好的阈值剔除文档频数高于或者低于阈值的特征项。文档频数(DF)的优点在于计算量较小且计算简单,可以运用于各种样本类型。但是文档频数(DF)存在着不足之处,如果某一特征项可能同样包含着重要的信息,但是由于其在文本中十分稀有,所以就可能被无故抛弃,致使分类的准确率降低。3.2.2 统计(CHI)CHI算法就是将特征词和目标词之间的关联性程度进行量化,例如,可以用1、2、3、4、5等来表示,可以用来表示,来判断该特征词是否可以代表该类别。越大,值越大则说明关联性程度就越高,在该类别中就越有可能包含目标词。开方检验就是通过比较实际值和我们设定的值之间的差距来判断之前的理论理论是否正确。计算公

27、式如下:其中,N为训练样本的总数,A为每个词的正文档出现频率、B为每个词负文档出现频率、C为每个词在正文中不出现的概率、D为每个词负文档不出现的概率。3.2.3信息增益(IG)信息增益,就是该词在该文档中出现可以为特征的分类提供信息的多少。如果提供的有用信息越多,就说明该信息对于该篇文档就越重要。其计算公式为:其中,代表特征出现,代表特征不出现,代表第各类别。3.3 特征权重计算经过文本预处理、特征选择之后,我们需要对选出的特征项进行权重计算,以赋予其权值。如果特征项对文本分类的作用越大,则赋予这个特征项越大的权值。正因如此,能否挑选到合适的特征加权算法对最终的分类结果有着重要影响。本文采用T

28、F-IDF权重法。3.3.1 TF-IDF权重法TF-IDF就是用权重来衡量词语对于文本的重要性程度,词语在文本中出现的次数越频繁,所占的权重就越大,对于文本来说,该词就越重要。相应的,在整篇文档中的权重就会变小。简单来说,就是一个字词出现在某个文本中次数越多,但是在其他文本中出现频率较低,这个字词就越可以表示这个文本。其核心思想是:一个字词在某一文本出现次数越多,就赋予其越高的权值;但是,一个字词果在整个训练文本频繁出现,就赋予其较低的权值。TF,即词频,是指某一个词在文本中出现的频率。其公式为:IDF,就是将IF的原理逆向运用:如果某一字词在整个训练文本中出现的频率很低,则其IDF越大,表

29、明该字词可以对文本做成很好的分类。计算公式如下:(分母加1是为了避免分母是0)特征项权重计算公式如下:3.4 性能评估对文本分类结果的评判可以从速率和准确率这两方面入手。分类的速率由算法的复杂度决定,而分类的准确率可以通过与人工分类的结果进行对比,进而得出准确率的高低。文本分类的速率一般通过分类所用时长进行衡量,文本分类的准确率可以通过查准率(P)、召回率(R)、F1值和宏平均、微平均进行评价。下面是分类结果判定表:表3.1 分类结果判定表实际属于该类实际不属于该类判定属于该类ab判定不属于该类cd本文对基于KNN算法的敏感信息识别的效果评估,主要采用查准率(P)、召回率(R)、F1值,下面对

30、其进行介绍。查准率(P)是该词在文本中出现的正确的概率。并且归纳出以下的计算公式进行量化:召回率(R)是在整篇文档中,我们能够辨别出来是正确的词语占总数量的比例。其计算公式如下:由于查准率(P)和召回率(R)在某些情况下是矛盾的,所以又提出了一个新的评估标准F1。F1值可以同时兼顾查准率和召回率这两个指标其计算公式如下:4 KNN算法的改进4.1 特征项的提取在文本分类过程中,特征项的选取与分类效果的好坏有着密切的联系。本文采用CHI算法对文本中的特征项进行选取,确保可以准确提取出代表非敏感信息文本以及敏感信息文本的特征词。CHI算法可以用来衡量特征词及其类别之间的相关性,它不仅考虑了特征存在

31、时的情况也考虑到了特征不存在时的情况。而对于敏感信息的识别而言,一个文本要么是敏感信息文本,要么是非敏感信息文本,所以在对敏感信息进行识别时,更适合采用CHI算法进行特征项的提取。CHI算法的计算公式等在上文3.2.2中介绍。4.2 特征项的权值计算要想构建一个出色的空间向量模型,不仅需要选择一个合适的提取特征项的算法,选择一个合理的计算特征词权重的算法也是不可或缺的。本文采用了CHI算法来对文本中的特征项进行提取,根据CHI算法的性质,若特征项值越大,则该特征项与其类别的相关性就越强,包含该特征项的文本属于该类别的可能性也就越大。所以,文本将归一化思想运用于权值计算当中,提出了一种新的赋予权

32、值的方法:其中,表示特征项在类别中的权值,表示能够代表类别的特征项的维数。4.3 非敏感信息文本的阈值在实际应用中,非敏感信息的数量是远远大于敏感信息的,正因如此,在使用KNN算法对敏感信息进行识别以前,运用设定阈值的方法,让部分明显属于非敏感信息的文本快速通过,从而加快识别速度,是十分必要的一步。设定一个阈值,若测试文本与非敏感信息文本的特征项之间的相似度大于,则表明该测试文本属于非敏感信息文本,直接让其通过以下是阈值的公式:其中,C1代表非敏感信息文本;为非敏感信息文本特征项集合的维数;为C1的文本数;C2代表敏感信息文本;为C2的文本数;表示非敏感信息文本特征项在文本类C1的第篇文本中出

33、现的次数;是先前为非敏感信息特征项所定义的权值大小。同理,表示非敏感信息文本特征项在文本类C2的第篇文本中出现的次数;是先前为非敏感信息文本特征项所定义的权值大小。4.4 算法设计对敏感信息进行识别实际就是将敏感信息与非敏感信息区分开。KNN算法本来就是文本分类算法的一种,所以本文对KNN算法加以改进将其运用于敏感信息的识别之中。利用KNN算法进行敏感信息识别时,首先使用CHI算法对敏感信息文本和非敏感信息文本的特征项提取出来,然后对特征项所占的权重计算出来,比较测试文本更接近敏感信息文本还是更接近非敏感信息文本,最后据此判断测试文本所属类别。将测试文本和非敏感信息文本的特征项的集合的亲近程度

34、定义为。值越大,测试文本属于非敏感信息的概率就越大。其中,为代表代表非敏感信息文本的特征项维数,表示特征项在文本中出现的频率。其流程如图所示。5 实验验证与分析5.1 实验环境本次实验使用的计算机配置表:电脑型号:Alienware 17 R2 笔记本电脑操作系统:Windows 10 专业版处理器:英特尔 第四代酷睿 i7-4720HQ 2.60GHz 四核主板:Alienware 17 R2 ( Lynx Point )内存:16 GB ( 海力士 DDR3L 1600MHz )系统类型:64位操作系统主硬盘:浦科特 PX-128M6G-2280 ( 128 GB / 固态硬盘 )显卡:N

35、vidia GeForce GTX 980M ( 4 GB / 戴尔 )显示器:三星 SDC4C48 ( 17.2 英寸 )声卡:创新 Sound Blaster Recon3Di 英特尔 Lynx Point 高保真音频网卡:鈺硕 Killer E2200 Gigabit Ethernet Controller / 戴尔采集工具:八爪鱼 V7.3.4运行环境:Python5.2 实验验证为了验证改进的KNN算法在敏感信息识别中的效果,本文选取200个文本作为样本库进行训练,其中150个为非敏感信息文本,50个为敏感信息文本。首先使用经典的KNN算法,其中N值取25,特征向量维数取为100,对

36、敏感信息进行识别,这是本文的第一个实验。第二个实验,采用CHI算法对非敏感信息文本和敏感信息文本的特征项进行提取,并利用新提出的特征权重计算方法对特征项进行计算,然后根据设计的算法对敏感信息的进行识别。5.3 数据分析实验结果如表1所示。表1 实验结果算法准确率召回率F1值经典KNN类别10.9250.9160.920经典KNN类别20.9460.9520.949改进KNN类别10.9481.0000.930改进KNN类别21.0000.9250.916从实验数据中可以看出,在对敏感信息进行识别时,改进后的KNN与经典KNN算法相比,虽然在准确率、召回率和F1值上相差不大,但是改进后的KNN算

37、法上大大减少了分类时间。这是因为,经典KNN算法在进行文本分类时需要计算测试文本到每一个训练文本之间的距离,然后进行排序,选出相似度最大的K个样本,根据这K个样本的类别,判断测试样本所属类别,这就大大增加了计算量,导致使用分类时间增多。而对于改进后的KNN算法而言,只需要计算测试样本与敏感信息文本及非敏感信息文本得特征项集合之间的亲近程度,就可以判断出测试文本类别。由于网络上的信息成千上万,使用经典KNN算法对其进行一一计算显然是不可能的,所以通过改进KNN算法大大降低分类速度是十分有必要的。6 结束语本文利用CHI算法进行特征项的提取,同时运用归一化思想提出了一个新的权值赋予的方法,对在之前

38、的KNN算法的基础之上做了适当的改进。并且通过这个实验证明:用按照笔者改进后的新KNN算法各个方面都有了很大的进步,虽然KNN算法的基本原理没有做变动。但是新KNN算法在识别敏感信息时所花费的时间大大减少,提高了KNN算法分类效率,满足了敏感信息快速识别的要求。同时改进后的KNN算法不需要再对K值进行反复调试,选取最优,在进一步提高分类效率的同时也降低了误差产生的可能性。随着互联网的高速进步,公众获取和发布信息的途径越来越多元化,广泛化和即时化。随之而来的是敏感信息的大量增长,本文通过研究并改进KNN算法,将其运用于网络敏感信息的识别当中。希望在日后的公安工作中,该算法能够为公安机关识别网络敏

39、感信息提供助力,进而实现在公安工作中引导舆论动向的技术先期优势。参考文献1张爱华,靖红芳,王斌,等.文本分类中特征权重因子的作用研究 J.中文信息学报,2010(3).2李强,李建华. 基于向量空间模型的过滤不良文本方法J. 计算机工程, 2006, 32(10): 4-8.3王增民,王开珏基于熵权的 K 最临近算法改进J.计算机工程与应用,2009,45(30):129-1314辛英基于邻近算法的手写识别系统的研究与实现J电子设计工程,2018,(7).5桑应宾基于近邻的分类算法研究D.重庆大学,20096闭小梅,闭瑞华KNN算法综述J.科技创新导报,2009,(14)7奉国和,吴敬学 KN

40、N分类算法改进研究进展J图书情报工作,2012,56(21)8甄志龙.文本分类中的特征选择方法研究M.长春:吉林大学出版社,20169郑俊飞文本分类特征选择与分类算法的改进 D西安:西安电子科技大学,201210周庆平,谭长庆,王宏君,等基于聚类改进的KNN文本分类算法J计算机应用研究.2016,33(11):33743377,338211刘述昌,张忠林基于中心向量的多级分类KNN 算法研究J计算机工程与科学,2017,39(9):1758 176412邱定,张激,王金华,等基于occhio和KNN提出的新的文本分类技术J.自动化与仪器仪表,2017(8):107 11013肖斌,王锦阳,任启

41、强分布式KNN算法在微信公众号分类中的应用J计算机应用,2017,37(增刊1):295 29914张宇,刘雨东,计钊向量相似度测度方法J.声学技术,2009,28(4);532 53615余鹰,苗夺谦,刘财辉,等基于变精度粗糙集的KNN分类改进算法J.模式识别与人工智能,2012,25(4);61762.16任丽芳基于聚类的加速近邻分类方法J计算机应用与软件,2015,32(10):29830117 罗贤峰,祝胜林,陈泽健,等基于Kedoids聚类的改进KNN文本分类算法J计算机工程与设计,2014,35(11):3864386718申红,吕宝粮,内山将夫,等文本分类的特征提取方法比较与改进

42、J计算机仿真,2006,23(3):222224.19ZHANG S C,LI XLearning K for KNN classification JACM Transactions on Intelligent Systems and Technology,2017,8( 3) : 4320 CHEN K W,ZHANG Z P,LONG L,et al.Turning from TF-IDF to TF-IGM for term weighting in text classification JExpert Systems with Applications,2016,66( C) :

43、 245 26021 WANG X L,JIANG Z Y,YU D H An improved KNN algorithm based on kernel methods and attribute reduction C/ /Instrumentation and Measurement Computer Communication and Control Piscataway: IEEE,2015: 567 570致 谢经过两个月的研究和写作,我的论文终于撰写完毕,在论文即将落笔终稿之际向那些帮助过我的人致以最诚挚的谢意。我首先要感谢我的指导老师李卫平教授。李老师在我论文的撰写过程中为我

44、提供了详尽细致的指导,在我感到困惑的时候为我答疑解难,帮我理清了研究思路和研究方向,在论文撰写上帮助我修改格式教导我使用office工具,可以说没有李卫平教授的悉心指导我无法圆满的完成我的论文研究和撰写工作。同时,还要感谢我院图像与网络侦查系的各位授课老师们,在四年的大学生活里,学院、系部和各位老师为我营造了良好的学习氛围和研究环境,为我论文的撰写奠定了坚实的理论和环境基础。其次我还要感谢我网络安全与执法二班的各位同学们,因为有缘,我在一起学习生活了四年,共同度过了这美好的四年,在我的人生中留下了美好的回忆。也要感谢我509宿舍舍友和我的父母在论文编写中生活上给予我的大力支持。还应该感谢的是我论文参考文献中的作者们,他们的研究为的课题的研究铺平了道路,使我对研究课题有了更深层次的理解和更加完整全面的认识。最后,感谢论文评阅老师们对我论文的悉心指正。衷心感谢我的家人、朋友,以及同学们,正是在他们的鼓励和支持下我才得以顺利完成此论文。 22

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 应用文书 > 工作报告

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报