关 闭

新闻中心

EEPW首页>工控自动化>设计应用> 基于网络设备的网页过滤的设计

基于网络设备的网页过滤的设计

作者: 时间:2011-03-25 来源:网络 收藏

  3.4 TF-IDF 权值计算

  TF-IDF 计算公式:


  其中TF(x,d)表示特征x在网页d中出现的频率,IDF(x)表示为,N是总共的训练样本数,df (x)为包含特征x 的样本数。

  3.5 改进的权值计算公式

  从TF-IDF 计算公式可以看出,TF-IDF 计算公式是将一个样本简单的分解为若干特征,只是针对文本的内容,没有从文本的结构组成上考虑各特征的权值。

  实际上,在一个HTML 结构文档中,在之间,,以及一些其他的标签之间出现的特征,相对于其他普通的正文,具有更重要的意义,因此对这些标签之间的特征要给予比较大的权值,而对于其他普通的正文给予权重比较小。考虑到HTML 的这种结构化特性,对TF-IDF 权值计算进行一些改进。

  以下是设计的一个简单的位置——权值等级对应表,权值的选择可由实际情况具体而定。

表1 特征位置与权值对应表

特征位置与权值对应表

  一个词在一个网页中出现的频率越高,表示该词在这个网页中更重要。根据IDF,一个词的重要与包含它的网页数量成反比。一个特征x 在第i 个等级中的频率如下表示:


  其中Nxi 表示某个词x 出现在等级i 中间的次数, Nx 表示词x 出现在该网页中总的次数。

  权值的计算:


  其中Wi 为特征等级为i 时,对应的加权系数。

  3.6 KNN 算法

  K-近邻法的原理:在训练样本集中,找出与待分类的网页相邻最近的K 个训练样本,找出K 个近邻中样本数最多的类别c,就判断待分类样本为c 类。这里采用相似度作为计算距离的依据,相似的计算根据两个样本之间的夹角的余弦值来判断。


  根据此公式,计算出待测样本x 与所有训练样本的距离,从而找出与x 距离最近的K 个训练样本,根据这K 个样本的所属类别,确定待测样本x 的所属类别。

  3.7 内容过滤流程

  为了不给用户造成比较明显的延迟,采用“第一次放过”的策略。先并不拦截该响应报文,只是复制一份应用层信息,在整个响应报文传输完成之后,对复制的一份完整报文进行内容过滤操作;如果判断报文内容是非法的,则将对应的请求报文的URL 信息添加到黑名单中,如果检查认为是合法的,则允许该连接持续,并将URL 信息添加到白名单中。

  4 结语

  通过实验分析,在过滤时间上,URL 过滤阶段白名单匹配速度提高了53%,在黑名单的匹配中,速度提高了80%。在内容过滤阶段,由于采用的“第一次放过”策略,不会给用户带来延迟。既能在一定程度满足网络延迟的要求,又能改善用户的互联网环境。但仍然存在一些需要改进的地方:该过滤系统是部署在之上,作为网络节点,担负着繁重的数据交换任务,考虑到这些,没有对返回的报文进行实时的分析,而是采用“第一次放过”的过滤策略;此外,采用向量空间模型来表示,其缺点在于特征项之间线性无关的假设,因此可以考虑特征项之间的关联性等,对该文本表示模型进行更加精确的表示。




上一页 1 2 3 下一页

关键词:网络设备

评论


相关推荐

技术专区

关闭