关 闭

新闻中心

EEPW首页>工控自动化>设计应用> 基于网络设备的网页过滤的设计

基于网络设备的网页过滤的设计

作者: 时间:2011-03-25 来源:网络 收藏

  3 内容过滤

  3.1 响应报文的获取与重组

  由于网络的复杂性,返回的HTTP 响应报文可能不是有序的到达的,因此在上需要对到达的响应报文进行有序的重组。根据请求报文的五元组信息,收集该请求对应的HTTP 响应报文;由于可能乱序,根据ACK 字段和Seq 字段对报文进行排序重组。在重组中建立的数据结构图2 所示。

重组使用的数据结构

图2 重组使用的数据结构

  3.2 文本的表示

  目前常用的文本表示模型有许多种,常用的有:布尔逻辑模型、概率模型和向量空间模型等。在向量空间模型,文本内容被形式化为多维空间中的一个点,把对文本内容的处理简化为向量空间中向量运算,使问题的复杂性大为降低。

  权重的计算既可用规则的方法手工完成,又可通过统计的方法自动完成,便于融合统计和规则两种方法。

  向量空间模型用项的向量空间来表示文档信息,项是指用来表示文档内容特征的基本语言单位(字、词、词组或短语等),也称为特征词,文档可以用项的*来表示。一个网页可以由特征以及其权值表示,如下:


  其中 xi 为文本向量空间中的一个特征, w i 为该特征的权值。

  3.3 特征的选取

  一个文本携带大量的信息,基于计算的复杂性考虑,只能在文本信息中提取出其中一些比较重要的特征;并且对于实际的性能要求,文本中的关键信息足以反映一个文本特征。像一个文本中出现的“的”、“有”等一些词是一些通用词,不能体现某些文本的特征,因此需要事先对文本进行预处理,去除掉这些词。



关键词:网络设备

评论


相关推荐

技术专区

关闭