基于网络设备的网页过滤的设计
3 内容过滤
3.1 响应报文的获取与重组
由于网络的复杂性,返回的HTTP 响应报文可能不是有序的到达网络设备的,因此在网络设备上需要对到达的响应报文进行有序的重组。根据请求报文的五元组信息,收集该请求对应的HTTP 响应报文;由于可能乱序,根据ACK 字段和Seq 字段对报文进行排序重组。在重组中建立的数据结构图2 所示。
图2 重组使用的数据结构
3.2 文本的表示
目前常用的文本表示模型有许多种,常用的有:布尔逻辑模型、概率模型和向量空间模型等。在向量空间模型,文本内容被形式化为多维空间中的一个点,把对文本内容的处理简化为向量空间中向量运算,使问题的复杂性大为降低。
权重的计算既可用规则的方法手工完成,又可通过统计的方法自动完成,便于融合统计和规则两种方法。
向量空间模型用项的向量空间来表示文档信息,项是指用来表示文档内容特征的基本语言单位(字、词、词组或短语等),也称为特征词,文档可以用项的*来表示。一个网页可以由特征以及其权值表示,如下:
其中 xi 为文本向量空间中的一个特征, w i 为该特征的权值。
3.3 特征的选取
一个文本携带大量的信息,基于计算的复杂性考虑,只能在文本信息中提取出其中一些比较重要的特征;并且对于实际的性能要求,文本中的关键信息足以反映一个文本特征。像一个文本中出现的“的”、“有”等一些词是一些通用词,不能体现某些文本的特征,因此需要事先对文本进行预处理,去除掉这些词。
评论