讨论主流网页过滤方法剖析
时间:09-08
来源:网界网
点击:
网页过滤(Web Filtering)已经不是一个新鲜名词,由于互联网的蓬勃发展,网上的信息资源开始到处泛滥,而其中不乏很多不良信息,于是人们开始探寻各种过滤信息的技术手段,以扼制不良信息的传播,保护特定人群不受恶意信息的侵扰,例如保护企业内员工不受购物、娱乐等信息侵扰,而影响工作效率;保护青少年不受色情、暴力等信息毒害,而健康成长;因此网页过滤技术应运而生,而由此衍生的内容安全市场也在飞速发展,国内外众多网络设备厂商开始涉足该领域。例如国外厂商有Websense、BlueCoat、8e6等,国内厂商有网康科技、新网程、任子行等。
目前,网页过滤技术正向两个主要方向发展:
1.内容实时分析;
2.Url过滤。
内容实时分析过滤是指在访问Web内容时,对内容进行实时扫描,根据已知的敏感关键字/词、图片和页面构成特点,分析是否含有禁止访问的内容。这是最有效的控制方法,只要建立一个足够完全的关键字库就可以完全杜绝对不良信息的访问。
但是,应用内容实时分析过滤技术却受到网络延迟、法律法规、文化道德、维护更新等多方面因素的限制。首先,该类产品对分析算法要求很高,并且要有相应运算能力的设备支持,否则在遇到大量数据分析时可能会造成严重的网络延迟、误判漏判等问题。其次,此类产品需要人工维护更新一个庞大的关键字数据库,不断将新的禁止访问的内容关键字添加进去,但是对内容的分析需要跟文化、法律、宗教信仰等多方面结合起来评判,因为不同地区、不同文化、不同法律对信息良莠的定义都不相同,特别是在中国,一个词可以用多音字、谐音字、拼音字母等多种方式表现,为关键字数据库的维护带来了巨大的难度。而这个维护更新工作一般是由用户自己完成,因为不同的用户对需要过滤的内容有不同的需求。还有,内容实时分析过滤需要将网页内容下载到本地才能进行分析,对系统资源和带宽资源都造成了一定的浪费。
因此,采用内容实时分析过滤技术的产品不应该是一个全球通用产品,必须做到真正的完全本地化,才能具备为本地用户服务的能力。
Url过滤是近几年才兴起的一种网页过滤方法,其原理非常简单:通过对互联网上各种各样的信息进行分类,精确地匹配URL和与之对应的页面内容,形成一个预分类网址库。在用户访问网页时,将要访问的网址与预分类网址库中的地址进行对比,以此来判断该网址是否被允许访问。例如我们事先设定禁止访问色情类网站,当某个用户想要访问www.XXX.com时,系统会对比该网址在预分类网址库中属于哪一类?是否被允许访问?从而达到控制访问的效果。
与内容实时分析过滤相比,Url过滤方法具有节约带宽,降低访问延迟,减少误判率的优点。但是,Url过滤方法也存在一定的应用限制:首先,采用Url过滤方法的产品也不能是全球通用产品,这同样牵扯到法律、文化、宗教等诸多问题,例如中西方对色情和成人的评定等级就不相同,这就要求预分类网址库收集、分类必须符合当地法律法规、道德文化标准、用户使用习惯等。其次,预分类网址库必须实时更新,我们知道互联网的发展日新月异,每天都会有大量的新网站诞生,这就对采用Url过滤技术的产品提出了实时更新数据库的要求。还有,既然采用预分类的方式过滤Url,就对预分类网址库的精确度提出了很高的要求,预分类的网址不但要数量庞大,还要具有非常高的分类精确度,才不至于出现误判、漏判的可能。
由于网页过滤与法律、文化、宗教有着很高的相关性,过滤技术的发展已经不能完全满足用户的需求。而智能系统对内容的分析判断总是会有些偏差,无论是实时的内容扫描分析,还是预分类的Url过滤方法,都无法做到100%的准确判断。但是完善的本地化服务却能弥补先天的不足,只有把用户的需求和利益放在第一位,为本地用户提供真正适合的产品和服务,才能在市场上立足根本。
目前,网页过滤技术正向两个主要方向发展:
1.内容实时分析;
2.Url过滤。
内容实时分析过滤是指在访问Web内容时,对内容进行实时扫描,根据已知的敏感关键字/词、图片和页面构成特点,分析是否含有禁止访问的内容。这是最有效的控制方法,只要建立一个足够完全的关键字库就可以完全杜绝对不良信息的访问。
但是,应用内容实时分析过滤技术却受到网络延迟、法律法规、文化道德、维护更新等多方面因素的限制。首先,该类产品对分析算法要求很高,并且要有相应运算能力的设备支持,否则在遇到大量数据分析时可能会造成严重的网络延迟、误判漏判等问题。其次,此类产品需要人工维护更新一个庞大的关键字数据库,不断将新的禁止访问的内容关键字添加进去,但是对内容的分析需要跟文化、法律、宗教信仰等多方面结合起来评判,因为不同地区、不同文化、不同法律对信息良莠的定义都不相同,特别是在中国,一个词可以用多音字、谐音字、拼音字母等多种方式表现,为关键字数据库的维护带来了巨大的难度。而这个维护更新工作一般是由用户自己完成,因为不同的用户对需要过滤的内容有不同的需求。还有,内容实时分析过滤需要将网页内容下载到本地才能进行分析,对系统资源和带宽资源都造成了一定的浪费。
因此,采用内容实时分析过滤技术的产品不应该是一个全球通用产品,必须做到真正的完全本地化,才能具备为本地用户服务的能力。
Url过滤是近几年才兴起的一种网页过滤方法,其原理非常简单:通过对互联网上各种各样的信息进行分类,精确地匹配URL和与之对应的页面内容,形成一个预分类网址库。在用户访问网页时,将要访问的网址与预分类网址库中的地址进行对比,以此来判断该网址是否被允许访问。例如我们事先设定禁止访问色情类网站,当某个用户想要访问www.XXX.com时,系统会对比该网址在预分类网址库中属于哪一类?是否被允许访问?从而达到控制访问的效果。
与内容实时分析过滤相比,Url过滤方法具有节约带宽,降低访问延迟,减少误判率的优点。但是,Url过滤方法也存在一定的应用限制:首先,采用Url过滤方法的产品也不能是全球通用产品,这同样牵扯到法律、文化、宗教等诸多问题,例如中西方对色情和成人的评定等级就不相同,这就要求预分类网址库收集、分类必须符合当地法律法规、道德文化标准、用户使用习惯等。其次,预分类网址库必须实时更新,我们知道互联网的发展日新月异,每天都会有大量的新网站诞生,这就对采用Url过滤技术的产品提出了实时更新数据库的要求。还有,既然采用预分类的方式过滤Url,就对预分类网址库的精确度提出了很高的要求,预分类的网址不但要数量庞大,还要具有非常高的分类精确度,才不至于出现误判、漏判的可能。
由于网页过滤与法律、文化、宗教有着很高的相关性,过滤技术的发展已经不能完全满足用户的需求。而智能系统对内容的分析判断总是会有些偏差,无论是实时的内容扫描分析,还是预分类的Url过滤方法,都无法做到100%的准确判断。但是完善的本地化服务却能弥补先天的不足,只有把用户的需求和利益放在第一位,为本地用户提供真正适合的产品和服务,才能在市场上立足根本。
- 华为BYOD:网络与安全珠联璧合办公更自在(09-15)