http://www.scol.com.cn 四川在线 2003-02-28 10:33:36

当前中国普遍采用“关键词技术”过滤网络不良信息,中科院声学所新近研发的HNC网络信息过滤器具有立场判断和内容审查功能,率先在世界上突破了语义分析难题。

2月18日,中新社报道说,“中国科学院声学所开发了‘法轮功内容审查系统’,在概念层次网络技术句类分析的基础上,进行文章或段落语义的分析,其技术水平在汉语语句理解方面达到国际领先水平。”就此,《21世纪环球报道》记者采访了负责开发该系统的北京大正语言知识处理研究院董事长陈小盟。

HNC不只过滤“法轮功”内容

陈小盟告诉《21世纪环球报道》,当前中国过滤网络不良信息和敏感信息时,普遍采用过滤关键词,封堵网站域名和IP地址的方式。受技术限制,只能全部封堵,在实现过滤的同时也带来不便。陈小盟称,他们新研发的网络信息过滤器具备了立场判断,内容审查的功能,使计算机能识别和处理人的语言,率先在世界上突破了这一难题。陈小盟对此十分自豪,“现在使用的过滤器很多,但都广泛采用‘关键词技术’,而不能进行语义分析……”

在大正技术人员向记者演示这套系统神奇之前,陈小盟特意叮嘱,希望能让人们完整了解这套技术,澄清一些外界所传播的误会。这套软件不叫“法轮功内容审查系统”,而是叫HNC网络信息智能过滤器。HNC是Hierarchical Network of Concepts(概念层次网络)的缩写,是一个创新的语言理解理论与技术,诞生于中国科学院声学研究所,由该所黄曾獉A先生潜心研究十几年所创。在此理论基础上,由大正公司开发建立语言知识处理基地,开发语言理解应用系统,包括了“机器翻译、情报发掘、电子文本校对”等。网络信息过滤只是其中一项,HNC-XF3又是其中一个独立的法轮功过滤插件,是应政府当前急需而设计的。

陈小盟说,“我们的HNC网络过滤器什么都能过滤,只要用户提出需要过滤的要求,我们可以建立相应的庞大数据库给予支持。有的单位希望能过滤股票信息,我们很容易能帮忙做到。这一系统同样还可以应用到过滤台独、藏独信息上。”

正反立场顷刻见分晓

大正技术人员领记者至电脑旁,将一篇持极反方立场的敏感文章拷入系统中,点击菜单上的分析按钮,不到1秒钟时间,系统告之,此文“绝对黑”。随后,“绝对黑”的文章被另一篇持极正方立场的敏感文章代替,再点击分析按钮,同样不到1秒,系统告之,此文“绝对红”。为了能说明系统是建立在语义分析基础上,技术人员特意在“绝对黑”一文的敏感词中加入了大量符号,显示结果仍然是“绝对黑”。

除了“绝对黑”和“绝对红”两种判断外,还有“可疑,可疑2,可疑1,中性”四个级别的判断,至于何种级别的内容可以显示,由网关自行设定。技术人员打开另一台电脑,在浏览器中输入“绝对黑”一文的网址,几秒钟之内,连接中断,随即跳出无法显示的菜单。与此同时,网关接到报告,立即显示出另一台电脑的IP地址及“绝对黑”一文的网址。

技术人员又演示HNC的另一个产品,打开任意网站的任意文章,点击菜单上的分析按钮,立即得出此文类别的分析报告:内容中“军事”、“政治”、“文化”等各占多大百分比,从而归属于哪一类别文章。演示的结果是,系统对文章类别的判定,基本上与网站的归类相同。陈小盟解释说,“由于不是关键词判断,在HNC搜索引擎上键入足球,那么所有跟足球有关的信息都能被检索,比如有关米卢、黑哨的消息也不会漏掉,即使信息中根本不包含足球两字。不过与过滤器一样,所有产品都是建立在同一原理之上的。”

个人、局域网、国家均可使用

陈小盟对网络信息过滤器的前景看好,不仅政府网管部门及机关单位需要,公司、家庭和个人也需要。已通过国家鉴定后,他作好了该项技术产品化和产业化的中长期战略规划。陈小盟认为,从技术上大正可以支持和建立比较完整的过滤系统,其产业化实现的目标是“建立高性能的三级过滤体系和网络技术维护平台体系。”

除了HNC-XF3过滤插件外,HNC网络信息智能过滤器分为三种版本:

第一种是个人终端单机版(HNC-XF2),安装在单个电脑上,供个人过滤网页、邮件等使用,大正认为这样的用户数以百万计。

第二种是局域网网关过滤网络版(HNC-XF1),应用于局域网和网吧,并把用户行为上报政府监管部门;在门户网站、网吧、局域网和社区服务网上安装服务器,对其发布或访问的信息、BBS聊天室内容实时监控,实施过滤,大正估计这样的用户约有20万个。

第三种是网络进出口监控系统(HNC-XF4),主要安装在互联网的国家级出口,监控有害信息,跟踪重点对象,及时发现问题,采取措施。国家级出口约有30个,应是主要用户。

HNC有害信息过滤97%

HNC网络信息智能过滤器同样面临着两种挑战。目前通行的过滤软件颇多,“过滤王”,“超级网管”,“网络警察110”是比较著名的过滤类软件。生产“过滤王”的珠海捷朗菱公司技术人员告诉《21世纪环球报道》,所有研发网络信息过滤技术的机构其实都在朝着语义分析,人工智能判断方向发展,但受目前整个世界的技术水平所限,仍处在研究阶段,没有谁能把它作为产品推出来。他表示,自己的公司内部也有这种软件,只是作为实用性产品推出还有很大距离。陈小盟也承认,现在很多机构也在潜心研究这种技术,并且都对大正率先突破世界难题抱有质疑态度。

另一个事实就是,中国网络信息过滤技术不断发展,而反过滤技术也水涨船高。一位不愿透露姓名的网络高手对记者说,目前常见的突破网络过滤的方法就有十几种,通过加密代理、代理跳板、花园网、无界浏览等方式和软件就能很轻松地绕过网关的堵截,浏览任何网站都不成问题。这位高手还表示,即使HNC智能过滤器的过滤率能达100%,只要国家级出口不安装,那么也只能对单位、公司、网吧的局域网有效,个人在家上网仍无法过滤。

陈小盟称,HNC过滤器只审查内容的立场,只要网关安装了它,虽然绕过了堵截,找到了有害信息地址,同样无法浏览。他说,任何技术都不可能达到100%过滤率,所以我们要有三级过滤体系呢,经过国家出口、局域网、个人三道过滤后,能达到97%以上漏网的有害信息就不多了。“欢迎你以后带着最好的反过滤方法来向我们的HNC过滤器挑战”,大正技术人员自信地对记者说。

“这种过滤技术更温柔”

响马(网名)是个很有名的编程高手,记者向他请教这个问题时,他似乎也不太相信能有这么厉害的过滤器。“现在能用加密代理加开的网页,即使有了这个HNC过滤器照样能打开”,他解释说,“如果连加密传送都能被破解,那么基于这个基础之上的整个电子商务体系都要崩溃了,所以我觉得是不可能的。”响马认为,如果国家采用HNC网络信息过滤技术的话,无疑对网民是个好消息,可以浏览的信息会大量增加,因为它不像“关键词技术”那样不加判断全部过滤。他补充道,“这种过滤技术更加温柔了,呵呵!”

HNC即将进入产品产业化阶段

2000年9月,信息产业部科技司组织的鉴定认为,HNC语言理解技术“在汉语语句理解处理方面达到国际领先水平”。为把它推向应用,创造社会经济效益,同年12月,中科院声学所与北京麦纳科技发展有限公司合资组建了HNC研究院,注册名为大正语言知识处理研究院。

HNC研究院声称,即将进入产品产业化阶段。目前他们正按照有关信息安全主管部门的提示和产业化要求详细论证,组织申报,以求得国家政策支持,更好为国家信息安全和社会稳定服务。陈小盟表示,下一步将争取让国家级进出端口用上这种先进的软件。

相关文章:刘晓波:领先于世界的精神阉割术


0 条评论

发表评论

Avatar placeholder

您的电子邮箱地址不会被公开。