对《网站非法内容监听系统的构想》的回复——我谈非法内容核查方法

简介:

刚才看了谢慧琦(是个MM??)的《网站非法内容监听系统的构想》一文,觉得其中所述的想法与我之前的设想非常相像,所以我忍不住也想说几句了,嘿嘿:


我原先的设想就是在用户提交时,对提交内容进行危险程度核查,也是予以评分。

无危险的内容直接发布;

有一定危险的内容也会发布,但在发布的同时会在后台提请管理员进行人工审查;

高危险度的内容延迟发布并通知管理员。


对于关键字的危险度分值我觉得可以采用1-10的数字来表述,简单明了,一般一个文章评分达到10就应当算作高危了,所以可以把一些高危词语直接设为10分。

文章评分方面不应太复杂,会影响效率,而且也很难找到太精确的算法。我觉得就是关键字出现则加入其分值,如再重复出现,则每次只增加其分值的1/10。


关键字检索方面也不需要太复杂的语言分析技术, 正则表达式就足以胜任,看我这个示例:


表达式中的“6”就是模糊值,表示脏字之间可能插入6个以内的干扰符号,这个可以由程序员通过配置参数控制,整个表达式可以由程序来根据关键字自动生成。

其效果应该是不错的,除非用通假字、错别字、同音字、火星文来写,或者竖版写、逆向写~~,当然逆向写还是可以通过程序简单处理一下,其他的就麻烦了。


我非常不赞成用关键字替代的方法去使内容合法化,原因如下:

一、这种方式经常出错。比如魔兽世界里说“奥格瑞玛银行门口交易”就会变成“奥格瑞玛银行门^&*#$#易”,“金色魔线”发出来都会变成“金%##*线”,当然这在即时聊天中可能是唯一可行的方案了,用户不可能说出去话之后等待GM审核后才能真正发出。

二、这是一种掩耳盗铃的行为。大多数情况下,尽管关键字被抹去,读者依然可以通过上下文了解到发布者的大略意图,比如谩骂和攻击性言语。

三、这有可能会引起误会。结合一和二两条,假如在正当的使用情况下被过滤掉了部分文字,而这时上下文又恰巧可以被理解为其他的意思,这时很容易引发读者的误解。比如某人给你发来一条带有过滤符号的消息,你很可能以为他在使用不文明的语言攻击你。

四、用户会想方设法蒙混过关。比如你把“和谐”屏蔽了,用户就会尝试加入一些干扰符号,或者采用“河蟹”这类自造词来自行替代,这样都不会对读者理解造成太大干扰,而管理员绝不会坐视不管,所以不久之后“河蟹”也被和谐了。这就形成了一场竞赛,管理员和用户都在不断扩充自己的关键字库来实现胜出。而在一次次编辑、重发、扩充、审核之中,用户和管理员都浪费了精力与时间。


我觉得对于网站来说,人机协作的审核机制是就最好的:

一来大多网站都不要求时效性;

二来用户发布的内容如果未通过机审及人审,他也很难通过多次尝试来蒙混过去,首先人审在时间上造成了尝试间隔,其次他很可能已被加入黑名单受到高度关注;

第三就是如果用户知道有人工参与审查,多半会放弃发布不良信息的念头。

而且人机协作仍然能保证不错的效率,因为绝大多数正规的内容都会直接通过机审而发布出去,这样用户就感觉不到有什么不同。


对于应用方式,谢慧琦所说的数据库层面的核查理念的确不错,但是我感觉可能会在部署时有些难度,程序要一直监视数据库的话,应该不是一般的网站权限能达到的吧。

我觉得就是作为一个独立的类库来编写就能保证很好的复用性和通用性。使用的时候还是应该用在业务逻辑层,在提交时审核并决定处理方式。


欢迎其他朋友也参与到讨论中来,我们甚至可以搞一个开源项目,一起维护代码和关键字过滤库哈:)  


本文转自斯克迪亚博客园博客,原文链接http://www.cnblogs.com/SkyD/archive/2008/09/14/1290701.html,如需转载请自行联系原作者

相关文章
|
7月前
|
存储 安全 网络安全
Pikachu敏感信息泄露通关解析
Pikachu敏感信息泄露通关解析
|
7月前
|
开发者
找到一个软件著作权源代码材料格式文档生成辅助工具(完全私密,没有代码泄露风险)
截至2023年5月,一款工具已获一万次下载,用户反馈良好。该工具帮助开发者轻松整理软著申请所需的60页源代码,支持多种编程语言,自动处理页眉、页码和格式,减少因格式问题导致的补正。提供《文档鉴别材料》模板和简单两步操作的源代码文档生成器,加快软著注册流程。下载链接包括百度网盘和阿里云盘。
找到一个软件著作权源代码材料格式文档生成辅助工具(完全私密,没有代码泄露风险)
|
7月前
|
存储 安全 搜索推荐
解析商业电子邮件泄露:深度剖析攻击的含义
商业电子邮件泄露(BEC)攻击是精心策划的网络诈骗,通过假冒高管或供应商诱导受害者转账。例子包括谷歌和脸书被骗走1.21亿美元,丰田子公司损失3700万美元。BEC不仅导致财务损失,还损害企业声誉,影响员工信任和士气。防止措施至关重要,因为一旦中招,可能面临法律和经济双重打击。
77 1
|
7月前
|
数据安全/隐私保护 开发者
关于小游戏用户隐私保护违规警告的处理方案
关于小游戏用户隐私保护违规警告的处理方案
81 0
|
XML SQL 安全
【web渗透思路】敏感信息泄露(网站+用户+服务器)
【web渗透思路】敏感信息泄露(网站+用户+服务器)
664 0
【web渗透思路】敏感信息泄露(网站+用户+服务器)
|
机器学习/深度学习 人工智能 算法
基于PaddleX的可疑人员电子图片信息检查
基于PaddleX的可疑人员电子图片信息检查
117 0
基于PaddleX的可疑人员电子图片信息检查
|
数据采集 存储 安全
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
723 0
程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?
|
数据采集 监控 定位技术
程序人生 - 爬虫究竟是合法还是违法的?
程序人生 - 爬虫究竟是合法还是违法的?
235 0
|
数据采集 前端开发 安全
网安入门须知:注释的危害居然这么大?——注释漏洞导致的信息泄露
注释导致的信息泄露 一、什么是信息泄露漏洞? 二、信息泄露有什么危害?
587 0
网安入门须知:注释的危害居然这么大?——注释漏洞导致的信息泄露
|
搜索推荐 SEO
网站内容从哪些方面检查?针对网站内容检查七大项目
网站优化工作中,影响网站排名的一个很重要的因素关于网站的内容。很多网站排名一直没有提升,大部分的原因有可能是网站的内容质量,搜索引擎认为没有价值性,也不会给予权重。针对网站的内容我们可以从这些方面去考虑。 网站内容从哪些方面检查?针对网站内容检查这七大项目:
279 0