内容审核基础分享（审核方式流程与审核维度构成内容审核）

作者：SEO专员阅读数：发布日期： 2023-05-16 22:32

对于资讯类产品和内容内产品来说，内容审核是必不可少的环节之一。借助人工智能的发展，可以让机器替代一部分审核工作，但由于内容的复杂性，人工审核必不可少，而且还有其他需要考虑的点。这篇文章，作者为我们讲解内容审核的方式与流程，希望能对你有所帮助。

何为内容审核？

简单来说就是：对用户在社交平台上上传、发布或共享的内容（文字，图片，音频，视频）进行审查。

其主要目的是对低质庸俗的内容进行过滤筛选，从而生产高质量的内容、防止降低用户体验、保持良好的内容调性。

而在这个过程中，平台会对于内容有一个专业的标准作为参考，这个时候有一个很大的问题就是人工筛选效率低，而且成本大。

所以很多内容平台采用了算法进行过滤，通过人工和算法的有效结合来提升效率。

经过过滤后的内容基本上能保证无害，即使质量不高，但也不存在风险问题。这时企业就会面对选择是先发后审还是先审后发：

“先发后审”：即用户先发表UGC内容，再经过审核；
“先审后发”：即用户提交UGC内容后，先经过审核，审核通过后才能发表上线。

“先发后审”和“先审后发”的适用场景：

“先发后审”：适用于对发表内容时效性要求较高的场景，如阅读、听歌等场景下的用户评论，此时用户发表评论更多出于即兴，因此从用户的角度考虑，希望自己发表的评论能够马上看到成功、有效。比如：网易云音乐评论。
“先审后发”：适用于在社区、论坛、新闻平台等场景下发表文章、观点、讨论等，此时对于平台方来说需要对内容负责、并构建权威性，因此通常要审核后才能发表。比如：抖音、人人都是产品经理。

一、审核方式

不管是什么内容的审核，都应该包含以下四个基础模块：机器审核、人工审核、用户投诉审核、结果复审。

1. 机器审核

是按照制定好的规则或机器学习算法对内容进行审核.

通常，成熟的审核系统能将95%甚至99%以上的内容都自动审核并做出处理。确定有问题的会被自动删除，难以判断是否有问题的会被标注，进入人工审核程序。

2. 人工审核

虽然用户投诉审核和结果复审大多时候也是人工审核，但这里所说的人工审核，特指审核机器无法判别的内容，通常占平台内容数量的比例不超过5%.

但对于一些大型的内容平台，绝对数量已经很多了。在内容爆炸的时代，我们看到许多平台在全国都有多个审核中心，每个审核中心的员工数量都成千甚至上万。

3. 用户投诉审核

是前两者的弥补，有很多违规内容以前没有出现过;所以不在规则可以过滤的范围内，或者非常隐蔽，规则难以严格过滤。

用户的投诉是发现新问题的重要渠道。通过知乎的危机事件，我们更应该重视对投诉的审核，并及时据此对机器审核做出补充。

4. 结果复审

通常采取抽查方式，比如通过复审机器删除的内容，看规则或算法是否过于严格；比如通过查看人工删除和通过的内容，看员工的工作是否按要求执行；比如通过内容的整体巡查，看是否存在新的问题未被注意到。

二、审核流程

具体流程，以下图为例：

先过机器审核，机器审核通过或不通过；
对机器审核不通过的，再进行人工复审；
对机器审核通过的，再进行人工抽样审核。

三、审核的四个维度

这里一般都是对四个维度进行审核，关键字审核，用户发布次数限制，重复内容过滤和白/黑名单用户。

1. 关键词审核

词语过滤的环节，关键词主要分为三类：

1）禁止关键词

只要匹配到这个词，内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词，比如明确的色情、邪教以及广告的专属关键词。

2）审核关键词

这是最常见的关键词种类，只要匹配到就会自动进入后台进行审核，文章中的关键词会被高亮并罗列出来，有助于审核人员快速判断。审核关键词也应该尽量是专属关键词，以防止太多内容被拦截到后台。

3）替换关键词

在许多平台，我们会在文中看到莫名的号或字母缩写*，这可能不是文章作者写的，而是这个词被系统自动替换。平台不希望出现这个关键词，但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语，都有可能被自动替换。

当然，管理员在添加关键词时，很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤，比如在关键词内加一个空格，系统就难以匹配到。

所以，一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字，x 是忽略的字节数。在Discuz!网站后台有明确说明，如 “a{1}s{2}s”(不含引号) 可以过滤 “ass” 也可过滤 “axsxs” 和 “axsxxs” 等等。

对于中文字符，若使用 GBK、Big-5 版本，每个中文字符相当于 2 个字节；若使用 UTF-8 版本，每个中文字符相当于 3 个字节。

另外，关键词还可以支持正则表达式，来匹配具有一定模式的关键词。比如”/1\d{10}([^\d]+|$)/”（不包括引号）用来匹配手机号码。正则表达式的内容过多，大家有兴趣可以搜索学习一下。

2. 用户发布次数限制

主要限制一名用户无限制地发送评论。

对这种情况可以设置同一用户一分钟内最多发送一条评论；一小时内最多发送10条评论，一天最多发送三十条评论，评论次数如果超出时则弹出toast“发言太多累了吧，请休息下”的提示。

其实这个限制上线后，发现发广告的人会不断注册新号来规避这个问题，后续可以考虑再加上。新用户需注册多长时间才可发布评论，或需绑定手机号才可以发布评论这些严格的条件。

3. 重复内容过滤

这种一般都是对于发广告的。

对比时去掉除汉字外的任何符号，如“抖丶音”、“快aabb手”，对比时用“抖音”“快手”；将评论与同一用户上条评论作对比，10个汉字以上的若与其中一条重复率达70%（20,60%；30，50%）则弹出toast“请不要发布重复内容”；同时将评论仅与评论库最近发布50条的评论作对比，20个汉字以上的若与其中一条重复率达80%则机审失败（30,70%；50，60%）；

在对比重复内容时一定要去掉一些无关的符号。因为很多小广告喜欢加空格，逗号这些。他们也通常备用好几条文案，可以将评论库的拿出来对比；这样也可以规避他们换号，换文案的问题。