头条号平台去重消重的过程(一


1.消重的种种好处

你可能会觉得,消重对原创发布者有利,但对于那些善于发现和再加工优质内容的媒体不太有利,但是综合看来,我们觉得消重的好处是很多的,尤其对于用户来说:

优化用户的体验。对用户来说,同样主题的文章看一篇就够了;

鼓励原创!在文章相似的情况下,申明「原创」文章是后续获得推荐的重要指标;

给更多内容以曝光机会。因为用户的兴趣是确定的,如果每次刷新都反复推荐类似的内容,你发布的其他内容不就没有曝光机会了吗?

当然,总体来说,这是一个有利于原创者的机制,这也和头条号平台鼓励原创内容生产的目标一致。

2.头条号算法中的消重过程

如何判断两个内容是否相同呢?如果让人来判断,可能就要逐字逐句地把文章读完才能判断得出来。通过计算机这样去判断当然也是可以的,不过,当每天需要处理的内容达到十多万篇次的时候,这么做即使对于计算机来也太麻烦了。

有没有更简单的方法呢?有的,通过系统的计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。文字信息的「身份证」也能起到类似的作用,对于图片、视频等信息形式,原理也是类似的