继《王者荣耀》之后,今日头条也被人民日报点名。 批评的焦点是,以今日头条为代表的算法推荐信息平台存在价值缺失、信息作茧、竞争手段无底线的“三宗罪”。

总体来说,人民日报提出的问题是非常客观的。 此前不少新闻行业人士曾报道,低俗信息可以激发人性阴暗面王者荣耀合规外挂,吸引点击。 在推荐算法的加持下,我们的信息流不知不觉中就充斥着婆婆小三、情色故事。 但结论是,不是信息平台低俗,而是算法认为你低俗。

“多数人的暴政”

这种情况被称为“多数人的暴政”。

大多数人都会被低俗内容所吸引,因此创作者会创作更多低俗内容,去掉人类编辑控制的中间环节。 该算法只会根据你有意或无意的点击,将低俗内容推送到信息流中。

这种现象不仅发生在中国,此前也曾被各种恐怖头条所困扰。 不过老外的脑回路很奇怪,他们引入了用户决策机制。 如果你看完后觉得内容与标题严重不符,可以将其标记为假新闻,这样会降低这条新闻的推荐权重。

王者荣耀后,今日头条也遭到了人民日报的点名(图1)

尴尬的是,很多用户会根据个人喜好随意给新闻贴上标签,甚至会因为政治倾向而恶意给某派系的新闻贴上标签。 最后,我们不得不用算法来做出判断——用机器学习来总结之前的头条新闻,对标题相似的文章进行降级。 就是给算法“喂”一批诸如“震惊!”之类的标题。 和“这是事实!删除之前请先阅读!” 算法学习后,会对标题相似的文章进行降级。

事实上,“夸张的头条新闻”、“假新闻”和“粗俗内容”之间往往只有一线之隔。 把决策权交给用户是一种风险很大的行为。 无论是算法还是用户投票,只要是去掉编辑制度的平台,就会出现“多数人暴政”。

如果平台完全依赖用户决定,将被视为不负责任、不积极; 但如果平台参与决策,很可能会破坏“算法推荐”的原有特征。 今日头条和今日头条都在经历这样的矛盾,但对于国内用户来说,不适感更为强烈。

当应用程序冷启动时,用户将选择他们的兴趣标签。 你可以打开信息流,但还是会有一些低俗、夸张的内容。 即使选择了“不感兴趣”,刷几屏后仍然会出现类似的信息。 或者像新闻里说的那样王者荣耀合规外挂,如果你点击一条低俗信息,大量类似的信息就会立即涌入。

王者荣耀后,今日头条也遭到了人民日报的点名(图2)

王者荣耀后,今日头条也遭到了人民日报的点名(图3)

虽然几乎没有公开谈论其推荐算法所依赖的权重,但我们可以看看目前主流的推荐算法,看看今日头条可能错在哪里。

如果您的 Feed 不正确,可能是因为...

在推荐算法中,最常见的是协同过滤算法。 信息产品经常使用基于用户的协同过滤算法,即利用K-算法找到与你兴趣相似的用户,并将其偏好推荐给你。 例如,如果用户A和B都对时事和军事信息感兴趣,并且用户A也对历史信息感兴趣,则系统会向用户B推荐历史信息。

这种基于用户行为的推荐机制在豆瓣等个性化程度更高、社交属性更强的平台上表现更为精准。 但在今日头条这样的信息平台,用户群体更加复杂,用户行为往往是没有目的的——在豆瓣上标记某部电影可能是为了告诉大家,“我是一个看这类电影的人”。 点击今日头条的一条新闻,往往只是因为“你想看”。

这无疑给协同过滤算法的准确性带来了巨大的挑战。 用户本身的属性是模糊的。 如果你的信息流中不断出现你不感兴趣的东西,那么很有可能平台正在使用这种算法。 您推荐类似用户的偏好。

王者荣耀后,今日头条也遭到了人民日报的点名(图4)

然而,信息平台使用最多的是基于内容的推荐算法。 如果说用户协作算法关注的是人与人之间的相似度,那么基于内容的推荐算法则关注的是内容本身。

仍以电影为例,一部电影可以分解为电影类型、时代、演员、导演等多种元素,当用户标记某部电影时,算法会向他推荐同一导演的作品。 这些推荐模型大多适合识别结构化数据——算法并不知道文章和视频中实际说了什么暗区突围卡盟,只能根据结构化数据标注来判断。

这就是为什么大多数信息平台都有标签和关键词机制。 算法必须利用这些结构化标注来判断内容,然后推荐给用户。

这里最大的问题是关键字机制的不准确。 我曾经在某个平台上标注了自己对“宠物”的兴趣,希望能看到一些可爱的猫和狗。 然而有一天,平台居然给我推荐了一个打狗的视频,而且视频下面居然标注了宠物。

王者荣耀后,今日头条也遭到了人民日报的点名(图5)

信息平台的内容越来越丰富,包括短信、图文、问答等。 关键词标注只能提供对内容的粗浅理解,而内容中隐藏的情绪往往会冒犯用户。 在流量的诱惑下,很多创作者会更倾向于产出刺激情感的内容。

王者荣耀后,今日头条也遭到了人民日报的点名(图6)

斗狗、职​​场性骚扰、历史言情,这些内容本身看似合法,但隐藏的暴力、歧视、色情等情感却隐藏在宠物、职场、历史等标签下,被污染了公开哭泣。 信息流。

那么出路在哪里呢?

我们想知道的是,除了加强平台对低俗内容的监管之外,能否有技术上的办法来解决目前的问题。

事实上,相关的研究成果已经有很多,比如谷歌推出的云端自然语言分类功能,可以通过语言来分析情绪。 据称,该功能在分析报纸的某一版面后,自动将其中一份食谱分类到食物栏目中,并且还添加了特定的标签。 而且, Cloud 的自然语言 API 还可以识别情绪,了解文章内容是积极的还是消极的。

更细致的分类和情感识别可以很好地解决上述关键词机制不准确的问题。 正如人民日报文章中提到的,用户兴趣变化的问题也引起了业界的讨论。 有人提出在协同过滤算法中加入用户停留时间和内容相似度两个数据权重。 通过用户在不同内容上停留的时间不同,可以判断用户的兴趣是否发生变化,从而确定推荐内容的权重。

事实上,无论是谷歌云端自然语言分类这样高成本的解决方案,还是调整原有算法这样更简单、更容易的方法,用技术解决推荐算法的局限性并没有想象中那么困难。 ,即使是低俗内容。 “人工智能检测色情”等人工智能工具已经出现。

推荐算法是一项有着悠久历史的技术。 如今,电子商务和广告推荐越来越准确,但信息推荐算法却引起了公愤。 责怪算法是不公平的。

有人说,算法呈现的结果是人性本质的体现。 但从目前来看,算法呈现的更多的是平台、内容创作者等既得利益者的人性。 作为一个每天研究算法的普通内容消费者,我觉得越了解算法,就越不了解人性。

相关产品: