以人工神经网络为代表的新的算法范式,对于推荐系统中许多难以解决的老问题,很可能会有非常好的效果。

  新闻推荐算法是目前新媒体研究中的热点。在前互联网时代,报纸、广播、电视等传统媒体主要通过人工为受众推荐信息;在互联网发展的初期,信息的热门推荐方法得到发展并在雅虎等网站大量使用;目前所处的大数据时代,则以个性化算法推荐和信息流展现为主流。

  供图/CFP

  个性化新闻推荐系统在实际的应用中褒贬不一,通过对一些用户的访谈,笔者发现,个性化新闻推荐中往往含有一些劣质内容,利用人性的弱点,导致过度娱乐化的新闻泛滥。这些刺激感官的内容吸引人们点击,造成了点击量上的“虚假繁荣”以及用户的“信息成瘾”。

  个性化新闻推荐算法的问题

  (一)内容不符合用户兴趣

  个性化推荐算法并不一定能把符合用户兴趣的内容推荐给用户,造成这个问题的原因有很多。

  从数据质量上看,个性化推荐对数据的数量和质量要求比较高,如果一个用户缺乏有质量的数据,个性化推荐远远不如热门推荐的效果。多数新闻资讯类应用要面对大量历史阅读记录空白的新增用户,对他们进行个性化推荐的效果并不好。这个问题被称为“冷启动”问题,是大多数个性化推荐系统面临的共同问题。

  从目前自然语言处理的局限来看,个性化推荐系统无法对文章内容做深入理解。目前的自然语言处理只能从其特有高频关键词层面进行标签层面的相似度匹配,这样产生的肤浅话题,无法与用户气质、性格、生活方式进行深层次匹配,很难满足用户阅读新闻资讯中一些细腻的心理需要。

  协同过滤算法本身的缺陷,亦造成了一些个性化推荐算法的推送内容不符合用户兴趣。一个经典的例子是,娱乐新闻往往很受欢迎,因此用户在协同过滤中的近邻群体多少都阅读过一些娱乐新闻,但这个用户可能从来不读娱乐新闻,强行推荐会使他反感。

  (二)内容质量问题

  纯粹的个性化推荐系统对文章的质量和内容是没有把关的。算法所做的只是提取文章中包含的特征关键词,并将其与用户兴趣进行匹配。算法并不知道文章水平如何,内容是否健康。一篇文章可能没有任何有意义的内容,只是堆砌一些用户可能感兴趣的词语,但仍然会被算法推送给用户。算法本身是对用户特征和文本数据进行匹配,因此越是相似的结果越会被优先推荐,这容易导致内容同质化。

  (三)信息茧房与信息成瘾

  信息茧房(Information Cocoons)指的是信息个性化技术使得人们可能减少阅读多样化内容的趋势。由于个性化推荐系统是根据用户已有的阅读偏好进行关键词匹配和推荐,因此相似性较低的内容基本上不会被推荐,这样用户的阅读内容会变得狭隘。在一次又一次阅读自己喜欢领域的信息后,用户不断地在自己与整个世界之间筑起一座高墙。许多人沉湎于这样的拟态环境中,无法自拔。

  (四)可遗忘性

  个性化推荐算法“记住”了用户看过的文章和相应的喜好,但是对于用户来说,这种记住不一定是好事,用户也存在着让算法忘记他过去喜好的需求。

  (五)版权

  算法只负责推荐,并不知道文章由谁撰写,以及是否涉嫌抄袭。事实上,有很多企业的推荐系统中推荐的文章数据,是由爬虫从其他网页抓取的,换句话说,是未经授权的窃取。

    推荐算法的优化策略

  (一)技术不断革新

  运用以人工神经网络为代表的新的算法范式,对于推荐系统中许多难以解决的老问题,很可能会有非常好的效果。目前,以深度学习为代表的人工神经网络方法在图像识别、声音识别领域取得了巨大成就,人工神经网络方法,正在被许多研究者尝试运用到推荐系统中。

  针对很多新用户缺乏数据沉淀,从而难以进行有效推荐的问题,可以通过获取用户其他平台信息、获取用户已安装的其他软件信息以及引导用户进行口味选择这三种方法来解决。需要注意的是,此举可能侵犯用户隐私,在实际应用中,应当获得用户的许可和授权。

  程序可以通过用户ID获取其他应用内的数据。用户如果是以微博账号登录到系统中,可以尝试获取其微博关注信息、转发信息等,从中提取文本关键词,在推荐层面把关键词加入到用户画像中,然后匹配相关文章进行推送。

  最简单直接且效果也比较好的方式是请用户直接表达出其喜好的资讯话题。很多应用都采用了这种直接的方法来获取新用户初次打开时的喜好。对于协同过滤算法可能存在的不恰当推荐问题,在应用上可以增加一个设置界面,允许用户设定明确不想被推荐的话题,增加算法的可预测性和可控制性。

  可以考虑给予优质内容生产者发布的内容以更高的推荐权重,使其更容易被用户接触到,并且进行合理的广告收入分成,让优质内容能够实现循环再生产。另外,应当加强内容审核,有针对性地开发一套机器学习系统,根据文本关键词特征识别出低俗内容,以人工审核为辅助,守住内容安全的底线。

  基于内容的推荐不应当划分得过细,以免推荐文章与原先文章主题重合度过高。建议的做法是对新闻资讯文章进行分类,根据用户阅读记录,提高用户经常阅读分类的权重。

  算法的可遗忘性问题只需通过加入重置用户画像的功能,即可圆满解决。

  (二)构建优质内容生态

  从内容生态的构建角度,互联网企业应当考虑整个产业的长远发展,将回报向优质内容的生产者进行倾斜,同时遏制低俗内容的蔓延。

  作为互联网公司,要改变单纯追求用户时长的KPI(关键绩效指标)评判标准,注意内容的消费升级。

  (三)加大人工审核力度,加强立法管理

  尽管自动化内容审核系统已经做得比较先进,但仍需要人工审核来进行最后把关。要积极通过立法方式规范监管,鼓励优质主旋律内容的生产和传播。同时政府机构应当发挥作用,对市场调节失灵的情况进行合理干预,让信息流消费市场不至于沦为低质量内容循环生产的垃圾堆。政府还应对互联网企业加以引导,鼓励企业将算法权重向优质内容倾斜,对频频出现三俗内容的产品加以约束。

  (四)克服信息茧房

  互联网公司应该改变唯用户时长的KPI评判标准,从更大的格局考虑推荐系统的目标。一方面,扩展推荐内容的广度,增加用户的兴趣点,可保证用户的长期体验,避免用户兴趣转移时放弃该应用;另一方面,拓展用户的兴趣,可以使得推荐给用户的广告信息不局限于一个小范围内,从商业利益角度来说也大有好处。

  技术上克服信息茧房问题也有多种途径,比如,信息茧房产生的一个重要原因是推荐系统缺乏了解用户内心的手段,使得用户稍有点击行为,便过于“殷勤”地将相关内容推送给用户。因此,使推荐系统获取更多输入信息以增进对用户的了解是一个重要的方法。

    协同过滤亦能有效帮助用户发现新的兴趣点,协同过滤算法本身的原理就是把同用户类似的其他用户阅读过但用户未阅读的内容推荐出来。同时,推荐系统中的热门推荐算法会依据当前阅读量排序获得一些热点资讯,多与用户当前兴趣无关,但也能帮助用户发现新的兴趣点。(匡文波:中国人民大学新闻学院教授,博士生导师;陈小龙:中国人民大学新闻学院)