2024-10-04,由Ekstra Bladet创建的EB-NeRD数据集,为新闻推荐系统的设计提供了丰富的用户行为数据和新闻文章内容,目的解决新闻推荐中的技术与规范性挑战,推动负责任的新闻推荐系统的发展。
一、研究背景:
推荐系统在数字媒体中扮演着至关重要的角色,尤其是在视频流媒体和社交网络中。然而,在新闻发布领域,由于一系列特定领域的挑战,推荐系统的采用受到了限制。
目前遇到困难和挑战 :
1、 新闻文章持续不断地发布,且迅速过时,导致严重的冷启动问题。
2、 新闻平台上鲜有用户对新闻文章的明确评分,需要基于用户的浏览行为等隐式反馈来建模用户不断变化的新闻兴趣。
3、新闻推荐系统必须有效利用新闻文章的文本信息。
数据集地址:EB-NeRD|新闻推荐数据集|数据集数据集
二、让我们一起看一下EB-NeRD数据集
Ekstra Bladet News Recommendation Dataset (EB-NeRD) 是一个包含超过一百万独立用户和超过3.7亿次展示日志的新闻推荐数据集,它还包含了超过12.5万篇丹麦新闻文章的集合,包括标题、摘要、正文和元数据等。EB-NeRD数据集收集自Ekstra Bladet的用户行为日志,涵盖了从2023年4月27日至6月8日的6周时间内的数据。
数据集特点 :
数据集包括用户ID、文章ID、事件时间、阅读时间、滚动百分比、用户使用的浏览设备类型、用户的订阅状态等丰富的非文本特征。
数据集被用作2024年ACM推荐系统会议(RecSys)的挑战基准数据集,目的解决新闻推荐中的技术和规范性挑战。
基准测试:
在RecSys '24挑战赛中,EB-NeRD数据集被用来评估不同的新闻推荐系统设计,包括排名和超越准确度的评价。
EB-NeRD 的详细统计数据
三、展望EB-NeRD数据集的应用
比如,我是一名新闻网站的编辑。每天,我和我的团队需要决定哪些新闻故事应该放在网站的首页,哪些应该推广到社交媒体。这个决策过程很大程度上依赖于经验和直觉:我们通常会根据新闻的紧迫性、重要性以及可能的用户兴趣来选择新闻。为了让新闻吸引点击,我们会精心编写或编辑每个新闻标题,同时还需要将新闻归入合适的类别,比如“政治”、“体育”或“娱乐”。然后等新闻上线后,我们还要密切关注点击率和用户反馈,以此来判断新闻是否受欢迎。这个过程既耗时又依赖于主观判断,而且很难确保每次都能击中用户的兴趣点。
哎呀,脑壳疼,一天几杯咖啡不在话下,苦逼的打工人。
现在,有了EB-NeRD数据集训练的智能系统:
这个系统能从海量的用户行为数据中学习用户的兴趣和偏好。
- 智能推荐新闻:系统会分析用户过去的点击行为,预测他们可能感兴趣的新闻主题,然后推荐相关的新闻故事。
- 优化标题:系统会根据用户的反馈学习哪些标题更能吸引点击,然后给出标题优化建议。
- 情感分析:通过分析新闻内容的情感标签,系统能建议如何调整新闻的语气和角度,以更好地吸引特定用户群体。
- 个性化推荐:系统不仅能推荐新闻,还能根据不同用户的兴趣和阅读习惯,提供个性化的新闻推荐。
这不,最近我们发现一篇关于本地体育赛事的新闻在某个区域的用户中特别受欢迎。通过EB-NeRD数据集训练的智能系统分析了这个区域的用户行为和反馈,发现他们对体育新闻特别感兴趣,尤其是本地赛事。
- 分析数据:系统分析了文章的类别、用户点击率、阅读时间和滚动百分比等数据。
- 预测用户兴趣:系统预测这个区域的用户对即将到来的一场重要篮球比赛的新闻会有很高的兴趣。
- 优化内容:我根据系统的建议,提前准备了一篇关于这场比赛的深度报道,并优化了标题,使其更具吸引力。
- 发布和监控:新闻上线后,系统实时监控用户反馈,我发现点击率和阅读时间都比平时高很多。
智能系统帮助我们更精准地了解用户需求,优化新闻内容,提高了用户满意度和参与度。