当前位置: 首页 >  谷歌优化

今日头条:AI助力用户推荐(下篇)

发布日期:2020-05-05

在上篇中主要讲了AI助力实现智能推荐的原理流程和方法,在下篇中笔者将通过上手操作,来讨论具体落地的方法。

本篇笔者选择今日头条中的13个类别的信息作为上手对象,如:时尚、旅游、美食、育儿、财经、图片、探索、娱乐、搞笑、直播、体育、科学等,分别通过抽取粉丝数超过百万以上的用户最近的文章、用户标签和۩..分享的图像,最终在13个类别上获取了3】53个用户的ID号和URL,共爬取13个类别的600 382张图像,118 421条文章和 2378个用户标签作为数据集;然而13个类别的2378个用户标签中有▫1110个标签重复,所以删除重复之后,最终得到1286个不重复的用户标签。

由于本篇笔者的目的在于展示AI产品如何上手,so“探讨用户分享图、文章和用户标签中的语义概念是否能够※表征用户的兴趣倾向,并比较单模型数据和多模型数据的推荐效果”,因此将353个用户分为13个类别,其中图像、文章和标签数据如下图:

文章数据处理过程如下:

主要是将13个类别的353个用户的文本数据获取后。〩

首先:对每个类别用户的文本进行去停用词;

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称〖为Stop Words(←◐停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确۩的停用词表♥能够适用于所有的工具。甚至有‰一些工具是明确地避免使用停用词来支持短语搜索的。

接着:再进行分词♂,笔≥者所采用的是Python里的jieba分词,分词完毕后对文章进行深度学习,然后得出每个用户下所有文章的64维特征向量,生成353个用户文章的特征向量;

标签数据处理:

再对用户标签数据处理过程主要是将13个类别的353个用户的2378个用户标签数据获取后,将重复的标签删除,最终得到 1286 个兴趣┝标签,1286 个兴趣标签通过程序生成1286 维度词袋模型;

图像数据处理:

图像数据处理主要使用残差网络(ResNET),ResNet模型获得过图像识别大赛冠军,通过深度残差⊕网络对图像进行识别,在深度和精度上比传统的CNN可以获得更好的语义信息表达。笔者通过使用ResNet模型来构建50层的神经网络,获取1000维特征向量。

最后,将13个兴趣类别的3种数据类型的特征向量进行组合,每位用户生成2350维特征向量。

推λ荐系统配置设置:

不同数量好友的推荐,分析比较它们的精确率(Preci⁃sion)、召■回率(Recall)和F1 值(F1-measure)变化情况。

(1)精确率测试结果与分析。๑

七组数据对比测试在不同好友推荐数目的情况下的精确率(Precision)数据记录,其相应的数据对比情况如下图:

笔者根据上图测试的精确率可以得出以下三条结论:

①测试七文本、标签和图像三类数据的融合推荐效果及其推荐精确率要高于其它单模数据或其它组合数据推荐;但测试四基于文本和标签的融合推荐精确率和文本、标签和图像三类数据的融合推荐精确率相近似,相比其它的单模数据和多模数据的融合推荐效果要好;

②基于图像的好友推荐精确最低,说明图像在高维特征向量表达用户兴趣还比较模糊,但○图像特征融合标签特征效果会好于其它单模特征;

③随着推荐好友数量的增加,单模和多模数据的推荐效果的精确率都在逐步降低。

(2)七组测试数据的召回率测试结果与分析。

七组数据对比测试在不同好友推荐数目的情况Ш下的召回率(Recall)数据记录,其相应的数据对比情况如下图:

笔者根据上图测试召回率可以得出以下三条结论:

①测『试七文本、标签和图像三类数据融合推荐效果的召回率要高于其它单模数据或其它组合数据的召回率;但测试四基于文本和标签的融×合推荐效果的召回率和文本、标签和图像三类数据的融合推荐效果的召回率相近似,相比其它的单模数据和多模数据融合召回率┌效果要好;

②测试三基于图像的好友推荐召回率最低,说明图像在高维特征向量表达用户兴趣还比较模糊,但图像特征融合标签特征效果会好于其它单模特征;

③随着推荐好の友数量的增加,单模和多模◈数据的召回率都在逐步增高。

(3)七组测Ψ试数据的F1值♡结果〓与分析。

七组数据对比测试在不同好友推荐数目的情况下的F1值(F1-Measu∏re)数据记录,其相应的︵数据对比情况如下图:

笔者根据测试的F1值可以得出以下∑三条结论:

①测试七文本、标签和图像三类数据的融合推荐效果及其™推荐F1值要高于其它单模数据或其它组合数据推荐;但基于文本和标签的融合推荐F1值和文本、标签和图像三⿸类数据的融合推荐F1值相近似,相比其它的单模数据和多模数据的融合推荐效果要好;

②基于图像的好友推荐F1值确最低,说明图』像在高维特征向量表达用户兴趣还比较模糊,但图像特征融合标签特征效果会好于其它单模々特征;

③随着推荐好友数量的增加,单模和多模数据的推荐效果≯的F1值都在逐步增高,但这种增高是随着好友的数量增加而缓慢增高。

总结:

在今日头条的产品落地中不仅将用户的文本、标签和图像特征融合进行推荐,也会将将用户的属性特征和社交关系特征融合进行好友推荐;

另外,用户的兴趣是多样性、可变性的,有时推荐系统还会┒加入情境感知信息,如:时间、情感、场景等。这也是今日头条产品重Ↄ点迭代的一个方向。

最后:今日头条也好、抖音也好、多闪也好都是字节跳动旗下的明星产…品,均为AI赋能助力的产品相信推荐系统会越来越融合跨行业和跨平台的推荐打法,突破数据孤岛。具体系统的知识可以见笔者的畅销书《AI赋能:AI重新定义产品í经理》。

升华在以上例子中AI产品经理应该做的事是:

1. 停用词库的构建。

2. 明白关键词术¥语和意义例如:精确率、召┕回率及F1值,精确率(Precision),查准率。Ⅳ即正确预测为正的占全部预测为正的比例。个人理解:真正正确的占︹︺︻所有预测为正的比例。|︴()〔〕召回率(Rec◤all),查全率。即正确预测为正的占全部实际为正的比例。个人理解:真正正确的占所有实际为正的比例。F1值。F1值为算数平均数除以几何平均数。

3. 研究定义产品的分析对象、分析指标、能够应用分析结果。

#专栏作家#

连诗路,公众号:Li◄neLian。人人都是产品经理专栏作家,《产品进化论:AI+时代产品经理的思维方法》一书作者,前阿里产品专家,希望与创业者多多交流。

本文原创发布于人人都是产品经理。未经҉许可,禁止转载。

题图来自Unsplash,基于CC0协议

  • 谷歌手势控制黑科技新进展...

    谷歌公司获得了美国监管部门的批准,可部署一款基于雷达的动作感应设备,也就是外界熟悉的Project Soli项目。美国联邦通信委员会(FCC)在周一晚间公布的命令中称,同意授予谷歌一项豁免,以高于目前允许的功率水平运行Soli传感器。FCC称,这种传感器还可以运行在飞机上。谷歌FCC称,这一决定是出于公众利益考虑,通过免触摸的手势技术提供创新设备控制功能。FCC表示,Soli传感器能够使用雷达射束...

  • CBNData:纸尿裤行...

    报告下载:添加199IT官方微信【i199it】,回复关键词【纸尿裤行业研究报告】即可 消费者画像-性别和年龄 消费者方面,和母婴行业整体情况一样,购买纸尿裤的消费者也是女性居多,并且仍在逐年增加 购买纸尿裤的主力是29-35岁年龄人群,并且这个人群的比例远高于整个母婴行业;23-28岁年轻人群的比例逐年增加 消费者画像-网购深度和消费档...

  • 小米:2017年Q2小米...

    7 月 7 日,雷军发表内部信称,小米手机第二季度出货量 2316 万台,环比增长 70%,是小米手机问世七年以来创造的最高季度手机出货量纪录。 根据 IDC 的数据,2017 年第一季度,小米手机的出货量还不及华为的一半,在中国市场排名第五。雷军把过去一年小米手机销量不理想的原因归结为「两次长达几个月的严重缺货」。而在内部信中,雷军把第...

  • 3成女性,竟因为这个原因...

    16-25岁的女性,每周花在自拍上的时间,超过5个小时;当她们自拍时,她们在想些什么?

  • 毕马威 | 资本寒冬下投...

    199IT数据中心微信账户:i199IT 日前,顶尖会计师事务所界中的“四大”之一的毕马威(KPMG)公布了2015年第四季度全球VC风险投资报告。作为收官之作,其不仅详细阐述了世界“热钱”的流向和流量,也指明了未来创新创业的风口所在。 对于全球范围的创业者和风投机构来说,持续半年多的资本寒冬所带来的影响似乎仍然在持续。然而即便如此,就...

  • 北京大学&安世...

    近期,安世联合(中国)与北京大学“中国居民出境旅游风险研究”项目组联合发布《中国居民出境旅游风险报告》,对海外旅游市场进行了解读,对中国出境旅游风险进行了详细的分析。 中国居民出境旅游市场分析 报告从中国居民出境旅游人次、旅游目的地分布和旅游消费渠道三个方面,回顾了过去十年(2007-2016)中国居民出境旅游市场,并对2017至2020...

  • 2017年大数据十大发展...

    大数据市场将会继续增长这一点毋庸置疑,但企业应该如何应用大数据呢?目前还没有一个清楚的答案。新的大数据技术正在进入市场,而一些旧技术的使用还在继续增长。本文涵盖大数据未来发展的十大趋势,这些趋势可能对2017年及以后的大数据市场产生极大影响。 专家预计,机器学习、预测分析、物联网和边缘计算将对2017年及以后的大数据项目产生深远影响。 ...

  • 这几个因素会影响到网站优...

        其中一些因素将影响网站优化的作用。许多SEO的搜索者仍仅停留在排名阶段,而朋友链很难改变。那么百度搜索引擎的关键字排名又如何呢??如何提高您网站的排名?网站的内容和搜索关键词的相关性,网站的相同主题和内容将被百度认可,甚至您的网站减少也会使用户感到不满。网...

  • 如何分析付费用户,第一部...

    付费用户就是为我们的产品带来收入的人。了解付费用户行为的细微差别是很重要的:比如他们都买了什么,付费频率是怎样,花了多少钱等等。了解用户在上述行为中的感受是很重要的,用户投资了我们的产品是否让他们感到满意。实际上,在F2P网络游戏中玩家的每次付费都是投资:在一开始的时候玩家的付费,会在最后得到一个投资回报率(ROI),可以用货币化的方式衡量玩家体验的情绪。因此我们应该了解用户,即使他们是少数的.....

  • 【网络广告销售技巧】设计...

        一个好的营销网站是企业24个小时的推销员,很难在规划上是不合理的,客户能够付出,假如做到了,那就是你的主动东西每天赚24个小时。横幅直奔主题,中心卖点是买卖网站最重要的网站之一。一个好的横幅可能是规划的中心。         直奔主题,...

  • Ponemon Inst...

    根据Ponemon Institute周三公布的网络犯罪报告显示,对美国大公司的网络攻击导致这些大公司今年损失1270万美元,同比增长9.7个百分点。该报告显示,网络犯罪给大公司造成的损失当中,业务中断和信息丢失占了近四分之三。 研究还证实,将安全置于优先考虑的公司,年内和安全事件相关的成本更低,使用安全技术防止关键系统被入侵的公司...

  • 今日头条:AI助力用户推...

    在上篇中主要讲了AI助力实现智能推荐的原理流程和方法,在下篇中笔者将通过上手操作,来讨论具体落地的方法。 本篇笔者选择今日头条中的13个类别的信息作为上手对象,如:时尚、旅游、美食、育儿、财经、图片、探索、娱乐、搞笑、直播、体育、科学等,分别通过抽取粉丝数超过百万以上的用户最近的文章、用户标签和分享的图像,最终在13个类别上获取了353个用户的I...