江苏快3全天计划_江苏快3精准计划_江苏快3人工计划-首页_新浪爱彩

主页 > 信息资讯 > 网建知识 >
最新案例
点击这里给我发消息
建站咨询热线:
网建知识

【干货】今日头条的新闻推荐算法原理江苏快3人

来源:未知   日期:2018-02-21 12:57
模型的训练上,头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快,这对信息流产品非常重要。用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们

  模型的训练上,头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快,这对信息流产品非常重要。用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们线上目前基于storm集群实时处理样本数据,包括点击、展现、收藏、分享等动作类型。模型参数服务器是内部开发的一套高性能的系统,因为头条数据规模增长太快,类似的开源系统稳定性和性能无法满足,而我们自研的系统底层做了很多针对性的优化,提供了完善运维工具,更适配现有的业务场景。

  现在,今日头条的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台,一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。整个机制相对而言比较健全,作为行业领先者,在内容安全上,今日头条一直用最高的标准要求自己。

  当然最简单的用户标签是浏览过的内容标签。但这里涉及到一些数据处理策略。主要包括:一、过滤噪声。通过停留时间短的点击,过滤标题党。二、热点惩罚。对用户在一些热门文章(如前段时间PG One的新闻)上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降。三、时间衰减。用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。四、惩罚展现。如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相关的关闭和dislike信号等。

  而中国人都应该说准普通话。但同样道理,如果小时候(十二岁以前)没有说准,成年后就会有口音,尤其南方同学最吃亏,因为缺音。那应该如何纠正发音呢?如果按理所当然的推论,大家天天听标准音就行,那大家天天看新闻联播和听广播就能纠正发音吗?结果不行。到北京住几年口音就改好了吗?结果还不行(还是小孩子行。)那找个说标准普通话的人一起生活还帮助纠正行吗?大家就笑了。很多人帮父母纠正了多少年的口音了,也没见有效呀。那怎么办?原理是一样的:多听各地人的口音,并进行比对训练,耳朵敏感度越来越高,口音就越来越小。这是成年人科学的纠正发音的方法。

  推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。第一个维度是内容。头条现在已经是一个综合内容平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐。第二个维度是用户特征。包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻划出的隐式用户兴趣等。第三个维度是环境特征。这是移动互联网时代推荐的特点,用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。结合三方面的维度,模型会给出一个预估,即推测推荐内容在这一场景下对这一用户是否合适。

  而平台自行发售理财产品,或在官网等渠道以“理财”名义进行宣传;代销各类理财产品、保险产品、信托产品、基金产品等;开展打包资产、证券化资产、信托资产、基金份额等形式的债权转让;资产端对接各类地方交易场所的产品;持有(控制)5%以上股份(表决权)的股东、实际控制人、董事、监事、高级管理人员及其近亲属,以及与平台受同一实际控制人控制的关联方在平台上进行债权转让(即通过“超级放款人”出借资金后在平台上进行债权转让),均属于违反禁止性规定。

  海峡两岸关系协会会长、中国商务部原部长陈德铭,中国世界贸易组织研究会会长、中国首任驻世界贸易组织(WTO)大使孙振宇出席《报告》发布会并作主旨发言。社会科学文献出版社社长谢寿光在发布会上致辞,对外经济贸易大学副校长、全球价值链研究院创始院长赵忠秀教授进行了《报告》的发布。全球化智库理事长、商务部中国国际经济合作学会副会长、国务院参事王辉耀主持会议。来自商务部、CCG、中国世界贸易组织研究会、比尔及梅琳达·盖茨基金会北京代表处、对外经济贸易大学全球价值链研究院等机构的多位专家学者出席发布会。

  孙振宇表示,按照全球价值链的理论,美国对中国的贸易逆差远不如传统的贸易算法中体现的那样大。因而,如果全球价值链的概念能够让美方接受,对于解决中美贸易争端意义重大。对于全球价值链研究的未来,孙振宇指出,应该进一步研究多边贸易体制的发展,包括投资便利化、电子商务、中小企业等议题,而从全球价值链理论可以为这些课题提供新的视角。同时,全球价值链研究也应该积极和WTO目前面临的困境相结合,以更好地为走出困境提供思路。最后,孙振宇强调,中国今后在参与全球贸易的过程中,应重视改善自身营商环境,以及控制一带一路的投资风险等问题。他表示,已经取得长足发展的中国智库,可以在理论创新、人才培养等方面,积极助力中国在国际舞台上承担更多责任。

  如此“一队人、一辆车、10个村落”原生态的广告植入,在毫无违和感的情况下,从内容中突出车型优势,实现了品牌和内容的相通与共情。这也是今日头条所追求的“让广告成为有用的信息”的体现,将需要传递的品牌信息用特定的短视频内容解决。事实也证明,垂直领域短视频IP的价值已经获得了市场的认可。根据第三方调研结果,短视频带来了更好的投放效果:在曝光上,视频广告展示时长高于图文1.5倍;在互动上,视频广告点击率高于图文17%;在转化上,在游戏、网服、教育等行业,视频广告给品牌主带来了30%-40%的转化提升。

  TPR“全身反应法”是上世纪60年代(那个语言学“火红的年代”)由美国心理学教授James Asher提出的。具体实现方式是:通过语言学习者听到一个外语指令,用身体动作对它做出对相应的反应,从而使听者逐渐自然建立语言能力。最典型的例子就是当听到“Stand Up”就从坐位上站起来,听到“Touch your nose”就去摸自己的鼻子。应用更多的手势和简单实物教具,TPR完全可以展示动词的不同时态以及复杂的句子形式。

  另一方面,文本内容的标签可以直接帮助推荐特征,比如魅族的内容可以推荐给关注魅族的用户,这是用户标签的匹配。如果某段时间推荐主频道效果不理想,出现推荐窄化,用户会发现到具体的频道推荐(如科技、体育、娱乐、军事等)中阅读后,再回主feed,推荐效果会更好。因为整个模型是打通的,子频道探索空间较小,更容易满足用户需求。只通过单一信道反馈提高推荐准确率难度会比较大,子频道做的好很重要。而这也需要好的内容分析。

  第一季中,一汽-大众C-TREK蔚领伴随着《了不起的村落》的足迹,从云南普洱澜沧县边境线上的音乐村老达保,穿过葱郁连绵的白杨树林,到达藏在大兴安岭和呼伦贝尔大草原交汇处的最后的驯鹿村,又越过长年积雪的禾木村一方面,《了不起的村落》的长途跋涉和恶劣的自然环境,彰显出了一汽-大众C-TREK蔚领的耐用性,不仅轻松搞定户外各种路况,更能以大容量装下整个摄制组的设备等。另一方面,《了不起的村落》电影般的画面质感,也完美呈现一汽-大众C-TREK蔚领的高颜值,给观众留下了深刻印象。

  今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型,体育球队,股票等)。还有性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测,通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。

  目前,头条的推荐算法模型在世界范围内也是比较大的,包含几百亿原始特征和数十亿向量特征。整体的训练过程是线上服务器记录实时特征,导入到Kafka文件队列中,然后进一步导入Storm集群消费Kafka数据,客户端回传推荐的label构造训练样本,随后根据最新样本进行在线训练更新模型参数,最终线上模型得到更新。这个过程中主要的延迟在用户的动作反馈延时,因为文章推荐后用户不一定马上看,不考虑这部分时间,整个系统是几乎实时的。

  笔者尝试脑洞一下游戏化创作者成长体系,也希望大家可以从创作者激励角度出发,提出自己的优化意见。单纯的数值量化反馈(阅读量,江苏快3全天计划_江苏快3精准计划_江苏快3人工计划评论量,收藏量,转发量等)不如指数(头条指数,大鱼指数,百家指数等)反馈效果好,因为指数实际上是基于内容的综合权重评估,规则制定和调整在平台方掌控,是一套半透明的评估机制,所以通过内容原创度、内容质量度、用户关注度、创作活跃度、内容垂直度综合打分作为创作者综合评定更加合理可控,而创作者等级相比于指数更加直观,从等级晋升来说,创作者需要一步步成长上去,首页设计如下图所示:

  大家知不知道人的一生多大岁数时记忆力是最好的?10岁?18岁?越小越好?错!是30岁左右。而年纪越小记忆力越差,3岁时实际上长期记忆力几乎是零。所以大家3岁以下的事一般都记不得,有几件事记得就了不得了。明明是成人记忆力好,学习能力强,3岁小孩没什么记忆力,理解力跟成年人更不比,可成年人学语言困难,3岁小孩最容易。其他原因不谈,单从记忆上看,刚好是因为成年人记忆力好而且用记忆去学语言,所以困难;小孩记忆力差,而刚好不用记忆力学语言,所以容易。刚好又证明语言获得不是靠记忆!

  笔者感觉平台指数和推荐数量是两个非常好的反馈指标。以今日头条为例,头条号后台会显示内容的推荐数量,阅读数量,评论数量,涨粉量,转发量,收藏量,而决定推荐量的关键是内容优劣程度(阅读数量,评论数量,涨粉量,转发量,收藏量权重加和)及创作者影响力(头条指数),系统中影响推荐量的关键指标是头条指数,头条指数越高,相同领域top排名越高则推荐数量越多,而影响头条指数的五个指标分别是传播度,原创度,垂直度,健康度,关注度。而这些指标又不是可以直接量化获取的,创作者没办法直接刷量获得。而如果希望增加内容的推荐量,头条号提供了号外功能,可以通过花钱购买推荐量,成为头条营收的一大来源。

  在移动互联网大潮流影响下,个性化的知识体系正在吸引着年轻用户群体,同时也促进了各大内容平台的更新迭代,相较以往依靠编辑推荐的内容阅读方式,智能分发的广泛应用更适合年轻用户的多元化内容需求。为此,新浪新闻客户端在优化体验上,重视用户即时兴趣、动态化场景和网状知识图谱,加强产品创新,将人工与智能结合融合一体,展现出了新浪智能媒体平台的调性,持续吸引着年轻用户的关注。根据QuestMobile数据显示,新浪新闻客户端在用户年龄分布上,主要以年轻用户为主,30岁以下的主流年轻用户占比达到74.1%。而在用户性别分布上也比较均衡。显而易见,新浪新闻客户端在内容品质与个性化体验上更受年轻用户欢迎,并有着较高的品牌认知度。

  近年来,移动端碎片化内容多而杂,多渠道,多场景、多元化的信息流让大家看到的内容分类更多、更细。为达到更好的用户体验,新浪新闻客户端通过连通用户、场景、内容,在内容分发和传播上更加人性化和高效。同时,网状知识图谱以及动态化场景的不断提升和优化,让年轻用户在这里能够体会到更优质、更感兴趣的内容。未来,新浪新闻客户端将继续以年轻用户为主流,同时用高品质的内容辐射更多的用户群体,让用户的观看阅读停留时间更长,进一步释放出最具商业价值的平台影响力。

  UC大鱼号的成长体系做的最为完善,同时在创作者增收上做了更多的尝试,通过大鱼任务打通内容创作者与阿里商家的连接,通过大鱼计划完成独家首发优质内容的绑定,创作者成长体系等级化,相比于指数更加直观,共分为六级,从试运营到五星等级,星级评定需要关联大鱼指数,而不同权益关联星级评定,比指数更加直观。当星级作为一个综合考核指标,那么创作者等级和权益非常类似于游戏中的用户等级和技能,而权益获取的额外条件可以理解为支线任务技能,大鱼号当下的权益展示结构不够直观,对于创作者驱动性不强。

  今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root,下面第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳等,足球再细分国际足球、中国足球,中国足球又细分中甲、中超、国家队等,相比单独的分类器,利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是,如果要提高召回,可以看到我们连接了一些飞线。这套架构通用,但根据不同的问题难度,每个元分类器可以异构,像有些分类SVM效果很好,有些要结合CNN,有些要结合RNN再处理一下。

  原理与上面的问题相同,还是要注重“可理解性输入”。电影比广播的优势是有连续的情节,发展的故事主线,视觉辅助理解和趣味性,有助于对语言的理解。比如警察拔枪“freeze!”罪犯僵住了。“Drop the gun!”扔枪了。“On the floor!”趴下了。“Cuff him!”被拷了。“Read him his rights!”实习警察过来宣读:“You have the right to remain silence,anything you said….”一连串的可理解输入。缺点是一般影片大部分对白难度偏高,跟在国外自然英文环境的感受有些象,不可理解的无效成分太多。所以关键点又是如何通过以上策略提高“可理解性输入”上。基本经验是:

  从进化的角度来说,人类的任何感觉,都源于神经系统对其他细胞的调控。 存在其实包含两个方面,即物质存在和精神存在。前者表现为人能够以实体出现,并进行相应的实践活动;后者表现为人的精神世界丰富,而所谓的存在感,其实只是精神上的需求程度,而并非物质上的填充。存在感的缺乏反映了精神世界的空虚和寂寞,一般人是不会思考此类问题的。我们常常听到,“存在感是刷出来的”,也就是说,孤独的人渴望做出一些不平凡的事情或举动吸引别人的注意,以获取所谓的存在感。所以内容的创作,让尽可能多的人看到,并影响他人,是一种刷存在感的重要方式。

  最初的内容创作者可能因为好奇或凑热闹使用了平台,完成第一次内容创造,后续如何刺激创作者持续保持创作激情,创作的内容持续完善,这是所有平台面临的问题,所以内容类产品后台就需要一套帮助内容创作者成长的系统,帮助内容创作者构建目标,解决困难,度过迷茫期。笔者在这些平台的使用过程中看到了不同的策略,这里笔者做一些简单的优劣对比分析。总结下来,感觉UC大鱼号的用户成长体系最为完善,头条号的成长体系是最简洁易懂的。

  内容推荐系统需要在环境特征识别完成后,基于用户的属性标签,实时行为标签(锁定用户的点击和屏幕操作),判断用户可能感兴趣的内容,通过内容阅读完成率进行用户偏好权重分析,用户退出后,下一次下滑刷新内容为用户展示用户可能喜欢的内容。可以说,内容推荐系统就是一个逐步逼近用户喜好的实验系统,初始给用户展示10条信息,用户点击了哪几条,根据操作不断的优化推荐策略。为了避免推荐内容范围过窄,需要在推荐的内容中增加高时效的信息,类似用户群关注的热点,如台湾地震,超级月亮等事件。同时,也要结合用户属性和行为标签,推荐其他用户喜欢的内容,并实时获取用户浏览行为,调整推荐内容。【干货】今日头条的新闻推荐算法原理江苏快3人工计划

 
分享到: