抖音在短视频行业现在已经算得上是“大佬”级别了,虽说有快手和微视等短视频app“虎视眈眈”,但是扛不住抖音的特效和玩法多。不知道大家有没有注意过淘宝推荐,也就是我们登陆APP页面之后拉到最底下,淘宝会根据最近搜索和观看浏览情况自行推荐你可能会感兴趣的东西,抖音也是一样。我们在刷抖音的时候遇到喜欢的视频会点赞,那么你会发现之后再刷抖音的时候,大部分出现的内容都会是你感兴趣的,这就是短视频软件开发完成后必须具备的——推荐算法。
什么是推荐算法
推荐算法是目前互联网各个企业都在使用并且研究的一个方向,它的应用很广泛。不仅可以应用在爱奇艺、优酷等视频推荐上,还可以应用在抖音网易云等APP上。当然,百度百科是这样解释的:推荐算法,是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,目前应用推荐算法比较好的地方主要是网络,其中淘宝做的比较好。所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。相信看过百度百科之后,对于推荐算法的理解也会明了许多。
推荐算法分为哪两个阶段
1.召回阶段
所谓的召回阶段主要做的就是从海量的小视频中,选出一部分作为候选(数量可以选择100个或者更多)。为什么要做这一步呢?因为在抖音短视频app的“视频数据库”里,会有成千上万个短视频,如果直接用模型排序成本相对来说会比较高,时间上也会非常的慢,所以在召回阶段先粗略的选出一些,质量高或者是符合大众更容易被用户喜欢的小视频推荐给用户。在做抖音短视频推荐的同时,可以采用多通道召回,但是在召回时准确率并不需要特别高,所以可以使用一些比较简单的方法来做。
(1)协同过滤
基于协同过滤的推荐算法理论上可以推荐世界上的任何一种东西。图片、音乐、样样可以。 协同过滤算法主要是通过对未评分项进行评分、预测来实现的。不同的协同过滤之间也有很大的不同。
(2)基于query
这里的基于query意思就是基于用户的搜索记录,通过一些相似度的算法计算和用户搜索记录比较接近的标签,然后返回去一部分短视频。
(3)基于用户画像和视频标签
用户画像,即使用标签来量化用户的特殊属性,以达到描述用户的目的,从而开发真正贴合用户实际需求的推荐算法,为排序阶段提供更多的用户特征,这是非常关键的。所以用户画像的召回和排序阶段都是非常重要的。随着短视频UGC的不断增加,大部分上传的短视频标签都不是非常的准确,所以这个时候就需要一个标签服务自动为每一个短视频“打上标签”,也就是视频标签。
2.排序阶段
(1)排序阶段就是从召回阶段选出的候选中,选出更加少的短视频,将其推荐给用户。当然,在这个阶段通常使用更多的是模型。当然,在模型选择方面,已经有很多种了。
(2)经查阅相关资料可以了解到,传统的ML中常用的有LR、GBDT,由于LR存在一个特征组合的问题,所以通常使用LR+GBDT的方法,通过GBDT来进行特征组合,最后放到LR中进行训练。此外,还有比较经典的FM算法,随着DNN的发展,DNN现在也已经运用到了推荐中。当下比较流行的是wide&deep。
(3)对于推荐来说,输入和输出也是需要注意的问题之一。对于短视频app中的推荐来说,输入主要就是用户的特征,举个简单的例子就是用户的年龄、性别、行业、兴趣爱好等,这些可以看作是一个“样本”,推荐的本质是一个CTR预估问题,就是简单预测一下用户点击或者不点击的可能性,输出就相当于是其中表示用户是否点击短视频的一个概率。
(4)预测分为在线(online)和离线(offline),在线预测能够获得更好的用户体验,离线预测可以进行批量的检测,效率较高。通过了解我们可以发现,正是推荐算法的使用给抖音大大的增加了用户粘性度。因为给用户推荐的视频都是用户所感兴趣的,所以用户也会继续观看,这样一来,用户粘性和留存率自然会上升。经过了解后大家觉得,推荐算法算不算是短视频软件开发完成后的一个“杀手锏”呢?
【TechWeb】12月2日消息,金山软件发布公告称,于2019年12月2日,金山云集团与某个金山云股东、高级管理人员及中国互联网投资基金(有限合伙)订立购股协议,金山云(作为发行人)同意向中国互联网投资基金投资者发行约5509万股每股票面价值 0.001美元的D+系列优先可转换股份,代价为5000万美元。假设(i)金山云的所有优先股按1:1之转换比例悉数转换为金山云普通股;及(ii)购股权计划项下的所有股份及僱员持股计划(包括信託契据)项下保留以供发行的所有股份获发行,于完成购股协议项下拟进行交易后,金山云将由中国互联网投资基金投资者拥有约1.8868%,而本公司于金山云的股权将由49.1251%减少至48.1982%。金山云将仍为本公司附属公司。董事会进一步宣佈,于购股协议完成时或之前,金山云当时的所有股东将订立经重列股东协议,据此,D+系列优先股持有人有权于以下情况下要求金山云购买彼等持有的D+系列优先股:(i)D系列合资格公开发售未于特定期限内完成;(ii)金山云的任何B系列优先股持有人已根据经重列股东协议要求金山云购买其持有的B系列优先股;(iii)金山云的任何C系列优先股持有人已根据经重列股东协议要求金山云购买其持有的C系列优先股;或(iv)金山云的任何D系列优先股持有人已根据经重列股东协议要求金山云购买其持有的D系列优先股。金山云集团主要从事云技术的研发并提供相关服务。中国互联网投资基金投资者为于中国注册成立的有限合伙,主要从事互联网领域的股权投资。就董事作出一切合理查询后所深知、尽悉及确信,中国互联网投资基金投资者及其最终实益拥有人均为独立于本公司及其关连人士的第三方。
最近一段时间,大家发现很多网站关键词库和流量都在直线下滑,站长圈可以说是哀嚎遍野。即便是一些大站权重站,有些也难逃厄运。如上图所示,图中案例就是一个之前操作过快排而被惩罚的站点。其下场不可谓不悲壮。在这里我们先了解一下快排。现在的快排,主要分为两类:模拟点击;发包技术。其中模拟点击是租用大量的服务器和ip,在服务器上搭建一个模拟浏览器并使用脚本在浏览器上模拟用户的搜索行为,来提高页面在百度的评分。发包技术是直接伪造用户搜索浏览行为参数,直接将数据包post给百度,可以快速的将页面在百度的评分提高。发包技术中不乏上千指数大词3天上首页的案例。这种快排方式严重干扰了百度搜索的市场环境,因此百度在进行了打击快排灰度测试后,开始扩大算法应用范围,其结果就是如今的大量网站的关键词库像瀑布一样直线下降。既然算法已经来了,我们也只有选择原谅,哦不,是选择面对。百度打击快排,最主要的首段就是靠抓取快排的特征。其中发包快排的特征比模拟点击特征明显很多,因此如果您还要继续做快排,对于发包快排的供应商一定要慎重又慎重的选择。那么模拟点击就不会被打击吗?也一样会被打击。做模拟点击的作弊网站,有个很大的特征就是:有大量的词的点击率超过了50%甚至接近100%。这种极其不正常的现象,让百度也有了反击的方向。因此如果还要做模拟点击,就必须降低点击率。否则依然一抓一个死。当然,我在这里并不是提倡大家做快排,既然是快排,就有被惩罚的风险,靠白帽技术安心优化,为更多的用户提供搜索价值,百度自然会将您的网站排名提升上去,自然会将搜索流量像你倾斜。快排就像一杯毒药,你喝或者不喝,都是你的选择。既然百度开始打击了,我们就必须沉着的去面对。如果可以的话,现阶段不要去碰快排这个雷区,安心做优化,做内容,做外链,为真正的搜索用户做好服务,才是最好的选择。上图那样稳定的幸福,又有谁不想要呢?
TOP