您现在的位置是:网站首页>内容内容
乐视视频借力开源技术处理大数据的经验分享_建站经验_网站运营_
2024-05-16 15:23:59 【512953070@qq.com】 639人已围观
简介 乐视视频借力开源技术处理大数据的经验分享_建站经验_网站运营_
从年底破百亿的“芈月传”和有毒的“太子妃”到年初举报快播的“背锅侠”,乐视简直赚足了国民的关注。现在看来,游戏才刚刚开始,最近乐视又在忙活着升级,改Logo改域名,这意味着乐视已经准备火力全开,进军全球市场了。小编觉得,乐视之所以有这么大的野心,是因为背后有大数据作支撑,而且未来,大数据在乐视全球化战略中也将发挥举足轻重的作用。
从内容来看,乐视大数据打造的超级IP实力确实强大。2013年乐视最早借大数据跑赢宣传档为即将上映的《小时代》做了最精准的预测和分析,开展了一场漂亮的电影营销,拉开了大数据电影营销的模式。再后来,国内影视开始掀起IP潮,2015年是IP炒的最热的一年。年底,乐视给用户呈上满意的答卷,其自制的“十年剧王”《芈月传》以全网200多亿的播放总量创下纪录。网络雷剧《太子妃升职记》,目前全网播放量已接近15亿。大数据+超级内容IP给乐视进军全球市场注入了无限动力。
然而,这不是重点,“内容+”才是乐视生态的看点。《芈月传》播出后,乐视同步推出了《芈月传》定制版超级电视、智能手机、芈酒、手机壳、《芈月传》经典台词版手机铃声等个性化产品,还与天猫合作,打造《芈月传》衍生品旗舰店,《芈月传》手游也已经发布。注意,请注意,这是一个360°无死角的IP布局,乐视超级IP已经形成一个完美的闭环。
如果说IP是软件的话,那乐视云就是硬件了。大数据时代,最不缺的就是“云”了,乐视云是一个专注于视频领域的云计算平台,2016年乐视云已经与戴尔达成两年全球战略合作、联手全球领先大数据运营商Equinix,法国第一大电信运营商Orange、澳大利亚最大电讯公司澳大利亚电信、世界领先综合性国际电信公司西班牙电信、全球顶级通信方案运营商香港和记环球电讯有限公司等全球多家顶级运营商,打破数据孤岛,加速视频生态体系建设,未来乐视大数据的触角将会伸向更多行业。
再来看市值,乐视网2004年成立,2010年上市,当年市值仅为50亿。五年下来,乐视依托大数据平台在互联网视频、影视制作、智能终端、电子商务等垂直领域深耕,到现在,总市值已接近1100亿。但是,看看乐视这次全面升级冲击全球的架势,貌似,乐视的故事才刚刚开始!
白德鑫现在正在从事乐视网超级电视做数据挖掘。他表示,原来初期的业务做得适应不了当前业务发展,所以要进化。主要做的事情,构建每件事的时候,分析数据的平台,给乐视网的超级电视提供数据挖掘服务.如何从最初业务发展到现在,包括在超级电视上做实时分析和用户离线挖掘,通过数据挖掘,给很多业务部门提供数据挖掘的支持。
白德鑫提到自己是谷歌粉丝,目前正在做第一批超级电视数据挖掘。云视频搞清播放机的时候,那时候比较屌丝,只有几万台数据,数据当时也比较少,做了一些开机数之类的、日常数据。在业务里做,在数据节点做计算。
后来性能越来越低,因为量越来越大,当时每天数据量,当时觉得很大,每天只有几千万行数据。这时觉得需要尝试一些新的技术,就用Cassandra为存储,存储日至,做简单处理切分以后放进里面,使用Hodoop进行计算,把结果塞到MySQL里。每天计算数据对自己来说是一个中间数据。可以出来一些报表。数据组合比较多,刚开始只是盒子、应用,后来还有一些视频播放内容,开始尝试把每天数据把MySQL和Kettle进行分析。但是做了三四个月又换了,使用Kafka、Storm、Hodoop、Hpase、Hive、Oozie、Sqoop,唯一修改是有一些大的,跟随开源社区来做,进行相应升级,尽量跟社区保持一致。
乐视网大数据的起点
白德鑫表示,刚开始只有一个数据分析员,抓一些数据,这是做的分析。电视的盒子,包括电视开机,看了什么电视节目,因为乐视网是做视频内容的,点开了什么视频节目,看了多长视频节目是通过心跳来做的,三分钟一个心跳,这个放到终端记录下来。播放有开始、有心跳,电视好一些,但是盒子有些用户看着看着直接断电了,结束就没有了,只能从心跳往回挖。
自从发布超级电视以后,刚开始盒子价格比较贵,没人买,后来盒子卖299,卖出去很多。数据量按照三分钟心跳,几十万用户看视频,开机有心跳、播放视频有心跳,数据量特别大,没办法,乐视当时上了四台。四台数据,看怎么发布的。之后输出,然后进行分析。看有哪些问题。
当时做这个事情的时候一个人在做这些事情。然后后来有人离职,后来Cassandra这块没人了,交接的时候写完,对系统影响很大。在这个时候没人接手,他走了技术也走了,一个萝卜一个坑,萝卜走了坑很不容易填的。后来想找一个技术更牛一些的人帮乐视来做,但是到现在一个多月没有找到。系统要继续做,数据也在疯狂增长,没办法就把Cassadnra去掉,往MySQL里放。
通过另外一种方式,分析人员对乐视意见很大,他多的时间有两个小时,要看今天开机量,和昨天的对比,再分时段看开机量,两个小时就过去了。他说系统老死机,我说是查询太慢了。希望系统可以做大一些。
现阶段数据量的变化
白德鑫自己说,乐视的数据量从年初的三个月翻一番,到现在的我写得稍微早一些,到每周翻一番,现在每天数据量一百G,超级电视以及盒子卖得非常快。从设备行为快速向用户行为转变。我的计划量是多少,卖得多了老百姓开始考虑业务行动,按照互联网方式做,用户拿着我的盒子看什么使的,是看电影还是看电视剧,所以这个时候很多用户行为来分析。现在电视版本和盒子版本一周一个,这个版本每周更新一个系统版本,用户是不是接受,这些都在乐视这里做分析。
还有一个是乐视在这里做了一些测试,因为在盒子里,乐视叫UI里做一些测试,今天做一个海报推荐,明天加一个分析,看用户量高还是低。
用户数据量增长很快,人也没有,一边找土豪开发者帮乐视解决这个问题,另外自己要解决这个问题了。看数据分析的人,团队从内部调,数据分析招聘了一个。还有一个比较牛的是从公司别的部门挖的一个人。从今年年初开始履行,从原有的来进行。最后换成现在的方式。这个是自己在做,研发团队两个人,现在也是两个人。
差不多半年搭成新的,新平台通过Kafka搭建,通过很多业务系统,点播、第三方的,包括一些日志,存储数据,以及需要对用户进行分析的数据。还有一些元数据,进行一些加工、处理。整合之后,其实就是前段所有的请求打到这里。Storme是最后的数据,另外Hodoop写的已经换了,数据量大以后,换其他的数据库,刚开始选,公司自己开始做自己的数据库。通过Hodoop以及数据服务wAD-HOC的搭建、处理,实时查询、开放数据平台也做了查询、进行了报表,对一些实时数据分析系统,还有做了门户,对各个业务提供数据服务,要调哪些数据。运营商需要知道在四川电信、某个电信部门的视频点播量。这些都是靠内部挖掘的。
乐视的数据源通过前端的,从三款到六款,所有数据都打到这里,好处是在于跟着开源社区升级系统,依然可以接收数据,不影响业务。后面再随便操作。数据稍微做一下处理放到STORE,放到数据实时计算、然后进行拆分。现在没有用PEED,用户交互是OEE,把多个任务组合,把它放到,最后是一个结果,是一个业务流程的管理工具。
数据输出之后通过查询,然后提供给别人,反馈到前端数据。这叫矩阵式的业务。这是进行的测试。服务器两台4Core cpu、6G,用户38万左右,38万有效数据。跟官网50万对比稍微差一些。因为乐视的机器性能比他们差很多。
当时做的时候两个节点做的,用了一个发送,用的是同步发送,消息格式是两种,格式是30字节、50字节、200字节。如果30字节38万,其他数据基本上是在30万左右。这是单台数据。单台差不多30万。这是乐视的Spout集群,做一些业务拆分,比如有些数据需要组织,点播、心跳的,其实有些消息是随机的,虽然连续发过来的,但是每台机器都往外发,把数据写到里面,比方说播放时长,每个剧播放时长、按时段的数据计算。
这个借用官网的图,我用的0.9几,实际上标准是一个,但是乐视怕数据丢失,所以做了两个,其实做得比较简单,把数据复制。存的一些数据,这些没有太多可讲的,当时做了一些简单优化,这个不多说。默认垃圾是关闭的,自动回收,不想让它自动回收要手工做一些处理。这是Sqoop,原来的数据都在这里存储,乐视导入集群里,乐视用这个来做。当时做了一些事情,把数据抽取整合。
没有写在上面的OLD,包括查询,有些数据处理处理的中间结果,中间结果到最后没有,不可能到使用阶段。
ROI分析
数据量每个月翻一番,现在不只这个了,乐视原有架构没办法满足新的需求,之前就是日报,现在每天实时数据都很多。Kettle方式数据整合时间越来越长,采用hadoop-Storm方案,不会对数据挖掘产生太大的影响,资源稍微丰富一点,集群不够使的时候要添加机器,数据每日跑一次,每天晚上12点跑一次收取数据生成报表,到现在实时查询,时间还是比较长的,五分钟左右。因特尔给乐视推荐过一个,但是它那个对内存要求太高,暂时做不到。现在都是6G内存服务器。支持硬件设备。
目前还有很多事情要做,其实对乐视来说不同阶段选择不同方案,刚开始初期的时候,一年卖几万个盒子,刚开始三千一台盒子,不可能建十几个节点的数据。人员流失会导致技术流失。技术储备和内部自荐比招聘牛人更快。现在招聘也很困难,hadoop圈里人比较少。新业务平台都要小心对待。否则出问题很难解决。数据这块还好一些,如果前端没有,对业务影响很大。
数据安全很重要,乐视有40多T数据,放到两个备份存储上。服务器多了就是爽,四台不够加八台,计算量可以很快。