baidu-trends

在世界杯期间,百度预测推出的产品“世界杯预测”在1/4决赛、1/2决赛、决赛中预测的准确率达到100%,16场淘汰赛预测正确了其中的15场。近日,百度大数据又上线另一新产品“疾病预测”。百度预测是百度大数据推出的系列产品,由百度研究院下的大数据实验室(BDL)提供部分支持。BDL的研究方向包括大规模机器学习、广告与推荐技术、基于大数据的预测等。BDL具体侧重在模型和算法设计上,是百度大数据的智囊团。

央视曾与百度大数据合作,对节假日景区游客人数、高考人数、阅读行为等进行统计,不过在这次合作中并未体现预测。 疾病预测并非百度首创。Google从2008年起上线一款预测流感的产品Google Flu Trends,目前至少已登陆25个国家。 但Google Flu Trends的预测并不准确。果壳一篇文章《数据并非越大越好:谷歌流感趋势错在哪儿了?》中这样描述:

谷歌发现某些搜索关键词可以很好地标示流感疫情的现状。GFT的工作原理就是使用经过汇总的谷歌搜索数据来估测流感疫情,其预测结果将与美国疾病预防控制中心(Centers for Disease Control and Prevention,CDC)的监测报告相比对。但是2013年2月,《自然》杂志发文指出,GFT预测的流感样病例门诊数超过了CDC根据全美各实验室监测报告得出的预测结果的两倍(但GFT的构建本来就是用来预测CDC的报告结果的)。

Google被认为是全球领先的搜索引擎软件,拥有庞大的数据库及优秀的工程师。Google都做不好的事,百度又会怎么做?不如听听百度预测相关负责人的说法。

百度疾病预测可以预测哪些疾病?目前是在哪几个城市试点吗?

目前已经上线的是流感、肝炎、肺结核、性病四种疾病,覆盖全国331地市2870区县。未来逐步增加新病种。百度公司多年以来把普通用户作为我们服务的主要对象,百度预测免费向全国公众提供疾病预测的服务。有一些城市在得知我们的疾病预测产品之后,也希望百度预测在多病种疾病监控方面能够帮助他们做出更加精细的服务,这方面的合作也正在进行中。

其预测是凭借哪些数据,能否举例说明?预测正确的准确率是多少?

四种疾病我们分开来说:首先,作为全民关注的热点疾病——流感,我们将百度自身数据(比如搜索、微博、贴吧)与中国疾控中心(CDC)提供的流感监测数据结合建立预测模型。对比CDC提供的流感阳性率(2014.5.25值),绝对误差在1%以内的城市占比62%,在5%以内的城市占比89%。而其他三种疾病依靠百度搜自身数据,用无监督学习模型来预测疾病热搜动态的时空变化,目前并没有预测准确率这样的数据可以提供。

百度疾病预测项目中是否有医学背景或社会学背景的人?

产品负责人为生物基础医学领域的中科院博士后,关注医学人类学课题。

谷歌曾推出一个类似产品,但其预测数据并不准确。百度的计算模型或人员结构会更优于谷歌对当时类似产品的投入吗?

Google的flu trends依赖google correlation产品,主要是通过相关性选取的检索词。而我们可以直接从原始日志数据构造特征, 在特征选取上会更灵活准确。我们的空间粒度也比google更细,可以利用流感爆发在空间上的相关性做更好的预测与丰富产品功能。

百度大数据的各预测类产品,有哪些失败和成功的经验总结可以分享?

疾病预测刚刚上线,在内容上保持持续更新及丰富用户的参考性上,成功和失败的经验目前还无从谈起。

不过百度预测此前推出过很多产品,从高考预测跟世界杯预测上来看,我们在通过大数据呈现预测产品落地上,还是有很多收获的:

从城市、景区预测上看,我们将产品与央视媒体进行有效结合,应用在节假日、旅游等方面,给相关行业提供了计划与备案,给用户提供了出行前的参考。

从高考预测上看,高考预测由于成功的预测中了全国的12套作文题命题方向,在考生、家长和网民中间引起了极大的反响,他们都很好奇百度是如何做到对作文题进行预测的。在高考后,一些地方性教育电视台,还邀请项目组成员、高考专家顾问针对百度预测做了主题交流。

从世界杯预测上看,目前世界杯的预测在行业内预测产品中始终保持的是第一的位置,并且1/4决赛、1/2决赛、决赛均交出100%准确预测成绩单,整个淘汰赛16场比赛预测正确了其中的15场。

在预测过程中我们采用动态数据实时分析、一直尝试在准确预测中找关键因素,在错误预测中找缺失的参考值,力争将大数据的实时分析更加细致化。其实比赛是具有不可预测性,失败跟成功是共存的,我们做了世界杯预测一方面是通过娱乐化形式让用户近距离的了解大数据,另一方面也是在探索大数据在体育赛事领域的应用模型。