现在我们面临的挑战一方面是大数据的存储处理,更重要的是大数据如何为用户、为广大网民服务的问题。
孙国政介绍称,今年KDD—CUP基于腾讯微博数据和搜搜商业搜索的数据两方面展开,数据量比往年大,且是直接来自真实产品运营日志,没有经过任何改变。其次,参加人数与往年比也是最多的,Track1三千多人,Track2五千多人。第三数据集非常复杂,参赛者需要自己进行处理,形成缄默所需的特征变量,且变量的最终数目还取决于参赛者处理方法,是没有标准答案的。
KDD—CUP比赛中大数据据处理面临诸多问题,包括数据稀疏性,复杂性和不平衡性。冷启动方面也面临很大挑战:“我们大家知道通常根据以往大家行为看你的兴趣来推断你下面对什么感兴趣,但是有可能我们在这里所看的用户,有77%的用户做训练的数据里没看到,他是新用户,他们没有行为历史,这对冷启动是一个大的挑战”。
现在数据用途从广告搜索、娱乐、内容等等都要服务用户,所以推荐技术应运而生,孙国政表示,推荐系统有几个要关注的问题。第一个是Context aware的处理,Context包括时间、地点、涉及公司和用户的情绪、属性、社交网络等等属性,第二是Heteragenity,不同形式不同渠道的,怎么统一到一块儿。第三推荐必须以用户为中心,最重要的是用户接不接受,第四是Knowledge—based,你了解的东西你才推荐的清楚,你不了解的东西就推荐不好。第五是Evaluation,你推荐是全部该推荐的都推荐了吗?推荐的是不是有互相重复的?
孙国政说:“在推荐方面有很多挑战,主动推荐不光是推荐什么东西,怎么推荐也很重要,另外隐私保护性也很重要,每个人都有个人行为,你每次推荐都是个性化的,怎么个性化又怎么保护隐私这是一个对立的问题,在移动互联网下怎么推荐这对我们提出很多挑战。”
来源:互联网 转载于临企德语网站建设新闻频道