A member of staff poses for a photograph in a projection of live data feeds taken from Twitter, Instagram and Transport for London, as he stands in the 'London Situation Room,' a n artwork created in collaboration with Future Cities Catapult & Tekja, during a photocall to promote the Big Bang Data exhibition at Somerset House in London on December 2, 2015. Justin Tallis/Stringer

管理大数据的大风险

纽约——过去十五年来,我们亲眼目睹了从互联网、社交媒体、科学设备、智能手机、监控摄像头和其他多种来源搜集的数字数据量以及处理这些数据的相关电脑技术呈爆炸性增长。众所周知的大数据无疑将带来重要的科学、技术和医疗成果。但如果被误用或滥用,大数据也是非常危险的。

互联网搜索引擎、机器翻译和图像标签等重要创新技术已经依赖于将机器学习技术应用于大数据集。而且,在不久的将来,大数据可以大大改善政府决策、社会福利计划和奖学金项目。

但拥有更多数据替代不了拥有高质量的数据。例如,自然杂志最近发表的一篇文章报道美国大选调查员正努力获得有代表性的人口数据样本,因为美国法律规定他们只能拨打固定电话,而美国民众对移动电话的使用却越来越多。虽然你可以在社交媒体上找到无数的政治观点,但却无法确定这些观点在选民中是否具有代表性。事实上,推特和Facebook上与政治有关的发帖很多由计算机自动生成。

https://prosyn.org/UkU8jzZzh