Ad Code

开放数据的可行性

据《经济学人.商论》报导,经济学家们一致认为,更方便地获取数据可以让人们广泛受益,因为数据是“非竞争性的”:数据不像石油,它可以被反复使用而不会枯竭,比如可以同时驱动各种不同的人工智能算法。

一位在大学教授统计学的学长表示,他认同《经济学人》有关开放数据的重要性。但他比较悲观的认为,数据的价值会引导政府或大企业想方设法达到数据垄断的目的。他认为,政府机构或大企业的所谓开放数据往往是非常局部,非常小的范围,是一种为了让更多个人向他们靠拢(也就会带着他们的个人数据一起靠拢)的商业战略手法。他也觉得在未来,依靠数据的科研活动会越来越昂贵。

我赞同该名学长的看法。《麻省理工学院科技评论》有几篇文章指出科技巨擘由于掌握未公开的专有数据(proprietary data -- 譬如用户数据)和极其强大的运算硬体设备,将会进一步拉开与一般高等学府和研究机构之间的科研能力距离。最前沿的数据导向人工智能技术,会逐渐由富可敌国的跨国科技企业所“私有化”。未来的世界的贫富差距,有可能会被AI富和AI贫所重新定义。

与此同时,public dataset不够多元(diversified)也可能造成大量应用public dataset来培训建模的人工智能系统展现同样的偏颇(bias)。

自从深度学习之父Professor Geoffrey Hinton的团队以Deep Learning的分支技术Convolutional Neural Net所开发的图像识别系统AlexNet,赢取了2012年年度ImageNet开放数据集电脑视觉算法挑战赛而名扬天下后,许多科研团队便蜂拥以公共数据来培训人工智能建模和测试系统运算结论的准确度。

McKinsey全球研究院的专家曾尝试指出应用同一组开放数据的盲点与风险 -- 如果每个人都应用有内在偏颇缺陷的相同一组开放数据,我们其实是在复制大规模的人工智能偏颇。

参考资料/Reference
[1] 《经济学人·商论》: 微软推开放数据,是以退为进还是降维打击?

[2] MIT Technology Review: It’s time to rein in the data barons
https://www.technologyreview.com/2018/06/19/240453/its-time-to-rein-in-the-data-barons/

[3] MIT Technology Review: Training a single AI model can emit as much carbon as five cars in their lifetimes
https://www.technologyreview.com/2019/06/06/239031/training-a-single-ai-model-can-emit-as-much-carbon-as-five-cars-in-their-lifetimes/

[4] MIT Technology Review: 
https://www.technologyreview.com/2019/06/07/135034/big-tech-monopoly-breakup-amazon-apple-facebook-google-regulation-policy

[5] McKinsey Podcast: The real-world potential and limitations of artificial intelligence
-- McKinsey Global Institute partner Michael Chui and MGI chairman and director James Manyika speak with McKinsey Publishing’s David Schwartz about the cutting edge of artificial intelligence https://www.mckinsey.com/featured-insights/artificial-intelligence/the-real-world-potential-and-limitations-of-artificial-intelligence

Disclaimer: Opinions expressed are solely my own and do not express the views or opinions of any organisation.

Post a Comment

0 Comments