Ad Code

数据像砂石 ─ 需要加工才能点石成金


数据或许不是石油,而是像堆积如山的砂石。让数据变得可贵的是,在数据驱动人工智能大行其道的当下,用来培训自动化流程和优化资源应用的深度学习算法,以及让大型语言模型模仿人类会话和创作能力(如撰稿、写诗、作曲、编程、辩论、应考、玩电竞游戏等)的数据。

自谷歌在2017年公布Transformer自然语言处理模型(Transformer Language Model)以来,各大科技巨头竞相开发以更多的参数(parameter),以及海量图书馆藏书内容和网络文本数据来培训的大型语言模型(large language models)。这些人工智能语言模型已经达到足以以假乱真的仿人能力。譬如,由微软赞助的Open AI所研发的GPT-2能够自学下象棋,还能作曲。在2020年6月公布的GPT-3还能写诗、编程,并应邀在英国的《卫报》撰写由人类编辑合成的文章。

GPT-3模型有多倚赖大数据呢?Open AI团队以1750亿个参数,和Common Crawl资料库于2016年至2019年间所抓取的数据,再加上海量的网络文本,书籍内容和维基百科资料来培训模型。

近期,由中国智源研究院连同顶尖大学和私人企业共同开发,参数规模为GPT-3参数的10倍(1.75 万亿参数),训练数据存储容量为GPT-3的8.6倍(4.9TB的高质量文本和图像数据),以类似谷歌的BERT和Open AI 的GPT技术架构为基础来仿制和改良的悟道2.0,甚至被打造成清华大学破格入取的非人类才女华智冰。虚拟大学生华智冰能够写诗、作画、解答数学题、写代码、编辑网页等。造就多才多艺华智冰的悟道2.0模型的训练数据,包含了涵盖中、英、法、德、捷克、日、韩七种语文的文本以及大量的图像。当然文本与图像数据是以中文为主,接下来才是英文文本,余下较小量的文本属于其他语文。

既然基于数据的深度学习和大型语言模型如此的仿真和日渐贴近现实,为何人们还会认为数据不是宝贵的新石油呢?

《经济学人》(The Economist)2017年一篇题为《世界上最宝贵的资源不再是原油,而是数据》(The world’s most valuable resource is no longer oil, but data)的报道,奠定了数据经济即将取代石化能源经济的未来投资基调,打开了数据是新石油的主流叙述。

沿袭“数据是新石油”叙述的逐渐普及化,英国《金融时报》的年度全球500强企业(Financial Times Global 500)资料显示,相较于2008年,于10年经济周期届满后的2018年底,原本遥遥领先股票交易所市值排名数十年的石油和天然气公司的地位,已经被具有先进数据分析能力的所谓数码原生公司所取代。

有趣的是,《经济学人》在2020年2月的数据经济专题报道(Special Report: The Data Economy)中,又提出了“数据是新的石油”的比喻日渐遭到质疑的反向发展趋势。

《经济学人》引述,数据被类比为阳光、空气和水等开放资源的看法似乎获得更多的肯定。

数据最初被类比为石油,言下之意是其潜能堪比宝贵的能源。后来,数据被比喻为阳光,因为它像阳光一样无处不在,成为地球万物的基础。也有人说数据好比基础设施,需要投资,更需要管理来发挥其成效。

《经济学人》的同一系列数据经济专题文章也报道,数据在不同的地域被赋予不同定位和价值。文章举例在美国,数据被视为石油(oil),谁付出努力发掘它,谁就取得数据拥有权。在中国,数据基本上被当成公共物品(public goods),受到国家严格的管制;数据持有单位也需屈从国家的要求共享数据,如向公共机构提供医疗保健数据。在欧洲,政策制定者将数据定位为基础建设(infrastructure)。在比利时布鲁塞尔的欧盟委员会计划支援数据信托机制的落实,放眼数据经济带来的转型和升级附加值。

另外,欧莱礼媒体(O’Reilly Media)的创办人提姆. 欧莱礼(Tim O’Reilly)今年3月在知名科技爆料媒体《The Information》撰写了一篇文章《数据是新的砂石》(data is the new sand),尝试佐证数据不是新石油的观点。

提姆. 欧莱礼(Tim O’Reilly)指数据像半导体原料般的矽(砂的一种),几乎戳破了人们对数据经济过份浪漫的幻想。数据如矽一样,需要非常繁琐的萃取和加工,才能发挥组成半导体乃至电子晶片后的魔幻科技成效。数据也好比砂石,单独的个体根本不足为道;要像谷歌、面子书和亚马逊般拥有恒河沙数的数据,再加上具备顶尖的技术和超强的执行力,才能带来摧枯拉朽的魔幻商业乘数效应。

在我看来,数据经济建基于两大要素:优化资源部署的数据驱动决策,以及由数据培训的人工智能算法。

提姆. 欧莱礼在接受《麻省理工学院科技评论》的访谈中指出,我们有必要让大众认识,我们所处的经济体系也是一种算法系统(algorithmic system)。所以,如果我们用数据培训的模型来构筑一种错误的算法,其危害是深远的。

我对他观点的粗浅认识是:由数据驱动算法主宰的未来会是什么样子,完全取决于我们。因为我们作为社会一份子不约而同的对各项领域做出了集体选择,我们的选择共业造就了我们现在所面临的结果。我们在方方面面的集体选择,已经以大数据的形式融入系统、规章,甚至嵌入经济运行机制这一个隐形算法中。这些算法就像面子书、谷歌或亚马逊等科技巨擘使用来优化各自商业营运布局的算法一样多变:其数据驱动算法的本质,预示着算法会随着用户和潜在客户行为数据的转变而出现更动。

提姆. 欧莱礼提醒,我们正在使用的人工智能模型和算法系统,可以是让我们自省的镜子。譬如如果在美国,有人认为以人工智能算法辅助判案的法庭存有偏见,我们应该追问,我们是以人类在过往所做出的判例数据来培训人工智能算法系统的, 系统只是复制了这些人为的偏见。

总体而言,我们对数据经济的定义和数据经济所蕴含的潜力与实际价值也许还有争辩,但我们都意识到,互为因果的数据和算法,已经介入所有人所处的公共领域和私人空间,不断潜移默化的形塑我们的看法与行为。

数据之所以如砂石,因为非关键的少量数据并无太大的作用;被持续堆砌的数据(像堆积如山的砂石)如果没有经过萃炼、加工成为成品或至少半成品然后应用到有利可图的场景,不会有太高的价值和市场需求。

举例来说,如果银行只有几十个商家和消费者的信贷评级,还有他们的批发与零售交易数据,固然可以凭交易双方的金额与身份向他们兜售金融产品,但获利不会太大。

反观阿里巴巴能够透过淘宝、支付宝平台上每日数以亿计的电子商务交易和移动支付细节,了解卖家和消费者交易前后的所有线上(online)与线下(offline)行为,包括交易金额,交易地点、购买商品,甚至还包括交易前后的轨迹,譬如到过多少地方、浏览了什么产品和品牌、比较了多少样品价格才决定进行交易?这些数据不仅能够准确预测平台用户的购物偏好和动向,还能帮助蚂蚁金服准确的评估商家与消费者的信用评级和周转周期,来发放高偿还率的微型贷款。

总结来说,只有具规模,能被转换成精准、高效、高回酬率决策算法的大数据;或是能提供极具洞见、足以反转局势、打破博弈平衡的数据,才能让数据从看似平凡的砂石,进阶点石成金的传奇。

文章发表于2021年7月5日的《东方日报》

参考资料/Reference

[1] https://www.theinformation.com/articles/data-is-the-new-sand
[2] https://paulsonderegger.com/2021/03/04/data-hits-peak-metaphor/
[3] https://mp.weixin.qq.com/s/WbwK2IUBqLZRggokYJxrww
[4] https://www.economist.com/special-report/2020/02/20/are-data-more-like-oil-or-sunlight
[5] https://www.technologyreview.com/2021/03/11/1020635/building-a-better-data-economy/
[6] https://buzzorange.com/techorange/2021/06/04/quirky-china-ai-student/
[7] https://www.infoq.cn/article/ke1hgzy6yaoupikblgya
[8] https://baijiahao.baidu.com/s?id=1702068377650285752&wfr=spider&for=pc&searchword=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%82%9F%E9%81%932.0
[9] https://towardsdatascience.com/gpt-3-scared-you-meet-wu-dao-2-0-a-monster-of-1-75-trillion-parameters-832cd83db484
[10] https://www.scmp.com/tech/tech-war/article/3135764/us-china-tech-war-beijing-funded-ai-researchers-surpass-google-and
[11] https://www.businessweekly.com.tw/international/blog/20486

Post a Comment

0 Comments