数据驱动人工智能

世界卫生组织（WHO）宣布新冠肺炎为“全球性流行病”（pandemic）甫于2021年3月11日届满一周年。

这一年多以来，科技界的共识是“自动化”（Automation），以及能够透过远程操控的“云端计算”（Cloud Computing）是人类应对封城、限行等突发事件的最佳技术方案。

有趣的是，各界对人工智能在新冠疫情肆虐各国期间的总体表现评价不一。

除了自动化成为大多数公司进行数码转型的首要议程外，视频会议、线上教学、预录网络课程也是各国官方部门、公立机构以及私人企业谋求保持居家工作效率、顺畅沟通、吸取新知、培训技能的重点投资项目。

即便人工智能没有直接发挥及时预防和有效制止新冠肺炎扩散的实效，OpenAI的GPT-3、DeepMind所开发的AlphaFold 2，还有中国日前公布的悟道2.0，还是让人惊艳不已。

当然，这些日子以来，从事投资、专研以及开发人工智能项目的群体也没有闲着。AI界积极的探索增强数据模型预测准确度的良好软件工程准则。其中一项有趣的发现是，好的数据（good data）比大数据（big data）对人工智能建模起更大的作用。

前些时候，知名深度学习专家吴恩达（Andrew Ng）在其创立之机构Landing.AI的网络分享会中分享其团队的研究结论 -- 对于数据样本量等同或小于1万的人工智能模型，纠正数据错误、改善数据素质、加强数据标注用词的统一性，比通过修正和完善化演算法（algorithm），能更有效的提高数据模型所导出结论的准确度。

基于现阶段的人工智能程序开发经验显示，修正数据的瑕疵和改善数据的素质比改进算法的逻辑更能提高数据驱动人工智能模型的性能，吴恩达以及他的团队正积极推广“以数据为中心” 的人工智能系统范式（Data Centric AI），来代替以调教数据模型算法为主，收效较不理想的“以模型为中心”的人工智能系统开发流程（Model Centric Approach）。

相对于对数据弃芜存菁的“以数据为中心”之范式，在“以模型为中心”的 AI 方法论中，系统开发和维护团队着重于建立一个足够好的模型，来抵消所收集之数据中可能存在的数据瑕疵或噪声数据（develop a model good enough to deal with the noise in the data）。

一篇于2021年2月13日发表于《Venture Beat》网站的文章《人工智能的进步取决于我们使用更少的数据，而不是更多》(AI progress depends on us using less data, not more)，很贴切的总结了人工智能的性能对数据量的依赖程度，是判断人工智能技术成熟度的指标。

在各种大型语言模型（large language models）人工智能技术竞相以更多的参数（parameter）来达到足以以假乱真的仿人会话和创作能力的时候，学界和科技界开始出现反思：人工智能的进度，应该是以更少量的数据来产生更大的科研成果作为标杆（benchmarking）的，而不是反其道而行，以更多的数据来追求成效。

这几年来最风靡全球的自然语言处理模型（Natural Language Processing Model）如谷歌（Google）的BERT、由英伟达（Nvidia）研发的MegatronLM模型、微软（Microsoft）的Turing-NLG，甚至是OpenAI的GPT-2以及GPT-3都是以谷歌在2017年公布的Transformer语言模型（Transformer Language Model）为技术基石。

微软的合作伙伴OpenAI在去年发布的GPT-3模型，以1750亿个参数，和Common Crawl资料库于2016年至2019年间所抓取的数据，再加上海量的网络文本，书籍内容和维基百科资料来培训模型；今年初公布的谷歌大型语言模型TRILLION Parameter Switch Transformer model更进一步，以1.6兆个参数来建模。

《The Next Web》网站亦有评论文章，对以提高硬件性能和扩大数据量来换取更佳运算成效的人工智能科研风潮提出以下总结：

这项技术的主旨是，足够的（硬体驱动）蛮力（运算）将引领出更佳计算技术的应用，从而让人类得以用更少的电脑计算，来做更多的事。

我个人的解读是，市面上首屈一指的大型语言模型，都以超强的硬体驱动运算能力来建模。

以海量参数和数据构筑的预训练模型（pre-trained model），过后可以用来轻易的完成“几次学习”（few-shot learning）、“一次学习”（one-shot learning）、甚至是“少于一次的学习”（less than one-shot learning），似乎和人类一样聪明，通过学习极少的数据就能够见微知著、举一反三。

事实上，我认为这其实是变相的转移学习（transfer learning），预训练模型（pre-trained model）已经从数以亿计的参数和培训数据中掌握基本的知识架构，所以才能在完成建模后，在小数据学习（low-data training/small-data training）时，从极其稀缺的数据中导出我们所希冀的高学习成效。

诚然，当下大部分的人工智能研究项目和应用程序的开发都是以发掘和收集有用的数据、加工转换数据的格式，以及以数据培训人工智能模型为基础，来达到以数据分析、优化和自动化的最大效益。然而，无止尽的堆积数据，一味的以大、以多来取胜却不是可持续的人工智能发展方向。

或许，各国科研机构以及科技巨擘对待数据的方式，不应该是争相以更多的私有化数据来比拼人工智能的性能，而是逐步开放数据来造福人群，让更多的专才应用宝贵的数据来开发惠及普罗大众的应用程序，正如《经济学人》在2020年4月的文章《拆掉这堵墙》（Tear down this wall）所指出的那样：经济学家人们认为数据如果能被广泛的共享，它不只不像石油可以被重复的使用而不会枯竭，还可以用来驱动各种人工智能算法。

文章发表于2021年7月18日的《东方日报》

参考资料/Reference

[1] https://youtu.be/06-AZXmwHjo
[2] https://www.technologyreview.com/2021/03/26/1021258/ai-pioneer-andrew-ng-machine-learning-business/
[3] https://venturebeat.com/2021/02/13/ai-progress-depends-on-us-using-less-data-not-more/
[4] https://thenextweb.com/news/googles-new-trillion-parameter-ai-language-model-is-almost-6-times-bigger-than-gpt-3
[5] https://www.economist.com/business/2020/04/23/microsoft-embraces-big-data
[6] https://mp.weixin.qq.com/s?__biz=MjM5MjA1Mzk2MQ%3D%3D&mid=2650878008&idx=1&sn=8fea21efc3ba7eb6fd1ec598c3dc7bcc&chksm=bd59bf9e8a2e368802ce2fa56f196cc179edd431f383b79f256a153e6712c56495ef9a393e21&token=354722024&lang=zh_CN
[7] https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf
[8] https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/?sh=2866fc2b74f5