用数据的心智,把现实世界数字化

摘要: 他是我们的技术大脑,我们的技术决策和技术方向都是他来决定的;他是一个百科全书式的人物,我创业就是被他忽悠出来的;他是公司中最具有全方位视角的人之一;他是技术大神,可以修改所有产品源代码;半年没有解决的技术问题,他蹲在地上没有半小时就解决….

09-30 15:25 首页 InfoQ


“他是我们的技术大脑,我们的技术决策和技术方向都是他来决定的;他是一个百科全书式的人物,我创业就是被他忽悠出来的;他是公司中最具有全方位视角的人之一;他是技术大神,可以修改所有产品源代码;半年没有解决的技术问题,他蹲在地上没有半小时就解决了….”他在同事眼中就是这么个神奇人物。他是谁?他是 TalkingData 首席数据官黄洋成——YC。在近日由 TalkingData 主办的 T11 2017 智能数据峰会上,黄洋成发表了主题演讲,他真的如同事评价般神奇吗?咱们看看他在演讲中都说了什么。
从 AlphaGo 看数字世界能够解决什么?

这两年最热门的词是什么?我想没有异议,就是 AI。作为引领新一轮 AI 浪潮的标志性事件主角,AlphaGo 是指数级增长的一个典型案例。我们和国内顶尖的职业围棋培训机构葛道场有很多合作,从他们的经验来看,如果要想成为一个职业围棋选手,这还不算顶级选手,最晚也要从六岁到七岁开始学棋。即使是像柯洁这样的奇才,从五、六岁学起,到成为世界冠军也需要十多年的时间。而 AlphaGo,前年最初连樊晖这样不太知名的围棋职业选手都无法战胜;而短短几个月后,到去年已经可以击败李世石;再到今年以 Master 的身份复出,人类围棋选手已经完全没有抵抗之力。这些都让我们看到,与人类的学习速度相比,AlphaGo 的学习速度可能在几个月时间内就能顶上人类几十年,棋力的进展绝对是指数级的。

我们回来看看 AlphaGo 为什么这么厉害?首先我们来看看要是在物理世界里有没有可能演化得这么快?我们知道在物理世界中,大家都学习过的牛顿第一定律表明,引力和质量成正比,这是一个线性的关系,也就是说我们的物理世界总体是由线性的规律主导的。所以,即使你可以造一台下围棋非常快的机器,每秒可以移动 1000 个棋子,也不太可能造出 AlphaGo。

AlphaGo 广为人知的三个部分分别是策略网络、价值网络和蒙特卡洛树搜索。策略网络所代表的是人类的经验、历史的经验。从公开的论文来看,AlphaGo 的策略网络准确度基本在 57%。这个比喻未必特别精确,但类比考试成绩,如果期末考试才考了 57 分,这在人类世界不是特别可以拿出手的成绩,这说明什么?说明这个策略网络和人类可以学到的相比并不是特别厉害。

让我们再来看看价值网络,做过计算机围棋的都知道,这个价值网络特别不好训练,很难获得一个质量特别好的结果;也就是说价值网络评估当前棋局形势的能力其实也不如人类。策略网络和价值网络都不如人类,那为什么 AlphaGo 还能这么厉害?所以最根本的还是在于它使用的蒙特卡罗树搜索,这块能力比人强。人类每下一步棋,能考虑到几十步已经是顶尖的高手,但 AlphaGo 却可以搜索几十万、几千万、几亿步。

咱们再来看看商业,在传统零售领域有一个经典的模型——人、场、货。去掉字面的意思看内涵,这个模型可以推广到所有商业。人,代表了需求;货,就是产品、代表供应;场,是供与需的匹配。这几年互联网对传统商业模式的冲击非常大,互联网 + 已经上升为国家策略,为什么在与传统商业的竞争中,互联网会有巨大优势?互联网没有解决供应的问题,也没有改变人的需求,但是解决了匹配的问题。放眼看过去,大部分的互联网企业都是在做匹配。

互联网企业在匹配上能够比传统商业做的更好,背后方法也与 AlphaGo 的例子类似,都是将物理世界建立的模型投影到计算机的数字世界,然后利用由摩尔定律支撑的指数级增长的计算力,在数字世界中进行无限的模拟、探索,并且结合以往的经验找到更好的方案,再把这个方案反过来应用到现实世界中,并从现实世界获得真实即时的反馈,并用于在数字世界中找到更好的方案。

就像 AlphaGo 从与樊晖试棋,再到在网上与邀请的顶级围棋选手对弈,都是期望通过现实棋局得到真实的反馈,再回到数字世界中找到更好的解决方案。

数字驱动:关键是试错成本和迭代速度

日前,还有一个特别火爆的领域,那就是自动驾驶。像谷歌,做自动驾驶近十年时间,积累的路测数据有几百万英里;特斯拉每年卖出几万辆汽车,号称路测数据积累了上亿英里。然而根据专家的估计,想让自动驾驶汽车能够可靠地上路行驶,最乐观的估计也需要至少 100 亿英里的路测,这对企业来说几乎是不可能实现的。现在很多自动驾驶企业都建立了模拟系统,在数据世界搭建一个虚拟世界,例如谷歌已经把凤凰城完全数字化,自动驾驶系统可以在这个虚拟世界中每天行驶超过几亿英里。

这样做的好处是,在现实的、线性的世界中,试错的成本非常高。而通过数据的方法在虚拟数字世界中建立一套与现实世界对应的模拟,利用计算机强大的计算能力去尝试各种可能性,尽量找到最好解决方案,再应用到现实世界中,这样可以极大的提高迭代速度。

观察这三个例子,我们可以发现他们有一种共同的模式,那就是建模,投射,探索,应用和反馈;这就是数据驱动方法的基本框架,而其成功的核心,则是试错的成本和迭代的速度。

用数据的心智 把现实世界数字化

最后回到现实的商业中,有没有可能在商业中应用类似的方法?目前大部分的商业活动还是处于线下。如果应用像刚才说的方法,首先要做的,就是在数字世界中建立一套对物理世界的投影,把物理世界数字化。坦率说,目前世界上在这方面的探索还没有做得特别好。这也是我们今年在硅谷设立感知计算实验室的原因;感知计算实验室的使命就是尽可能的把这个世界数字化。

让我们再看看另一面,目前我们记录下来的都是用户的行为,但这个世界除了计算机领域的数字世界、我们生活的物理世界,其实还有每个人大脑中的思维世界。而人的行为,其实都是由大脑中的世界驱动的。那我们有没有能力把每个人大脑中的世界也数字化呢?这是比我们以往做的更前沿、也更少人去做的事情;而人本实验室的使命就是试图去解决这些问题。

综上所述,对于奇点大学执行总裁 Kian 先生所讲的“指数级增长”,我不知道有多少方法可以去实现,但是我们知道,数据的方法是一种已经被证明的可以支撑这种指数级增长、指数级迭代、指数级创新的方法。所以,最后也希望能和大家携手,一起用数据的心智,知机领变,共同开创一个指数级增长的新世界。

点击【阅读原文】了解 TalkingData 更多精彩内容。

作者简介

黄洋成 (YC) TalkingData 首席架构师   TalkingData 硅谷感知计算实验室负责人

现任 北京腾云天下有限公司首席架构师。2011 年参与组建 TalkingData。目前主要关注高性能计算,分布式计算,SSD/Memory-based 存储 / 数据库技术,传感器的数据收集及处理等方向。Hive-Mongo DB project (https://github.com/yc-huang/Hive-mongo) 的发起人和作者。


首页 - InfoQ 的更多文章: