2020WAIC | 2018年度图灵奖得主、蒙特利尔大学计算机科学教授Yoshua Bengio发表主题演讲

2025China.cn 2020年07月09日

　　人工智能近年来的迅速发展，很大程度上归功于“深度学习”为代表的新理论的提出。作为“深度学习”三巨头之一的Yoshua Bengio教授，近期在AI助力全球抗击疫情方面也进行了相关的研究。

　　今天，在2020世界人工智能大会云端峰会，2018年度图灵奖得主、蒙特利尔大学计算机科学教授Yoshua Bengio发表主题演讲：谈谈基于智能手机的传感器风险预测和机器学习。

2018年度图灵奖得主、蒙特利尔大学计算机科学教授Yoshua Bengio

Yoshua Bengio：大家好，我是Yoshua Bengio，今天跟大家谈谈基于智能手机的传感器风险预测和机器学习。

　　首先，我想先谈一谈跟这次新冠病毒疫情相关的重要事实，以及它是如何从一个人传到另一个人，有时候就是靠近的一个人传到另外一个人。另外一个重要的事实就是什么时候你是具有传染性，其实在你开始有症状，如果你有症状的话，症状开始几天之前就已经开始具有传染性了，你可能是因为其他人传给你的，这时候你心里应该是有点感觉，因为其他传给你的那些人肯定病毒测试的时候呈阳性了或者他们也有症状了，这就是我们所说的接触跟踪的一般概念。人们喜欢根据别人在手机上所报告的内容来发送一些警告信号，比如说测试，报告里面包含和新冠病毒有关的各种症状等等。但是用人工进行操作，其实是可以的，但是问题就是需要时间，手机上记录那些信息的数字就是跟踪的信息，很可能有所帮助。

　　现在，这种标准方式的数字接触跟踪的问题就在于只是考虑了一个人是否呈阳性与两元化的信息，如果能减少延误时间，那就有可能大大地减少病毒的传播。现在一旦你考虑一些症状的时候，那就不是简简单单的两元，不是那么简单了，因为有的时候它的症状不一样，症状严重程度也不同，所以你就需要考虑到好多点，或者说你有现有的病情的状况，还有你的年龄和你的性别都可能会影响疾病的进程。另外，你也可能从那些已经患病的人那里获得信息，你接触过不同风险等级的人，这些信息和线索都需要进行整合，要得到一个有效的整合方法就不容易了，最好的一个办法就是用机器学习把这些碎片信息整合起来，来确定你是不是已经被传染了或者你处于传染的哪个阶段。如果能做到这一点的话，那些有危险的人就可以根据这些预测出来的传染性，向他过去几天的时间里见过的那些人发个短信，告诉他们哪些人风险最大，你们要小心一点，你们就需要待在家里被隔离，而那些风险不是特别高的人就不会受到太大影响，需要谨慎一点，但不需要接受强制的规定，我们觉得这种技术未必能够完全取代人工的接触跟踪，人工的接触跟踪还发现手机没办法进行评估的关系，我们想利用加强人工接触跟踪的工具，扩大范围，可以说对公共卫生管理来说也是很有用的、很珍贵的。

　　举例，公共卫生管理部门可以决定测试谁，那些风险更高的人或者有没有有过接触史的人是不是要接受优先测试。此外，这些技术还可以提供很多重要的信息，比如说预测是不是有可能出现大疫情，在人们去医院之前就能够检验预测了，因为可以看到传染的概率在某些地区已经大幅上升的情况。

　　现在我们回到机器学习这块，我们如果已经知道了整个接触的图表了，我们可以做向远程的预测了，换句话说，基于我们对每个人的了解，我们就可以预测他的状态。有很多办法，都需要某种形式的迭代，对应不同人的不同节点之间都可能会产生多次的交流概率信息，直到针对每个人的风险能够达成一个共识。其中的问题就是说，我们也不希望这种接触包含重要的文件，还有就是所有的这种迭代，你在算力、带宽方面的成本可能会比较高，这也是需要考虑的。还有就是如果机器学习的预测器足够简单的话，另一种做法就是使用联合学习，不需要拥有一个中央的训练服务器，每个人手机上都可以进行预测器的学习和培训。但是这可能有一个问题就是手机上可能会进行很多迭代、很多的通信，在这个里面，中央服务器和每部手机之间都会有大量的参数进行交换。我们实验的这种做法里面，我们是用了混合方法，就是手机之间存在的风险信息流有交流，同时手机和机器学习服务器之间也存在这种数据和信息的交互，从而能够进行共享，同时也能更好地训练风险预测器。手机之间传递的信息可以是一个人风险的状况，可以不断更新，每个人能够接收或者发送这些信息，大概一天可以接收发送四次。现在为了能在手机端做预测，我们也需要训练手机端的预测器，那些同意分享他们数据的这些人可以通过去识别的方式向服务器来提供自己的数据，所以数据并不知道，服务器不知道这些数据来自谁的手机、手机号码，姓名都没有，只知道他的症状、感受如何，也知道这个人有没有测试通过，就是阴性还是阳性。如果做过测试的话，我们一直在说的风险预测器会接收以下的信息输入，包括调查问卷所填的信息，包含你现在有没有现有自身的疾病，还有年龄、性别、行为有关的信息，比如说你在外面或者封闭空间里面或者在工作场所有没有戴口罩，你工作的地方有没有玻璃挡着，有没有坐过公共交通工具，你家里住多少人，我们知道的这些都有可能会影响你有没有受感染的一种因素。包括在过去的14天里面，每个数据你能不能提供这些信息、症状的信息，还有核酸检测报告的测试结果信息，还有你白天和多少人接触过、接触多久、相隔多长距离，有没有混合接触，还有当一个人发短信的时候，我们就可以知道这个人的风险水平是多少，这个数据有一个问题，它是一个可变抄录的输入，根据你接触的数量，你的预测器输入的数量也会不同，这就意味着需要有很多不同的机器学习算法，标准的算法无法处理这些问题了，但是还是有办法的，我们需要讨论的就是在这个任务里面利用变换器。

　　现在还有一个重要的问题就是预测的目标是什么，训练这些机器的目的为了什么。这里面有一个重要的问题就是一个人向另一个人应该发什么信息呢?比如说艾丽斯在5天之前碰到鲍勃了，然后现在发现被感染了，应该给鲍勃发什么信息呢?我觉得最有用的、最相关的信息就是评估一下，艾丽斯在5天前遇到鲍勃的时候的传染力有多少，要有一个估计。我们想做的就是我们想要预测每一个人在过去14天里面的每一天，他们的传染力有多强，然后这些信息就可以发给他们在过去14天里面所见的所有人。

　　现在关于这种风险预测器它的目标是什么，我们其实本身并不知道传染力是什么，我们只有类似测试结果的代理信息，所以我们也并不一定确认如何确定正确的一个训练目标，而且即使测试结果里面也有假阳性、假阴性的，所以没有一个真正的分析解决方案来找到一个进行预测的目标。幸运的就是，在机器学习中间有一些基于潜在变量的方法用于处理这个问题。

　　首先提醒大家，我们考虑了一个情况就是我们没有办法看到完整的一个人的接触图表，但是我们有一些相关的信息，我们每个人的每部手机上都存有相关的客流信息，从每部手机的角度来看都有一个小小的图形模型描述了不同变量之间的因果关系。我们观察到其中的一些，另外的一些是潜在的，也就是观察不到的、潜伏的。现在对应不同的接触的不同变量组织有联系，我们知道一个人在于他见过谁之间接触的风险程度，我们有部分的信息可以去耦合所有的迷你图形，而且我们可以利用可用的信息来进行训练。换句话说，介于我们已经观察到的东西，我们想通过他们来预测那些还没有观察到的东西，在预测的空间里面，我们将会将自己限制在可用信息的预测之上。

　　这里面一个重要组成部分就是深层模型，我们建立它的目的是为了捕捉个体层面的信息，他们是如何通过移动的，如何通过信息进行传染感染的，他们的病情是如何根据现已知的医疗信息变化来进行改变的。我们也调整了模拟器，让它关于人们流动性的已知的统计数据和医疗数据保持一致，我们用这个做法做了一些实验之后，我们发现在顶部可以看到案例的数量，在不同情况下的一个累积数量，我们发现使用人工智能的系统可以大幅减少病例的数量，把它和使用标准数字跟踪的方法相比会减少病例的数量，这可以得到减少，我们最终发现疾病的传染数就是R-not，低于1就表示这个疾病会慢慢消失了，所以我们现在已经开始尝试使用机器学习作为改进标准的两元的阴或阳的数字方法，而且我们已经进行了实验，结果表明如果我们提供早期预警，因为有的时候人们会报告自己的症状，把自己症状方面的信息在自己感染他们之前就可以发送给其他的接触者，这样的话真的可以大大减少病毒传播。

（转载）

标签：世界人工智能大会 WAIC

我要反馈