阿里巴巴达摩院学术咨询委员周以真:如何有责任地使用大数据

大数据
亿欧
周以真
2017-10-12 17:14
[ 亿欧导读 ] 10月12日,哥伦比亚大学计算机系教授,大数据科学研究中心主任周以真在2017云栖大会上发表演讲,从五个方面,即公平(F)、可靠(A)、透明(T)、道德(E)以及安全(S),来讲述如何有责任地使用大数据。
哥伦比亚大学计算机系教授周以真,周以真,大数据,公平,可靠,透明,道德,安全

10月12日,哥伦比亚大学计算机系教授,大数据科学研究中心主任周以真在2017云栖大会上发表演讲,从FATES这个比喻的五个方面,即公平(F)、可靠(A)、透明(T)、道德(E)以及安全(S),来讲述如何有责任地使用大数据。亿欧作为支持媒体参与本次报道。

周以真:

在这里面我想用FATES这个比喻的缩写来来讲一下如何有责任地使用大数据,F是代表公平,A是可靠,T是透明,E是有道德,S是代表安全。

亿欧对周以真的演讲内容进行以下整理:

感谢阿里巴巴集团邀请我来到这里,在云栖大会上进行发言,大家刚才听到了很多关于大数据的话题,我要谈一谈数据的好处,但是我的讲话副标题是“可怕的人工智能以及大数据带来的其它威胁”。

首先我想来看一下,数据能够带来一些什么样的好处,我这里要分两方面来说。

■ 第一方面,我们要有责任的使用数据。

■ 第二方面,我们要用数据来应对社会巨大的问题,比如说能源、环境、教育、气侯变化等等这些重大的人类命题。

但是今天我只是会去谈有责任的使用数据这一个方面,因为我们所有人都是在使用数据,我们在使用数据的目的,都是为了应对社会的挑战。我演讲的目的,给大家敲一个警钟,我们在使用数据过程当中不负责任的话,会有什么样的后果。

在这里面我想用FATES(命运)这个比喻的缩写来来讲一下如何有责任地使用大数据,F是代表公平,A是可靠,T是透明,E是有道德,S是代表安全。

公平

首先来看一下数据,我在给大家分享之前,先非常简单的讲一下典型的算法和模式。我们以大数据为原料进行计算时,会涉及到一些算法和模型。机器学习和形成一种模型后,我们可以再输入新的数据,产生新的结果,之后我们可以来判断和预计这个用户有可能采购哪些商品。

我们知道数据和算法都可能是有偏见的,那么如果数据和算法是有偏见的话,模型也可能会有偏见,结果也会有偏见。

让我们来看一个实例,这是几年前我们看到两个小偷,在美国的法官用了这种算法来决定判断量刑过程当中是否恰当,我们看到这些自主研发的算法,用于帮助法官去判断这些量刑。我发现他们对于黑人和白人量刑的结果是不同的,大家觉得这是不公平的。其实结果还不仅仅于此,我们在算法当中有一些什么样的问题?这个算法本身是有偏见的,而且哈佛大学学者研究出来,这些算法有可能是可以判断的,又可能是错误的,但不可能两者兼具,实际上是不可能去判断这个风险的分数。

第二个例子,我的同事做了一个项目,研究在Google上的广告,他们发现这些高高薪的工作机会会更多地向男性网民展现,而女性网民看到的机会则比较少,我们觉得这是不公平的。现在我们就要去思考,这个模型是否是公正的,这些分类是否是公正的,我们怎么样来确保,这个案例就引发了另外一个问题,那就是可靠性。

可靠

说到底,我们应该怪谁呢。好像这个问题很难找出一个好的答案,但是我们要有担当,我们在IT界,我们是发明这些算法的人,我们是使用数据的人,我们是产生和收集这些数据的人,并且生成这些结果的人,我们要有担当。

如果你是一家企业,首先可以把隐私政策进行公布,而且要遵守这些政策,如果有人违反了这个政策,你就要去修补这个漏洞。

我和的同事在微软研究院所做的,我们会看一下在人们遵守这个公共政策的规模和程度是如何,这涉及到我们编程的语言,我们做成数据地图,这个数据地图每天晚上在微软进行运行,帮我们找到我们政策上的漏洞,所以自动化可以在这方面帮助我们,让我们负起责任来,让我们对于我们发布的政策负起责任来。

透明

第三个关键词是透明度,透明度现在是一个很大的问题,特别是我们涉及到这些深层的神经网络的时候,我们是否应该对这个结果予以信任,我们为什么要对这个结果予以信任呢?我们其实并不了解他们是如何来工作的,那这样的话,就会引起一些问题。

所以在给大家举例子之前,首先给大家介绍一下,我们最大的DNN(深度神经网络),我们可以看到这里的DNN一共有152层,对于科学家来讲,我们看这个DNN在什么情况下会出错。

左边这张图片是57.7的信度,这个我们相信是熊猫,然后把噪音信号进行混合,我们可以看到右边的这个熊猫的图案,这个信度是比之前更高,我们知道这是一个猴子,猴子跟熊猫合成之后,第三张合成的图片的信度更高了。

如果我们对于这个DNN怎样工作的原理不清楚的话,这里面我们来看一个例子。我们可以看到奥巴马在同样一个音轨,同样的话,用四种语音语段发出来,这是一个Youtube上面比较好玩的事情。对于这样一个音频流,任何人都可以模拟其他人的发音,这样就会产生一个威胁。

这不单会产生技术问题,应该说是大公司正努力解决的问题。欧盟也有这样的政策,2018年所有大的公司,都要遵守这样的一个有关于数据方面的问题的法规章程,不然的话,你就会被罚款。这里有四个标准:一是可访问的权利,二是可忘却的权力,三是数据的可携带性,四是可解释的权利。2017年到2018年之间,科学家正在致力于了解深度学习到底是怎么样来进行工作的,要能够解释得清,这里面是一个伦理的问题。

道德

我们可以看到这里面一辆列车开过来,在正常轨道和旁边废弃的轨道上都有人,无论列车驶向哪个轨道都涉及伦理方面的问题。那么对于自动驾驶车而言,必须要做这样一个决定,这个车该如何决断呢?

此外还有假新闻的问题,假新闻到处泛滥,造成了很多问题。微软就有这样一个例子——聊天机器人小冰。但在24小时内,却不得不把这个聊天机器人关闭。为什么呢?因为我们看到由于互联网之间有一些阴暗面的存在,聊天机器人被诱导说一些很不好听的话题。我们这意识到互联网有一些快速传播的不良消息,因此我们要非常重视伦理道德,尤其是在设计的时候,而不是在运用的时候。

安全

我们可以看到,好比说这是一个天猫精灵,然而很容易被黑客所侵占,对隐私和安全造成非常大的影响。

对于无人家而言,我们也要保证无人机不要伤害人,或者造成任何破坏。我们回过头来看FATES,在这里面,科技能够做哪些工作呢?正如我刚才所说的,应该产出各种可能性,所以我们要让第三方的人能够检查我们的产品,因此科技公司要把掌握的数据尽量确保往好的方面运用。

亚马逊、苹果、IBM、Google、Facebook等机构和个人都加入这个行列,人工智能能够造福人类,但我们在科技界也应该承担这样的责任,确保往好的方面发展,同时,我们现在也有一些新的问题。

比如说我我们是否需要对人工智能进行立法,我们现在已经对机器人有相关的立法,对人工智能是否也要立法,那么人工智能是不是也要进行很好的管制?如果要管制的话,是由谁来管制呢?我们是否要有一个消费者保护,以避免人工智能不良的应用。包括我们所有的产品是否需要有一个授权许可,公司是否也需要有这样一个委员会专门来进行检查和审核。

所以我们对于这个数据有一个负责任的态度来使用,才能够物尽其用。谢谢。


【2017亿欧创新者年会暨第三届创新奖颁奖盛典】将于12月13日-14日在北京中国大饭店举行。来自全球的100+名国内外顶级大咖、300+家主流媒体、4000名合作伙伴与行业精英共同参会,共话产业创新的未来与发展。邀您共同参与!

猛戳链接查看活动详情:http://www.iyiou.com/post/ad/id/420

770-160.jpg


参与评论

相关文章

关闭
  • 精彩推荐
  • 2018年中食展国际冷链馆
  • 预见2018吴晓波年终秀
  • AI从云端 到终端

快来扫描二维码,参与话题讨论吧!

发送验证码
发送验证码
发送验证码
找回密码失败,请选择人工找回
如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部