大数据算法的困境

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

2013年,美国有一起充满争议的案子,一个因为偷窃罪被判刑的男人把威斯康星法院告了。原因是他被判整整8年有期徒刑,不是因为他的罪行,也不是因为法官的判断,而是因为一个AI(人工智能)认为,他对社会具有“高危险性”。大数据时代,我们关注最多的是数据的安全和隐私,然而,数据加上算法所带来的问题,或许要比安全和隐私重要得多。

大数据让算法前所未有的强大

机器学习和深度神经网络,克服了算法设计中人的局限;只要有数据,只要数据中有统计规律,算法就能找到这些规律。人工智能技术近几年的火热,主要得益于机器学习、深度神经网络方面的技术突破,以及大数据技术的成熟。这些技术的突破使得从前很多被认为机器不可能解决的问题,变得可以解决。过去技术人员开发信息系统,需要将领域知识在头脑中转换为算法和程序。这些技术突破改变了这一现状,消除了对领域知识的依赖。算法可以通过机器学习的方法,从大量数据中自动提取出来,不再需要人来编写。这不仅减少了错误遗漏、降低了开发成本,并且可以随着数据的变化自动更新,而不会因为现实的变化而落伍。

算法存在的问题

算法没有价值判断,最终是人给计算结果加上了价值判断。但是一旦人们把算法给出的结果,用在处理社会关系上,这些结果就对相关的每个人产生了意义。

算法让一部分人掌握了过大的权力。虽然技术突破和大数据让算法开发变得容易,但是获取到足够的数据和计算资源,开发并利用算法,仍然是一件具有相当门槛的事情。能够掌握利用算法的仍限于少数人,这就使得这些少数人在社会生活中相对于其他人占有了极大的优势。为了社会公平,我们对拥有财产优势的人征收更多的税负,对掌握权力的人施加种种制衡,但是我们对拥有算法优势的人如何限制,仍然没有可行的思路。

对算法的迷信。技术突破让算法不需要人编写,虽然减轻了人开发算法的负担,但也让人更难以理解算法。大多数深度学习产生的算法都让人无法理解,但是由于大多数情况下算法是有效的,人们即使不理解,也乐于利用算法。这就产生了一个风险:没人知道算法的边界和失效条件,因此也就不能判断算法何时会出错。由于不理解,使用者往往倾向于忽视这种风险,于是形成了对算法的迷信。威斯康星州的判案系统就是这种情况。

相应的社会约束机制难以跟上。新技术只要有效,很快就会在社会生活中广泛应用,但是新技术往往深刻地改变了人们的生活方式,而与这些改变相适应的社会约束机制,只能在新技术的社会影响日益明确之后,才能逐渐建立起来。社会规范总是滞后于社会现实,在技术快速发展的当今,这种滞后造成的问题尤为显著。今天人工智能对人们日常生活的影响,恰如一百年前汽车普及造成的影响。当美国普通家庭开始拥有汽车很多年之后,道路信号、交通规则、驾照考试等设施和机制才逐渐完善,跟上技术变革的脚步。

在变化中探索秩序。人工智能技术仍在快速发展过程中,对社会生活的种种影响才刚刚开始显现。对此我们既不能因噎废食,阻碍技术发展,也不能放任自流,任由丛林法则支配,而是必须因应技术发展的潮流和社会现实的变化,不断探索调整,兴利除弊,让技术发展始终作为推动社会进步的动力。


本文作者:赵丹

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
22天前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
46 4
|
22天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
46 0
|
3月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
87 10
|
1天前
|
机器学习/深度学习 数据采集 算法
大数据中缺失值处理使用算法处理
【10月更文挑战第21天】
6 3
|
4月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
106 1
|
4月前
|
存储 监控 算法
「AIGC算法」大数据架构Lambda和Kappa
**Lambda与Kappa架构对比:** Lambda提供批处理和实时处理,保证数据最终一致性,但维护复杂。Kappa简化为单一流处理,易于维护,适合实时场景,但可能增加实时处理压力,影响稳定性。选择时考虑数据一致性、系统维护、成本和实时性需求。
92 0
「AIGC算法」大数据架构Lambda和Kappa
|
5月前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
5月前
|
分布式计算 算法 搜索推荐
Java中可以用的大数据推荐算法
在Java中实现大数据推荐算法,通常使用Apache Mahout、Weka、DL4J或Spark MLlib。本文简要介绍了三种推荐算法:基于内容的推荐、协同过滤推荐和深度学习推荐,以及它们的使用场景。提供了每种算法的伪代码或关键代码片段。基于内容的推荐适用于有用户历史行为和物品内容信息的场景,而协同过滤适用于大量用户行为数据的场景,深度学习推荐则用于处理复杂特征。在实现时,注意数据预处理、特征提取、用户画像构建和相似度计算。
134 1
|
4月前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
246 0