生成式人工智能的完整过时指南(MEAP)(二)(4)https://developer.aliyun.com/article/1516932
10.5.5 多模式学习
将多种形式的信息,如文本、图像、视频和音频,整合到 LLM 中,可以产生更全面和具有上下文感知的模型。多模式学习技术的进步可以使 LLM 能够生成结合不同形式信息的丰富且连贯的内容,为创意丰富且沉浸式的人工智能应用开辟新的可能性。多模式学习的可能应用包括视频摘要、医疗诊断和与环境密切结合的机器人(仿佛这是我们需要的所有)。
10.5.6 可解释性与解释性
在 LLM 中开发解释型人工智能和可解释性的技术和方法是一个活跃的研究领域。该领域未来的进展可以增强 LLM 的透明度,使用户能够理解和信任人工智能系统的决策过程,从而缓解与偏见和缺乏问责相关的担忧。
可解释人工智能是指开发能够为其决策和行为提供可理解和透明解释的人工智能系统。它侧重于使人工智能模型的内部运作对人类可解释和可理解。可解释人工智能技术旨在揭示对人工智能系统输出有贡献的推理、因素或特征,从而增强信任、责任和用户接受度。通过了解人工智能是如何以及为何得出某些结论,可解释人工智能帮助用户、利益相关者和监管机构洞察决策过程,识别偏见或错误,并确保人工智能系统的公平、道德和透明度。
同样,在人工智能的背景下,可解释性是指理解并解释人工智能模型或系统如何得出其预测或决策的能力。这涉及向人类提供有意义的洞见,了解人工智能系统的内部运作逻辑和推理。可解释性技术旨在使决策过程对人类透明和可理解,使用户能够信任和验证输出,识别潜在的偏见或错误,并深入洞察影响系统行为的因素。可解释性对于确保人工智能的责任、公平和道德使用,以及促进人工智能与人类在关键领域的合作和决策是重要的。
特别需要此类透明度的应用包括自动化的金融信用评分系统、法律合同分析以及教育环境中的评估。
10.5.7 数据效率和少样本学习
当前的 LLM 通常需要大量标记数据进行训练。未来的技术可能会专注于提高数据效率,使 LLM 能够有效地从更小的数据集或更少的迭代中学习。这可以扩大 LLM 的可访问性和可用性,特别是在标记数据有限的情况下。
数据效率是指机器学习算法或模型在用少量标记数据进行训练时能够实现高性能的能力。传统的机器学习方法通常需要大量标记数据进行有效的训练。数据高效技术旨在通过采用迁移学习、主动学习、半监督学习或数据增强等方法来克服这一限制。这些技术能够使模型通过利用先验知识、利用未标记或部分标记数据,或生成合成数据来扩充训练集,从而能够很好地泛化有限数据集。
少样本学习进一步提高了数据效率,重点是训练能够仅通过少量标记示例泛化到新类别或任务的模型。少样本学习的挑战在于使模型能够从少量标记实例中学习,并有效地适应新类别或情景。像元学习这样的方法,模型从任务分布中学习学习,以及基于度量的方法,学习样本之间的相似度度量,通常用于少样本学习。这些技术使模型能够从已见类别泛化到新的、未见类别,并且只需极少的额外训练样本。
数据效率和少样本学习在获取大量标记数据困难、昂贵或耗时的情况下具有实际意义。它们使得机器学习模型能够在有限的标记数据下有效学习和很好地泛化,使得人工智能在数据有限的实际情况下更易于获取和应用。这些方法有助于计算机视觉、自然语言处理和机器人等领域的进展,其中标记数据稀缺是一个常见挑战。
10.5.8 领域特定知识整合
将领域特定知识整合到 LLM 中可以增强它们在专业领域的性能,并实现更加定制和准确的响应。可以实现结构化数据、领域本体论或专家知识与 LLM 的无缝集成的技术可以增强它们在各个行业和专业背景中的实用性。法律、医学和金融领域都是可以从这些整合中获益的行业。
10.6 二阶效应
二阶效应是特定事件、行动或政策的意外间接、长期或级联影响。我们将在本书的最后快速查看一些生成 AI 潜在的二阶效应。
10.6.1 投资市场
让我们想一想当数百万个私人投资者由 AI 算法指导 - 而不是像银行和对冲基金这样的机构投资者 - 同时涌向像 RobinHood 这样的折扣在线券商时,情况可能会是怎样的。
我们已经开始看到一些复杂的实验,涉及向 AI 工具提供大量历史市场分析数据,并将输出提供给消费者。Portfolio Pilot 和 Composer.trade 是两个相对成熟的可能示例。但假设数百万投资者注册。那么,这将如何从宏观角度改变市场本身?
首先,合理地假设 AI 可能被应用于通过提供基于大数据集和复杂算法的更准确的预测和建议来改善投资决策是合理的。当然,AI 的有效性取决于其所训练的数据,而使用开发 AI 模型的训练数据存在偏见的问题。此外,与在金融中使用 AI 相关的监管挑战,包括确保决策过程的透明度和问责制。换句话说,AI 动力的投资飞机可能永远也不会真正起飞。
但超越这种相对不太可能的结果,由于他们的数量庞大和日益增长的影响力,个体投资者可能会在塑造市场趋势方面发挥越来越重要的作用。让我们谈谈可能会出现的一些方式。
例如,当散户进行高频交易或集体买卖时,他们可能会引发突然的价格波动,导致市场波动加剧。这在 COVID-19 大流行期间显而易见,当散户通过像 Robinhood 这样的在线平台推动股价飙升时。散户情绪的大规模变化可能会导致市场情绪的转变,使资产价格上涨或下跌,而与基本面无关。因此,例如,如果散户对某个特定行业或公司感到乐观,即使没有确实强有力的理由支持增长,他们也可能推动对这些资产的需求增加。
Robo-Advisor 和其他数字财富管理平台的崛起可以通过提供低成本、多样化的投资组合来进一步扰乱传统的投资模式,这些投资组合可供更广泛的投资者使用。这种投资的民主化可能会导致新的市场动态,并有可能颠覆金融行业内的既定权力结构。根据您的观点,这可能是好事或坏事。(值得一提的是,我个人倾向于“好事”。)
随着社交媒体和在线平台的普及,散户现在可以轻松地分享想法,围绕特定投资主题形成社区,并迫使机构注意。这种朝向去中心化投资的新趋势可能会诞生新的市场现象,并挑战传统的市场分析形式。
随着散户投资行为的规模增长和影响力的增加,监管机构可能需要调整现有的监管规定或引入新的规定来应对与这种转变相关的风险。例如,可能会跟随更严格的报告和披露要求,或者对在线券商进行更严格的监督。
散户投资者往往比机构投资者交易频率低,交易量小。我认为这是件好事。我的个人投资偏好是大量购买先锋标普 500ETF 指数基金,然后将其忽略 50 年。但是,从更大范围来看,散户投资活动的波动可能会降低市场流动性,使其他参与者难以快速进出仓位而不会显著影响价格。
散户投资者往往追逐热门趋势,涌入某些行业或资产,从而造成泡沫。这些泡沫最终可能破裂,导致对毫无戒备的投资者的急剧逆转和损失。历史告诉我们一些这样的泡沫例子,比如网络泡沫或房地产市场崩盘。事实上,传统上,散户投资者缺乏有关投资原则的正确知识,导致糟糕的决策和对易受欺诈者利用天真的容易受骗。然而,将适当设计的人工智能加入其中应该有助于弥合这一教育差距,促进基于扎实理解的知情选择,从而使投资者和市场都受益。毕竟,人工智能引导应该擅长鼓励自我控制和纪律。
随着散户投资者的影响力增强,存在着由许多人同时采取协调行动而导致的系统性风险的可能性。想象一下,成千上万的人都在购买或做空同一证券;这样的集体行动可能引发闪崩或加剧市场不稳定性。同样,社交媒体平台允许散户投资者参与讨论,辩论策略,并迅速对新闻事件做出反应。虽然这可能促进健康的市场竞争,但也为投资疯狂创造了机会——这些情况往往是由情绪决策而不是仔细分析推动的迅速价格波动。这些情况可能导致无辜方受到意外损失或获得不可辩解的收益。
那肯定会很有趣。
10.6.2 人类创新
想想 19 世纪的那些重大改变世界的创新。我的意思是蒸汽机、铁路、制冷、缝纫机、电话、电报、摄影、电气化以及贝塞尔工艺,它使钢铁大规模生产成为可能。是谁想出了所有这些主意,是什么激发了他们?
实际上,似乎大多数发明家既不是科学家也不是研究人员。通常情况下,他们往往是充满好奇心和雄心壮志的个人,经常在他们最终要革命的行业中工作。他们是了解现在事物如何运作的人,有想象力和动力来想象如何改进他们的工作环境。
当然,是工程师和物理学家发明了激光,但是实际上是经验丰富的技工将这些技术改编成为建筑中使用的水平仪和测量工具。是谁使得从我父母那一代相对可怕和痛苦的牙科实践转变为我自己孩子们成长中的快速、友好和高效的体验?实际上,这主要是牙医,他们构想了更好的做事方式并申请了更好的设备专利。
同样地,无论好坏,许多对 21 世纪社会产生最大影响的软件平台都是像比尔·盖茨、杰夫·贝索斯、迈克尔·戴尔和马克·扎克伯格这样高度专注但没有资质的实验者的产品。我可能错了,但我认为他们中没有人完成了大学学位,当然也没有人是专业研究人员。每个人都看到了现有市场中的空白,并想出了如何填补它们的方法。
因此,请思考大多数工业革命创新背后的人们分享了对事物运作方式的深刻、直接的理解以及对更广泛的经济背景的深入了解。
现在想象一下,经过 10 或 20 年的生成式人工智能世界,我们会变成什么样子。当比我们任何人都聪明的工具指导我们工作的每一步时,我们是否仍然真正理解我们正在做的事情?我们即将经历的变化是否会导致人类工作者失去批判性思维技能,使我们在没有技术的情况下难以有效地跳出思维定式和解决复杂问题?
谈到创新,这里有一个广泛相关的想法。
AI是谁?我的意思是,从法律和保险责任的角度来看,始终有一个可识别的人或法人为所有财产负责。如果一辆车撞倒了某人的围墙,那么司机就应该负责。如果你能证明这是因为全新的刹车突然失灵了,那么制造商或者安装它们的技术人员可能要负责。如果医疗团队误诊了一种疾病并切除了不需要切除的器官,他们或他们的保险提供者可能要负责。但除了天气或合同排除的危险之外,发生的一切都有一个负责任的一方。
但是如果责任在 AI 身上呢?那么谁负责?你把谁告上法庭?假设一辆自动驾驶汽车造成了致命事故。你可能会说是车主的错。但是如果控制汽车的软件实际上属于制造商呢?如果制造商将个别控制系统的设计和维护外包,而其中一个系统出现了故障呢?
如果这种误诊不是医疗团队的错,而是运行其 AI 扫描设备的软件中存在的缺陷呢?如果依赖复杂软件精确计时交易的金融交易公司遭受数百万美元的损失呢?或者一个智能家居系统出现故障,并决定关闭您的安全防御系统。
你可以看到这有多么复杂。事实上,许多这些问题已经是实际问题了。但所有这些问题很可能很快就会出现在你附近的保险政策中。
10.6.3 就业市场
让我们谈谈就业世界中的一个非常具体的部分,这个部分的存在是为了让每个人都开心,但不知何故经常会做到相反:人力资源招聘部门。
仔细想想,招聘经理的工作几乎是不可能完成的。期望是你能够在数十甚至数千名候选人中挑选出最合适的新工作候选人。你需要了解你正在招聘的工作角色,成功所必需的准确技能,你的新员工将与之共事的人的性格和特点,以及所有这些可能与组织的长期目标相契合的方式。
但除此之外,你还需要设法猜测每位候选人之前的几份工作出了什么问题,哪些申请包含虚假或夸张的声明,以及谁没有足够的精力做好工作——无论他们之前的成就有多么出色。而且你必须在不冒犯任何人或违反任何隐私保护、劳工和职场法律的情况下完成所有这些。
哦。如果你弄错了,雇用了错误的人会发生什么?你可能已经让你的组织损失了数十万美元,并浪费了入职培训,使他们在项目进度上倒退了几个月。我有提到由此产生的诉讼吗?
我们都知道找工作有多痛苦。花点时间欣赏一下招聘人员所经历的一切吧。
现在考虑一下 AI 采用如何有潜力改善招聘部门的工作方式。例如,基于 AI 的数据分析可以提供有关候选人人口统计学、技能和偏好的宝贵见解,帮助招聘部门做出更明智的选择决策。它还可以帮助识别包含虚假资格或经验的申请。
自动化 AI 工具可以通过视频面试、在线测试和模拟独立评估候选人。这些评估可以提供客观的见解,帮助招聘经理做出更为明智的决策,保证与组织预定的标准和官方政策相一致。这可以通过关注与工作相关的资格,并消除与工作无关的个人特征,帮助减少偏见。
从更长远的角度来看,AI 可以利用过去的招聘决策和员工表现数据,预测潜在员工的成功。它也可以用于分析当前员工数据,并确定促成员工离职的因素。通过理解这些模式,公司可以积极改善员工保留率。
这一切是否总是完全公平的?可能不是。如果 AI 做出重大决策,你的简历是否会比现在更容易被真正的人看到?也许不会。但我认为它肯定比现在要好得多。而且它可能会消除现有的某些内在的不公平性。
这一切与劳动力市场有什么关系呢?我建议,让招聘过程更加高效和有效可能会导致更加高效和有效的组织。而一个更加高效和有效的组织往往更具生产力。在自由市场中,这应该会带来新的机遇、新的项目……以及新的招聘。每个人都应该从中受益。
10.6.4 按需媒体
如果您只需要订购一个以您最喜欢的演员为主角、基于您最喜欢的城市和历史时期的全新动作片,您会这么做吗?或者你是否会在一个早晨醒来,想知道下一张披头士专辑或贝多芬的第 11 交响曲会听起来如何?或者你是否想要一两个小时的有挑战性的高清视频游戏,而无需任何一个游戏开发工作室考虑过这个主题。如果生成这些内容不比简单的 ChatGPT 提示复杂,你会去尝试吗?
这一切该如何实现呢?生成式对抗网络(GANs)理论上可能特别有效,用于创建我们正在谈论的媒体类型。GANs 是一种生成式 AI 模型,由生成器和鉴别器两个神经网络组成。它们可以协同工作,发挥各自的作用:生成器试图创建逼真的数据,而鉴别器试图区分真实数据和生成的数据。通过这个对抗过程,GANs 可以产生高度逼真且多样化的输出。如果它们被训练用于我们已经拥有的所有杰出电影和音乐,那么这种系统可能毫无问题地测量和再现具有可比质量的内容。
例如,GANs 可以创建细节丰富、逼真的角色、环境和对象,从而减少手动资产创建的需求。在视频游戏中,GANs 特别擅长过程化地生成游戏关卡、地图、景观和物体等内容。这种生成新的和独特的内容的能力可以增强回放性和游戏的多样性。
GAN 可以创作模仿特定风格或艺术家的原创音乐作品,使它们成为为电影、游戏或仅用于欣赏的音乐创作的有价值工具。GAN 还可以用于克隆和合成人类声音,使其在配音、配音和为角色创建新对话方面非常有用。
当然,训练 GAN 可能需要大量的计算资源,需要强大的硬件和大量的数据。正如一些好莱坞劳工纠纷所显示的那样,在新媒体中使用克隆演员甚至作家可能会受到法律限制。
但是,一旦所有这些技术和法律问题得到解决——它们几乎肯定会得到解决——得到的媒体产品是否值得消费呢?是无法理解和无法衡量的人类触感使艺术有价值?还是唯一重要的是产品能够导致令人愉快和娱乐的消费?
10.6.5 按需新闻报道
新闻业早已被技术彻底颠覆并不是什么秘密。回到 90 年代,像 Craigslist 这样的早期互联网分类广告企业以及在线新闻和社交媒体网站几乎消灭了给主要报纸带来实力的主要收入来源。一个当地的城市报纸曾经可能雇佣了一百多名全职记者,他们致力于监督国家和地方政治家和公共机构的情况,但现在可能只剩下极少数人——假设这些报纸仍然存在。
在很大程度上,是技术创造了这个真空。技术能够为我们找到解决方案吗?
我会投赞成票。但也许不是你想象的方式。当然,生成式人工智能可以轻松地自动化简单的信息传递。例如,将 GPT 整合到提供即时金融股票数据或体育比分的信息源中是微不足道的。但我所说的不是这个。
我所说的是能够访问中立和客观新闻的能力。假设我们能够调整过滤器以适应我们的偏好和需求,这样,你将不再获取由隐形人员隐形偏见所影响的事件版本,而是可以设置自己的过滤器。当然,你可能选择只看符合你先入为主的内容。但你也可以选择中立和客观的内容!
我还谈到了使用 LangChain 等工具来创建能够在互联网上实时搜索、查找和解析大量数据档案,然后检测可能导致腐败和无能的异常和模式的人工智能代理。或者可能是无私的英雄行为。
换句话说,在互联网时代,也许没有办法取代古典时期记者所做的挖掘工作中产生的爱恨交织、面对面的关系和复杂激励,但是一切都留下了数据踪迹。人工智能在筛选大量数据并找到需要找到的内容方面尤其擅长。
作为概念的证明,我最近深入研究了加拿大最高法院公共数据提供的信息。大多数加拿大人对我们的最高法院知之甚少。其法官几乎不为人知,法官是如何和何时被任命到法院的仍是个谜,而他们日常所做的事情也是不可见的。
但他们的信息都是免费提供。这篇文章就是我的研究成果。我在寻找法官投票中是否存在政治色彩等各种信息。一个全职跟进最高法院的记者不需要提出这样的问题。但是,由于没有这样的记者存在 - 据说最高法院的新闻记者席几乎总是空的 - 或许一些有效的数据分析可以代替其存在。
即使对于最高法院的裁决分析这种想法让你困倦,我相信你会同意某人应该负责监视和报告。
10.7 摘要。
- AI 技术进步将推动硬件创新,而硬件创新又将推动 AI 技术发展。
- 不采用 AI 工具的企业将难以跟上竞争对手。
- 我们需要找到 AI 的增长动力和相关风险之间的安全和有效的平衡。
- 带有全面透明度的 AI 工具将变得越来越重要。
- 在 AI 决策方面,我们始终需要人员参与。
- 我们需要确定 AI 参与者的法律限制和责任。
- AI 工具将改变我们的投资、工作方式,而且潜在地可以建立更好的社会。
附录 A:重要的定义
恐怕这是不可避免的:如果我们想要获得 AI 的全部好处,我们就必须咬紧牙关,吸收一些严肃的概念。技术是经过设计复杂的,而人工智能是技术的一个特别复杂的子集。好消息是,我们并不打算成为物理学家和工程师,所以对这些想法及其历史的基本了解就足够了。但是还是要做好一些动荡的准备。
A.1 一些关键的 AI 定义
要帮助你入门,这里有一张有用的图表,展示了生成式人工智能模型背后众多计算元素之间的复杂关系。
图 A.1 AI 关系的从左到右的思维导图
话虽如此,即使你选择完全跳过本节,你仍然可以成功地跟着本书的其他内容走。但你可能会有些难以确定所得到的 AI 响应中的一些微妙之处(和弱点)。而且一些指示和流程可能会感觉有些随意。
我应该注意到,许多概念的定义将参考其他概念。我会尽力只参考先前定义过的事物,但是由于扭曲(和递归)关系太多,这不可能每次都做到。在提醒了这一点之后,下面是一些基本知识,它将使您更有效地处理生成式人工智能。
机器学习是人工智能的一个分支,专注于开发能够自动从数据中学习和改进而无需明确编程的算法和模型。它涉及在大型数据集上训练系统以识别模式、进行预测或执行任务。通过迭代调整模型参数,机器学习使计算机能够从经验中学习并适应新的输入,使其能够做出明智的决策并在最小的人工干预下执行复杂的任务。
在 AI 的背景下,模型指的是从数据中学习模式、结构或关系的数学表示或计算系统。它是一个经过训练的算法或网络,可以根据其学到的知识或训练参数接收输入并生成有意义的输出。在生成式人工智能中,模型特指能够生成类似训练数据的新数据样本的系统,无论是生成图像、文本、音乐还是其他形式的创造性内容。模型封装了学到的信息以及基于该知识生成新实例的能力。
标签是分配给数据点的分类或注释。它们提供了与输入相关的特征或属性的明确信息。标签作为指导信号,帮助模型学习并生成与所需属性或特性相符的输出。标签通常用于情感分析的一个地方。情感分析涉及训练模型根据文本的情感色调将其分类为正面、负面或中性。为执行此任务,我们需要使用适当的情感对我们的训练数据进行标记(例如,“这篇评论是积极的”,“这条推文是消极的”)。
加权是指分配给模型中神经元或特征之间连接的数值。这些权重确定了每个连接的强度或重要性,并在模型的学习和决策过程中发挥关键作用。在训练过程中,权重根据观察到的错误或预测与实际输出之间的差异进行迭代调整,使模型能够从数据中学习,并通过为不同的输入和连接分配适当的权重来提高其性能。加权通常用于命名实体识别(NER),它涉及将文本中提及的实体识别和分类到预定义的类别,如人物、组织和地点。例如,加权的 NER 模型可用于聊天机器人应用程序,以提取和响应用户对特定主题或实体的查询。
解析器是分析给定输入的结构的软件组件或算法,通常以符号或文本序列的形式出现,并根据预定义的语法或一组规则生成结构化表示。它通常用于自然语言处理中解析句子并提取句法或语义信息。解析器将输入分解为组成部分,如单词或短语,并建立它们之间的关系,从而实现进一步分析、理解或处理输入数据。
通过理解单词、句子或视觉元素之间的依赖关系,生成式人工智能模型可以生成保持上下文一致性的有意义的序列或图像。建模依赖关系允许生成的输出展现逻辑流、语义一致性,并遵循训练数据中观察到的模式。准确捕捉依赖关系对于在生成式人工智能应用程序中生成高质量和连贯的输出至关重要。
回归(Regression)是一种监督学习技术,用于根据输入特征预测或估计连续的输出变量。它通过将数学函数拟合到训练数据来建模输入变量和输出变量之间的关系。目标是找到最佳拟合函数,使预测值与实际值之间的差异最小化。回归算法分析数据中的模式和趋势,以进行预测或推断关系。对于情感分析,回归可以是另一个工具。例如,对于与客户服务相关的任务,能够自动对客户投诉或表扬进行分类是很重要的,这样组织就能够准确地将问题路由到适当的支持代理那里。
分类(Classification)是机器学习中的一项基本任务,其目标是将输入数据点分配给预定义的类别或类。它涉及对带有标签的数据进行模型训练,其中每个数据点都与已知类相关联。模型学习训练数据中的模式和关系,以便对新的、未见过的数据进行预测。分类模型的输出是一个离散的类标签,表示输入所属的预测类别。
优化算法(Optimization algorithms)是用于找到给定问题的最优解的数学过程。在机器学习和神经网络的背景下,这些算法用于最小化一个目标函数,通常由损失或成本函数表示。目标是通过迭代调整模型的参数,达到最小化目标函数的最佳值组合。在优化模型的世界中,有一些流行的技术,如“随机梯度下降”及其变体。这些方法通过根据模型的改善或恶化程度调整其内部设置,帮助模型变得更好。通过这样做,模型更接近于找到最佳解决方案,并在其任务上表现得更好。
向量(Vectors)是用于表示多维空间中的大小和方向的数学实体。在机器学习和数据分析的背景下,向量通常用于表示特征或数据点。向量的每个维度对应于一个特定的属性或变量,允许数据的高效存储和操作。向量可以使用数学运算(如加法、减法和点积)进行操作,从而实现相似性、距离和转换的计算。向量在各种算法和模型中起着基本作用,如聚类、分类和降维。
**向量嵌入(Vector embeddings)**帮助 LLMs 在相似的单词和短语上推广知识,即使它们在训练期间没有遇到。这使得模型能够有效地处理未出现在词汇表中的单词。预训练的嵌入可以用作各种自然语言处理任务的起点,实现转移学习,并提高在有限数据的下游任务上的性能。所有这些的一个实际应用是在医学影像学中,向量嵌入可以用来分析和比较器官或组织的图像。可以训练深度学习模型将脑部扫描映射到向量空间中,在那里类似的扫描聚集在一起。这使医生能够快速识别病人扫描中的模式和异常,从而早期诊断和治疗癌症或神经系统疾病。
**词嵌入(Word embeddings)**是将单词表示为高维向量的一种方式,使得相似的单词在该空间中靠近。词嵌入通常表示为张量,其中每个维度表示单词含义的不同方面。例如,一个词嵌入张量可能具有单词的同义词、反义词和词性的维度。
**并行计算(Parallelization)**指将计算任务分成较小的子任务,可以在多个计算资源上同时执行的技术。它利用并行处理的能力来加速整个计算和提高效率。在并行计算中,任务被分配给不同的处理器、线程或计算单元,允许它们同时运行。这种方法通过将工作负载分布到多个资源上来实现更快地完成任务。并行计算广泛应用于各个领域,包括机器学习、科学模拟和数据处理,以实现显著的性能提升和有效处理大规模计算。
**正则化技术(Regularization techniques)**是用来提高模型泛化性能的方法。这些技术在训练期间向损失函数添加惩罚项,防止模型过度依赖复杂或嘈杂的数据模式。正则化技术有助于控制模型复杂度,减少过拟合,并提高模型对未见过数据的泛化能力。
正则化技术的一个常见实际应用是在文本分类中,特别是处理不均衡数据集时。假设我们有一个电影评论数据集,其中大多数属于正面评价(比如“好电影”),少部分是负面评价(比如“烂电影”)。如果没有正则化,模型可能会对正面评价产生偏见,并无法准确分类负面评价。为了解决这种不平衡,我们可以在损失函数中添加正则化项,惩罚模型误分类负面评论。
收敛是指在相同数据集上训练多个模型直到它们产生相似的输出的过程。这样做是为了减少过拟合的风险并提高模型的泛化能力。收敛通常使用诸如验证损失或准确率等指标进行评估,并且一旦模型收敛到稳定解决方案,训练过程就会停止。
所有这些都带领我们来到:
**自然语言处理(NLP)**专注于计算机与人类语言之间的交互。它涉及开发算法和模型,使计算机能够以有意义的方式理解、解释和生成人类语言。NLP 包括诸如文本分类、情感分析、机器翻译、信息提取和问答等任务。它利用来自各种学科的技术,包括计算语言学、机器学习和深度学习,来处理和分析文本数据。
最后,到最后:
**大型语言模型(LLM)**是自然语言处理(NLP)中的一种工具,利用深度学习技术来理解和生成类似人类的文本。它分析给定文本语料库中的模式、上下文和语义,以学习语言的潜在结构。通过其理解和生成连贯且上下文相关的响应的能力,LLM 可用于各种任务,如聊天机器人、语言翻译、文本补全和摘要。通过捕捉语言的复杂性,LLM 允许机器直接与人类进行交流。
或者换句话说,它实现了生成式人工智能。
附录 B:安装 Python
如果需要手动执行此操作,请参考在 Windows、macOS 和 Linux 机器上安装 Python 和 Pip 的指南。
B.1 在 Windows 上安装 Python
要下载 Python 包,请转到官方 Python 网站。确保您下载的是最新版本(目前为止,是 Python 3.x)。根据您的系统架构(32 位或 64 位)选择适当的版本。大多数现代计算机都是 64 位,但您可以通过右键单击“This PC”(或“My Computer”)并选择“Properties”来确认。
下载安装程序后,运行它。勾选“Add Python x.x to PATH”的复选框。这将使得从命令提示符中更容易运行 Python 和 pip。然后点击“Install Now”。
您可以通过按下Win + R
,键入cmd
并按 Enter 来打开命令提示符来验证您的安装。要检查 Python 是否成功安装,请键入python --version
并按 Enter。您应该看到显示的版本号。
pip 通常包含在 Python 的最新版本中。要检查 pip 是否已安装,请在命令提示符中键入pip --version
并按 Enter。如果您看到版本信息,则已安装 pip;否则,您需要手动安装它。
要完成此操作,请从官方 Python 包管理机构网站下载“get-pip.py”脚本,并将脚本保存到计算机上的某个位置。打开命令提示符,并使用cd
命令导航到您保存“get-pip.py”的目录。例如:
cd C:\Users\YourUsername\Downloads
然后运行此命令:
python get-pip.py
要验证您的 pip 安装,请在命令提示符中运行pip --version
。
使用安装了 Python 和 pip 的环境,可以使用命令pip install package-name
来安装包。
B.2 在 macOS 上安装 Python
macOS 通常预装了 Python 的版本。要检查 Python 是否已安装,请打开终端(您可以在应用程序 > 实用工具文件夹中找到它),然后键入:
python3 --version
如果您看到版本号,则已安装 Python。如果没有,请按照下面的步骤安装。
Homebrew 是 macOS 的一个流行的软件包管理器,它使安装软件更加容易。如果您尚未安装 Homebrew,可以使用以下命令在终端中安装它:
/bin/bash -c "$(curl -fsSL \ https://raw.githubusercontent.com/Homebrew/install/master/install.sh)" Install Python 3:
如果您使用 Homebrew,可以通过在终端中运行以下命令来安装 Python 3:
brew install python
如果您不使用 Homebrew,可以从 Python 网站下载官方 Python 安装程序。
以下是您需要执行的步骤:
- 下载最新版本的 Python 3.x
- 运行您下载的安装程序包,并按照安装说明操作
- 验证安装
安装完成后,您应该能够通过在终端中输入 python3 来访问 Python,并使用以下命令验证已安装的版本
python3 --version.
Python 3 通常预装了 pip。要验证 pip 是否已安装,请运行:
pip3 --version
如果您看到版本信息,则已准备就绪。如果没有,请手动安装 pip:
- 下载“get-pip.py”脚本。
- 打开终端并使用 cd 命令导航到保存了“get-pip.py”的目录。例如:cd ~/Downloads
- 运行以下命令:
sudo python3 get-pip.py
安装了 pip 后,您可以在终端中运行pip3 --version
来检查其版本。
安装了 Python 和 pip 后,您可以开始使用 Python 并从 PyPI 安装软件包。要安装软件包,请使用命令pip3 install package-name
。
请记住,您可能需要在终端中使用python3
和pip3
(而不是python
和pip
)来确保您正在使用 Python 3 及其相关的 pip。
B.3 在 Linux 上安装 pip Python 包管理器
请注意,某些 Linux 发行版预先安装了 Python,因此最好在安装新版本之前先检查一下。
要做到这一点,请打开终端并键入:
python3 --version
如果您看到一个版本号,则已安装了 Python。如果没有,请按照以下步骤安装它。
在安装软件之前,最好先更新您的包管理器。对于使用 apt 的系统(Debian/Ubuntu),请使用:
sudo apt update
对于使用 dnf 的系统(Fedora),请使用:
sudo dnf update
要安装 Python 3,请使用包管理器。这意味着:sudo apt install python3
或sudo dnf install python3
- 取决于您的系统。包名称可能会根据您的发行版略有不同。
安装完成后,您应该能够通过在终端中输入 python3 来访问 Python 3,使用:
python3 --version.
Python 3 通常预先安装了 pip。要验证是否安装了 pip,请运行:
pip3 --version
如果您看到版本信息,那就万事俱备了。如果没有,则可以使用sudo apt install python3-pip
或sudo dnf install python3-pip
手动安装 pip。同样,这些命令中的3
部分在某些系统上可能是默认设置,因此您可能需要省略3
部分。
安装了 pip 后,您可以通过在终端中运行pip3 --version
来检查其版本。安装了 Python 和 pip 后,您可以开始使用 Python 并从 PyPI 安装软件包。要安装软件包,请使用command pip3 install package-name
。
附录 C:生成式 AI 资源
到目前为止,我相信你已经注意到 AI 领域的变化速度有多快了。大型厂商关于旗舰产品新功能的公告几乎每天都有。但也经常有关于新第三方应用程序的新闻,它们创新地利用现有平台,并以新颖、创造性的方式使用我们已经拥有的工具。
我曾经试图紧跟所有这些。但结果并不理想。
尽管如此,保持对尽可能多的内容至少有一个广泛的了解是很重要的。考虑到这一点,本附录包含了一些涵盖所有主要 AI 和 AI 相关工具类别的示例工具的链接。鉴于这个列表不会长时间保持更新,我还创建了一个 GitHub 仓库,在那里我计划定期更新本附录的内容,加入新的资源。
老实说,我的“定期”定义可能并不总是符合你的期望,所以请随时通过开启一个 git 问题或给我留言提供我可能忽略或故意忽视的任何类别或新兴工具。只需记住,这个列表并不意味着包含每一个 AI 工具。相反,这是一个我们可以不时回顾一下,确保我们没有错过任何重要新功能的地方。
C.1 通用 LLM 交互工具
- OpenAI GPT Playground
- LLaMa Chat
- Stack Overflow AI
- Anthropic(克劳德)
- LangChain
- 具有企业级安全性和隐私保护的 ChatGPT
- 谷歌的 Gemini AI 模型(GPT-4 竞争对手)
- GPT for Sheets 插件:在 Google Sheets 和 Docs 中使用 GPT 生成内容
C.2 AI 应用开发平台
- Hugging Face
- AWS 上的生成式 AI
- Azure OpenAI Service
- Google Cloud AI Platform
- Google Colaboratory - Jupyter Notebook 工作流程的主机
- 谷歌的项目 IDX - 基于浏览器的、由 AI 提供支持的用于构建全栈和多平台应用程序的开发环境
- GPT-3.5 Turbo 微调
C.3 第三方工具
- ChatPDF
- Botpress - 用于构建基于 GPT 的客户支持聊天机器人的无代码工具
C.4 写作工具
- Copy.ai
- Ryttr
- GrammarlyGo
- Writesonic
C.5 图像生成
- Midjourney
- StyleGAN - 强大,但需要高端 NVIDIA GPU 等。
- Canva AI - 将文本提示整合到你的 Canva 工作流程中
- AI Comic Factory - 从文本提示生成漫画面板
- Leonardo AI - 目前访问受限
- 免费 AI 图像生成器
C.6 数据分析
- OpenAI Codex
- Datagran - AI 聊天数据科学家
C.7 投资与金融
- Portfolio Pilot
- 作曲家
C.8 语音转文本
- Whisper(OpenAI)
- otter.ai - 会议、讲座或对话的实时转录或笔记
C.9 文字到语音
- 亚马逊波利
- CereProc
- WellSaid Labs
- Microsoft Azure
- IBM Watson
C.10 文字到音乐
- Mubert
- AIVA
- 繁荣
- 声音丰富
C.11 文字到视频
- Gen-2 runway Research
C.12 文字到视频演示(包括动画和逼真的头像)
- Synthesia.io - 质量出色但价格昂贵
- elai
- Fliki - 没有头像,但专注于博客到视频的工作流程
C.13 幻灯片生成
- Gamma - 从文本生成文档、幻灯片和网页
此外:请查看与 Google 幻灯片的许多第三方集成。从 Google Play 站点搜索“AI 幻灯片制作器”
C.14 文字、音频和视频语言翻译
- 无缝沟通翻译 - Meta 的语音翻译工具的免费演示,支持近 100 种输入和 35 种输出语言
- SeamlessM4T - Meta 的多模态翻译工具的开发者版本
- 将视频中的音频翻译为其他语言 - 包括更新的口型同步
C.15 领域特定
- 哈维 - 法律意识的 AI 服务
- 语音治疗 - 仍处于实验阶段!