AI战略丨AI原生时代,应用创新蓄势待发

简介: 通过热点AI应用创新项目的观察,我们可以看到新技术的突破方向,也能发现基于生成式AI迸发出的全新商业前景落地的可能性。

官网banner.png
《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。

迈入AI大模型和生成式技术飞跃发展的时代,基于AI的应用创新正在成为新的主题。

2023年,从通用大模型喧嚣到行业大模型集中落地,AI应用创新也在下半年呈爆发式涌现;2024年,AI应用的颗粒度正在进一步细化,关注点和效用也更实际,也正进一步走近垂直细分领域的价值实现。

对于大多数产业以及其中的企业来说,转变技术范式、突破传统模式发展是更现实的挑战,以AI赋能现有的技术、业务,是最现实的命题,也是最具效率、落地速度最快的路径。

但不同于从传统产业中诞生的创新,AI时代的新创业者天生就是原住民,他们对新技术的理解、应用和探索得心应手,天然使用AI思维构建应用的模式。

人们对“AI原生”充满好奇,不仅是想了解其全新模式内涵,也想知道下一个风口将从哪里发起。本刊将定期汇总盘点国内外最新的AI原生应用,希望为读者提供创新发展趋势的信息和思考。

多模态生成式AI竞赛进行中

从2023年国内妙鸭相机爆火,到2024年初Sora引爆全球,AGI所能呈现的内容深度正在迅速下潜。

《福布斯》杂志对2024年AI领域关键创新的预测之一就是多模态生成式AI,称此类系统能处理文本、声音、旋律和视觉信号等各种输入信息,并将其融合起来进行综合理解。随着多模态技术的不断发展,AI模型将迎接更加复杂多样化的交互场景,有望在智能家居、智慧城市、医疗诊断、自动驾驶等领域打开全新的应用空间。

视频生成

Sora发布被认为是AGI实现过程里的重大里程碑事件,而不仅仅只是视频生成技术的突破。它对语言的理解也达到了一个新的层级,使其能够准确地理解提示词,并生成表达充满活力的情感的视频。它建立在过去对DALL·E和GPT模型的综合研究之上,提出了一种新的模型可能,不仅可以理解用户在提示中提出的要求,还能理解物理世界的存在方式。

在AI巨头OpenAI入局之前,创业企业Runway和Pika被认为是这一赛道的佼佼者。

Pika Labs成立于2023年4月,同年11月发布首个产品Pika1.0,能够生成和编辑3D动画、动漫、卡通和电影,并且普通用户还可以对其进行加工,被视为一款零门槛“视频生成神器”。这支最初由4个人组建的团队,融资超过5500万美元,几乎所有AI领域的知名早期投资公司都参与了此轮融资。而就在Pika1.0发布才过去四个月不到,同赛道的Sora的横空出世,在AI视频生成这条路上,又增加了很多变数和可能性。

Pika创始人郭文景在与钛媒体创始人赵何娟的对话中提到,目前生成式视频发展的一个重要限制是算法的成熟度,这也是Pika的核心主攻方向。“我觉得视频跟语言模型不太一样,关于语言模型大家已经知道大概的方法,算法其实已经比较成熟了。但视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的GPU不够多,很多时候其实是算法上还没有很好的一个思路。”郭文景说。

3月份,Pika对超级合作者(Super Collaborator)和Pro用户开放测试了一项新功能:Sound Effects,声称可以给视频无缝生成音效。生成的方式有两种:提供Prompt或直接让Pika根据视频内容自动生成。Pika还没有公开Sound Effects背后的原理,此前Sora大火之后,语音初创公司Eleven Labs就出过类似的配音功能。

另一家独角兽Runway成立于2018年,是一家AI视频编辑软件提供商,主要为设计师、艺术家和开发人员提供一系列的工具和平台,产品是帮助专业人士生成各种内容。Runway创业之初的产品形态是一个关于机器学习模型的应用商店。随后公司基于AI算法,不断开发新的模型框架。2021年公司与慕尼黑大学、海德堡大学等共同发表《High-Resolution Image Synthesis with Latent Diffusion Models》;2022年,公司构建了Stable Diffusion的原始版本,并将该技术集成进设计软件的功能中。2023年2月6日,Runway发布了Gen-1,可以通过文本提示或参考其他图像中的风格,对原视频进行编辑,即在原视频的基础上生成新的视频(Video to Video)。随后三个月内,再次推出了Gen-2,支持由文字生成视频。用户可以输入原创的文本提示,或者根据系统提供的自动提示建议进行视频生成。Gen-2还支持高级设置优化,用户可以在网页上微调生成的视频。

2024年3月,以色列初创公司Lightricks也发布了一款AI驱动的电影生成和剪辑软件——LTX Studio。只要通过文字,它就能直接生成复杂的剧情,包含语音、音效、视频画面。LTX Studio结合了多种AI技术,涵盖了创作过程中的各个环节。其中,公司独创的文生视频模型——Long Animate Diff,能够创作出帧数在16至64之间的视频。此外,团队还发布了另一款专门用于创作32帧视频的模型。与Long Animate Diff相比,它在视频质量上通常有更出色的表现。不过,对于背景音乐,公司选择了第三方的音乐资产供应商,因为他们认为目前的AI技术还无法创作出符合要求的背景音乐质量。

在国内,爱诗科技PixVerseAI能接受包括图像、文本和音频在内的多种数据源作为输入,基于这些输入生成连贯、逼真的视频内容;该平台能在较短时间内将用户提供的素材转化成视频,极大提高了视频制作的效率;且生成的视频不仅局限于简单的转译,还能具有较高的艺术性和创造性,适合用于制作营销视频、社交媒体内容、教育材料等多种应用场景;用户可以根据自身需求对生成的视频进行一定程度的个性化设置和调整。

音频生成

在Suno之前,已经有不少企业推出过AI音乐生成器,比如Adobe的Project Music GenAI,YouTube的Dream Track和Voicify AI(现在的Jammable),但只有Suno被称为“音乐界的ChatGPT”。其与众不同之处在于,Suno可以根据简单的提示创建从歌词到人声和配器的所有内容。

目前,SunoV3在以下几个方面具有显著优势:更好的音频质量;更多样化的风格和流派;更强的提示遵从性,包括更少的幻觉和更优雅的结局。

通过SunoV3,用户现在可以使用免费账户创建两分钟时长的完整歌曲,具体效果取决于自己选择的流派。Suno团队还表示,V4已经在开发之中,并将推出一些令人兴奋的新功能。

值得注意的是,Suno并未公布过任何训练细节。Suno首席执行官兼联合创始人Mikey Shulman在采访中表示:“并非所有音频都是通过Transformer完成的,有很多音频是通过扩散完成的,这两种方法各有利弊。”

图像与文本生成

2023年7月,妙鸭相机凭借其AI图像生成技术,在市场上迅速走红。用户通过上传一定数量的照片,就可以通过妙鸭相机AI技术生成高质量的多样化风格写真照片。FaceChain/FaceChain-FACT算法使得妙鸭相机生成的图片面部表情自然、细节丰富。此外,其还具备AI修图、数字分身创建、模板选择等能力。

在图片生成之上再加入情节故事,童语故事(ImageStory)是国内首个AIGC的儿童绘本产品,用户可以在小程序里创建数字分身,为孩子定制特定主题的童话绘本和短视频故事。

童语故事生成式绘本的两大基础要素是文字和图片,与此对应,童语故事选用了通义千问和通义万相来打造这两项基础能力。文字方面,文字生成的核心是通义千问的深度学习模型。在“童语故事”小程序上生成AI Story只需要三步:第一步,选择故事角色。用户可以定制自己喜欢的IP角色,也可以上传照片创作自己的数字分身。第二步,输入故事主题思想。用户如果没有灵感可以选择“创作灵感”和“随机一个”,“童语故事”提供了20个睡前故事和育儿故事。第三步,选择朗读音色、画面风格和字数。朗读音色提供多种风格、不同年龄声音,画面风格包括扁平插画、油画、写真等10种供用户选择。设置故事字数和段落/图片数,多情景故事还支持自动分集,以及用合集来生成。简单设置完成后,点击“立即制作”即可。

上线数月以来,“童语故事”得到了消费者的喜爱,更得到了影视公司、出版社、专业儿童作家、电商平台的认可“,童语故事”的MAU(Monthly Active Use,月活用户)涨到了50万,微信小程序用户平均停留时间达到8-15分钟,这样的用户时长在“AI Story”赛道已经排得上全球前三。

将文生图的创意进一步专业化,供春AI是紫砂壶行业内第一家AIGC辅助设计工具。这一小众行业有方言、圈子和文化等地域壁垒,且紫砂设计需要师傅的认可,并且大部分AI设计图师傅会在落地过程中主动微调(AI设计出来的紫砂壶大部分需要人工调整),属于细分行业领域,市场上通用的大模型反而不适合对接(设计出来的图大部分不可用),需要基于小灵快和开源的模型做持续的训练。

目前供春AI已经成为传统工艺美术从业者的好助手,其产出的每30~50张图中大约有1张是可以被资深工艺美术师认可的,已有2000多位工艺美术从业者使用供春AI设计紫砂壶。通过AIGC作为辅助工具,工艺美术师制作的工艺品已经落地100多件。从商业模式上,供春AI有一定的可复制性,目前供春AI已在其他陶瓷产区进行陶瓷艺术设计的推广复制。

“助手”新形态:AI Agent快速演进

人工智能领域著名学者、斯坦福大学教授吴恩达指出:AI智能体工作流(AI Agentic Workflows)将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。他呼吁所有从事人工智能工作的人都关注AI智能体工作流。

初创企业Cognition AI近期公布了全球首个AI软件工程师Devin。在宣传中,Devin能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、执行代码、修复bug并完成任务,而且完成这些端到端的任务只需一个指令。

在SWE-bench基准测试中,Devin能够解决13.86%的问题,而GPT-4仅能处理1.74%的问题。更重要的是,Devin无需人工干预,而GPT-4则需要人工提示指定处理文件。

Devin一经发布,便引爆了整个科技圈,但在此之前绝大多数人可能根本没听过这家公司,毕竟他们在发布两个月前才真正在公众面前亮相。这家仅有10名员工的公司,从Peter Thiel的风险投资公司Founders Fund及其他资方(包括前Twitter高管Elad Gil)处成功筹集到2100万美元。这些投资方所看中的,正是Cognition AI的创始团队及其主要成果Devin。

Cognition AI在设计Devin时的一大亮点,就是该公司在计算机推理能力方面取得了突破。从AI的角度来讲,推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一片段,更能够以近似人类的方式思考并找到合理的问题解决方法。AI Land认为推理是驱动行业发展的下一波大势,不少初创企业也都在着力展示自己在这方面的技术能力。

不同于现有其他AI助手,Devin不仅能够提供编码建议并自动完成部分任务,甚至可以独自承担并完成整个软件开发流程。其使用方式也相当简单,只需提交一项任务——比如创建一个网站,展示悉尼市所有意大利餐厅的地图——该软件就会执行搜索来查找餐厅、获取相应地址与联系信息,而后构建并发布显示信息的站点。在运行期间,Devin还会列出它正在执行的所有任务,甚至在编写代码时持续测试,自行查找并修复bug。

总体而言,Devin可以规划和执行需要数千个决策的复杂工程任务。Devin可以回忆每一步的相关背景,随着时间的推移学习并修复错误。

研发团队还为Devin配备了常见的开发人员工具,包括沙盒计算环境中的Shell、代码编辑器和浏览器,以及人类开发者完成工作时所需的一切其他工具。最后,研发团队还赋予了Devin与用户积极协作的能力。Devin能够实时报告协作进展,接受反馈,并根据需要与用户一起进行设计选择。

Cognition AI在如此短的时间内取得重大突破的方式仍然是个未解之谜,其CEO Scott Wu拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将OpenAIGPT-4等大语言模型(LLM)与强化学习技术相结合的独特方法。

Cognition AI公司并不是唯一一家致力于构建AI编码工具的企业。

今年2月份,初创公司Magic AI陆续获得了谷歌母公司Alphabet旗下的Capita lG领投的2800万美元,以及GitHub前CEO Nat Friedman和他的投资合伙人Daniel Gross投资的1.17亿美元资金。

Magic AI私下宣称其能够实现类似于OpenAI去年开发的“Q算法”的主动推理能力,称它开发的新型大语言模型更接近于人类的思维方式,能实现全自动化编程,打破现有的半自动化代码编写。类似于一个真正的编程人员。不过,Magic AI选择从零开始设计自己的模型和其他底层技术,希望借此保障业务独立性。这家初创公司尚未对外展示其AI系统。

国内,除了大厂纷纷推出Agent产品,这一赛道也涌现了大批创业企业,并与各行业快速融合落地。

例如,实在智能在2023年8月份发布了自研垂直“塔斯(TARS)大语言模型”,基于此结合RPA与AI Agent,即插即用的产品级TARS-RPA-Agent由此诞生;澜码科技在2023年12月20日正式发布的AskXBOT平台,是其自主研发基于LLM的Agent智能体与工作流设计、开发、使用、管理、知识沉淀的一站式平台;智谱AI今年1月份发布了第四代多模态基座大模型GLM-4系列,并上线了全新GLM-4的All Tools(所有工具)、GLMs个性化智能体定制能力......

结语

通过上述热点AI应用创新项目,我们可以看到新技术的突破方向,也发现基于生成式AI迸发出的全新商业前景落地的可能性。

但一个现实的问题是:这些应用和企业是昙花一现,还是会持续繁荣?

红杉资本在《Generative AI’s Act Two》中指出,目前生成式AI应用的最大问题,是需要证明自身的价值,因为目前以基础大模型为先的应用用户留存率明显不够。当前头部App消费级公司,第一个月的用户留存率能达到60%~65%,高的甚至能达85%。生成式AI应用的用户留存率,中位值只有14%。这意味着,用户还没有在生成式AI产品中找到足够价值,能够每天都使用。因此,如果开发者想要建立起持久的业务,就需要解决用户留存问题。因此,生成式AI真正的商业价值还在于各种应用场景的发掘。

此外,不仅是应用自身的价值,当前很多AI创业企业的竞争力严重依赖核心创始团队,也由此造成了公司运营、业务持续等方面极大的不稳定性,很多公司还没有出现可持续的商业模式就已经要化为泡沫。

2024年3月23日,Stability AI的CEO宣布辞职,这家公司培育出的Stable Diffusion开源文生图大模型在业内颇具影响力。而在CEO辞职之前,媒体称曾参与开发Stable Diffusion模型的几位关键开发人员都已经离开了。据报道,Stability AI 资金耗尽,无法支付训练大模型所需的 GPU 集群费用,外界普遍认为这家公司将面临破产。

早在2022年就推出了AI助手ACT-1的Adept团队中两位联合创始人离开后创立了自己的创业公司Essential AI。

另一家AI独角兽公司Inflection AI也岌岌可危,在2023年6月底,这家公司宣布融资13亿美元,估值达到40亿美元,成为仅次于OpenAI和Anthropic的全球第三大生成式AI独角兽。但今年三位创始人中的两位都投奔微软成立新的公司。这些创业公司的发展与此前OpenAI的“宫斗”和几乎重新自立门户的经历也很像。

AI时代的创新巨轮才刚刚开始转动,技术成熟度曲线下AI创新将走出怎样的周期,我们持续关注。

本文根据公开信息综述,部分内容选自以下文章:
1.Sora发布后,Pika创始人独家回应钛媒体:很振奋,我们将直接冲
2.90后华人团队真来砸程序员饭碗了!推出全球首个AI超级工程师:拥有全栈技能,一个指令就能完成整个开发过程
3.2024年,中国AI应用「大盘点」|产业AI4.红杉资本:生成式AI的第二幕
5.词曲创作只需几秒,「AI作曲家」Suno引爆音乐圈,第一手体验和攻略来了
6.中泰证券《AI生成视频专题报告:Runway基础模型快速迭代,视频生成领域的先行者》
7.AI版西游记震撼百万网友!AI电影颠覆好莱坞,手把手打造爆款视频

相关文章
|
17小时前
|
传感器 边缘计算 人工智能
边缘计算在AI时代的应用与挑战
【5月更文挑战第29天】 随着人工智能技术的飞速发展,数据处理需求日益增长,传统的云计算中心已难以满足即时性、安全性及带宽效率的要求。边缘计算,作为一种新兴的分布式计算模式,将数据处理任务迁移至网络的边缘,即数据产生的源头附近,从而减少数据传输距离和时间延迟,提高系统响应速度。本文探讨了边缘计算在人工智能领域的应用,分析了其面临的主要技术挑战,并提出了可能的解决方案。
|
1天前
|
机器学习/深度学习 人工智能 监控
构建未来:AI在持续学习系统中的应用与挑战
【5月更文挑战第29天】 随着人工智能(AI)技术的飞速发展,机器学习模型正变得愈发复杂和高效。然而,传统的AI系统往往在面对新数据或环境时显得僵化,需要重新训练以适应变化。持续学习系统(Continuous Learning Systems, CLS)旨在解决这一问题,通过使AI模型具备在学习过程中不断适应和进化的能力,以实现长期的知识和技能积累。本文将探讨AI在持续学习系统中的应用,分析其面临的主要挑战,并提出可能的解决方案。我们将重点关注模型的可塑性、灾难性遗忘问题以及数据效率等方面,以期为构建能够自我进化的智能系统提供理论基础和技术指导。
|
1天前
|
传感器 人工智能 供应链
MongoDB和AI 赋能行业应用:制造业和汽车行业
本系列重点介绍AI应用于不同行业的关键用例,涵盖制造业和汽车行业、金融服务、零售、电信和媒体、保险以及医疗保健行业
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI在个性化教育中的应用与挑战
【5月更文挑战第28天】 随着人工智能(AI)技术的飞速发展,其在教育领域的应用日益广泛,特别是在实现个性化学习方面展现出巨大潜力。本文探讨了AI技术如何革新传统教学模式,通过智能数据分析、自适应学习系统以及虚拟助教等手段,为学习者提供量身定制的学习体验。同时,文章也分析了在推动个性化教育进程中所面临的技术挑战、伦理问题和实施障碍,并提出了相应的解决策略。
|
2天前
|
机器学习/深度学习 人工智能 算法
构建未来:AI技术在医疗诊断中的应用与挑战
【5月更文挑战第27天】 随着人工智能(AI)技术的快速发展,其在医疗领域的应用已经成为改善诊断准确性和效率的关键驱动力。本文将探讨AI在医疗诊断中的具体应用,包括图像识别、疾病预测以及个性化治疗方案的制定等方面。同时,我们还将讨论这一领域面临的挑战,如数据隐私保护、算法透明度、以及医疗专业人员与AI系统的协同工作等。通过分析最新的研究进展和技术趋势,本文旨在为读者提供一个关于AI技术如何革新医疗诊断领域的全面视角。
|
2天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用与展望
传统医疗模式存在许多局限性,而人工智能(AI)技术的不断发展为医疗领域带来了全新的可能性。本文将探讨AI技术在医疗领域的应用现状和未来发展方向,以及其对医疗行业的影响。
10 0
|
2天前
|
机器学习/深度学习 人工智能 算法
构建未来:AI在持续学习系统中的应用
【5月更文挑战第27天】 随着人工智能(AI)技术的迅猛发展,其在教育领域的应用日益广泛。特别是在构建能够模拟人类学习过程的持续学习系统中,AI技术展现出了巨大的潜力。本文旨在探讨AI如何通过自适应学习算法、深度学习网络和强化学习机制来优化学习体验,并分析这些技术如何帮助学习系统更好地理解学习者的需求,提供个性化的学习路径,以及在不断变化的环境中进行自我调整和更新。文章还讨论了实施这些系统时所面临的挑战,包括数据隐私问题、算法偏见和技术整合难题,并提出相应的解决策略。
|
2天前
|
数据采集 SQL 人工智能
AI+低代码,打通企业大模型应用最后一公里!
在2024微软Build大会上,微软宣布50多项AI更新,包括GPT-4上云、Cobalt芯片、Team Copilot和小模型等。Team Copilot成为团队助手,管理会议并协助解决问题。GPT-4模型支持多模态处理,引领AI体验新标准。微软构建三个平台增强AI功能,推动AI应用于协同办公、低代码开发等领域。织信低代码平台结合AI技术,实现智能数据补充、内容分析和快速算法,提升企业效率,降低了对IT资源的需求。AI与低代码技术共同促进数字化转型,织信低代码已在多个行业广泛应用,其AI助手强化了用户体验和效率。未来,AI将成为软件交互的核心,低代码与AI的结合将进一步推动软件平民化。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI在个性化教育中的应用
【5月更文挑战第27天】 随着人工智能(AI)技术的飞速发展,其在教育领域的应用正逐步从理论走向实践。本文探讨了AI如何通过个性化学习路径、智能辅导和数据驱动的决策支持,为教育带来革命性的变革。我们分析了当前AI技术在教育中应用的现状,挑战以及未来的发展趋势,并提出了相应的策略建议。文章旨在为教育工作者和技术开发者提供一个关于AI在教育领域应用的全面视角,以促进教育资源的优化配置和教学质量的提升。
|
3天前
|
人工智能 算法 搜索推荐
“AI黏土人”现象下的图像生成应用:长期留住用户的策略
近年来,随着科技的快速发展和社交媒体的普及,以及人工智能技术的快速发展,图像生成类应用成为了市场的新宠,图像生成类应用如“AI黏土人”等近期在各大平台上崭露头角,其独特的“丑萌”风格迅速赢得了广大用户的喜爱,吸引了大量用户的关注,这一现象不仅体现了技术创新的魅力,也展示了市场需求与资本聚焦的强大驱动力。但是在这个信息爆炸的时代,如何保持这种热度并避免昙花一现,如何在爆火之后长期留住用户,确保图像生成类应用的持续繁荣,成为了图像生成类应用面临的重要问题。那么本文就来简单聊一下,欢迎评论区留言交流。
16 2
“AI黏土人”现象下的图像生成应用:长期留住用户的策略