CMU专家团队创业,OtterTune让数据库插上AI的翅膀

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: CMU专家团队创业,OtterTune让数据库插上AI的翅膀

近日,人工智能驱动的数据库管理初创公司OtterTune宣布完成了1200万美元A轮融资,本轮融资由Intel Capital和Race Capital领投,并得到了Accel的跟投。

OtterTune成立于2021年,主要产品是通过使用机器学习来分析和优化数据库系统中的数百个配置设置,从而使其管理更加高效和经济。这个产品本身是基于几位创始人在卡内基梅隆计算机科学学院(CMU)的同名研究项目而来。

“现在是创业非常好的一个时间点。数据库上云,颠覆了很多玩法,它虽然解决了数据库管理方面的问题,但是还没有解决优化方面的问题。如果能够开发出真正好用的产品来自动优化数据库,市场体量非常大。”OtterTune联合创始人张伯翰向机器之心表示。

01 让数据库自己解决繁琐调参

数据库是一个非常复杂的系统,它包含大量的配置参数,而且对于不同的硬件配置,不同的工作负载,对应的最优参数文件都是不同的。

通常情况下,DBA(Database Administrator,即数据库管理员)不能简单地重复使用之前调好的参数文件,主要基于自身经验和对当前环境的理解去调整参数,往往需要花费大量时间,而且调整过程中存在大量不确定性。

“在跟客户沟通的过程中,我们发现很多创业公司内部并没有DBA这个职位,也没有太多有数据库经验的工程师,需要花大价钱来雇佣资深DBA。OtterTune可以帮助成千上万这样的公司,帮助他们优化数据库。”OtterTune联合创始人张伯翰向机器之心表示。

OtterTune是利用机器学习寻找最优的数据库配置,这一研究成果最早发表在了2017年的SIGMOD。

当时,卡内基梅隆大学数据库小组的教授、学生和研究人员开发了一个数据库自动调参工具OtterTune,它能利用机器学习对数据库的参数文件自动化的调优,能利用已有的数据训练机器学习模型,进而自动化的推荐最优参数。

OtterTune希望解决数据库长期存在的一些痛点,包括对管理人员专业性要求高;管理成本高;无法实现配置资源最优化等问题。

“数据库上云是大趋势,像亚马逊这样大型云厂商的出现以后,越来越多的公司更容易建立自己的数据库,但是,大部分数据库上云之后,并不是在最优状况下运行,比如很多人不知道如何配置数据库,通常会选用默认配置规格或者较高配置规格。这种分配方式造成了严重的资源浪费,存在很大的优化空间。”张伯翰说。

OtterTune能够让数据库部署和调优更加容易,让技术人员甚至不需要专业知识也能顺利完成。当用户配置好OtterTune时,它能自动持续推荐参数文件并把所得结果上传到服务端可视化出来,大大简化DBA的工作。由于OtterTune和数据库的交互只是一个参数文件,这使得该工具更加通用,甚至可以用于其他系统的调参。

张伯翰坦言,“创业不只是技术那么简单,发论文的成功不代表创业的成功,科研和产品落地之间有很大区别,这是学术圈创业的普遍挑战。产品的落地需要根据客户需求不断改变、调整,这是一个艰难的过程。”

虽然创业面临各种挑战,但整个过程同样充满了乐趣。“在创业公司,你要做各种不同的工作,个人的成长是飞速的。看到自己的产品能够解决别人解决不了的问题,真正帮助到客户,成就感非常大。”张伯翰说。

02 从0到1,数据库的生存法则

对于数据库来说,有很多部分都能尝试与机器学习结合。比如预测数据库一段时间的工作负载,如通过挖掘数据库的日志来做自动预警,再到更核心的部分,如学习数据库索引,甚至帮助优化器做查询优化。

参数文件调优只是其中的一部分。新一轮融资完成之后,OtterTune希望能够实现从参数调优扩展到更多的领域。

“数据库是一个慢行业,建立一个可靠的数据库不是容易的事情,一定要看准需求。”张伯翰说。

回顾传统数据库走过的路,主要分为闭源数据库与开源/云数据库两个阶段,其中闭源数据库主要包括集中式集群、单机数据库,主要面临的挑战为价格昂贵、人员稀少等问题。

张伯翰认为,数据库上云是大趋势。OtterTune会将所有用户尝试的参数文件和对应的性能数据存下来进行利用。这意味着用OtterTune的人越多,用的时间越长,它收集的训练数据越多,推荐效果越好。

“数据库是用出来的,需要很多用户,开源之后可以让更多用户使用,发现问题更快迭代;同时,也让更多客户证明数据库的可靠性,有助于拿到更好的企业订单。”

从行业整体发展趋势看,相对闭源商业软件,开源软件的生命周期也显得更有生命力。1996年,Postgres因SQL标准的引入及功能的完善,获得了新生。

PostgreSQL的兼容性是很多系统的一个显著特征。这种兼容性是通过支持PostgreSQL的SQL方言、通信协议或整个前端来实现的。时至今日,国内外很多优秀的数据库产品都与PG有着直接或间接的关系。

OtterTune首先支持调优的数据库就是开源的MySQL和PostgreSQL。目前,OtterTune的产品能够自动优化Amazon Aurora和Amazon RDS上运行的MySQL和PostgreSQL。

数据库自动化和优化不仅需要机器学习的知识,还需要数据库的知识,团队的重要性不言而喻。

Andy Pavlo、Dana Van Aken、Bohang Zhang是OtterTune的三位联合创始人。其中,Andy Pavlo是卡内基梅隆计算机科学学院(CMU)的副教授,他的研究重点是数据库管理系统,特别是内存系统、自动调优(autonomous)架构(OtterTune和NoisePage项目)、事务处理系统和大规模数据分析。多年来,Andy通过在线和面对面的系列讲座以及为数据库技术研究会议提供服务为数据库研究和教育做出了贡献。

OtterTune计划在今年年底前将工程师团队从目前的15人扩大到30人。“学习的能力,是我们非常看重的一点,能在团队中快速成长。其次是团队之间的合作,能够进行良好的沟通合作,快速推进项目。另外,能够对新的知识充满热情,对新的技术充满兴趣,遇到新的挑战能迎难而上。”张伯翰说。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
2月前
|
人工智能 监控 供应链
AI技术创业有哪些机会?
本文探讨了AI技术创业的多个机会,包括提供行业解决方案、开发智能产品和服务以及教育和培训,为创业者在医疗保健、金融服务、零售、教育等多个领域提供了丰富的机遇。
96 2
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
3天前
|
人工智能 容灾 关系型数据库
【AI应用启航workshop】构建高可用数据库、拥抱AI智能问数
12月25日(周三)14:00-16:30参与线上闭门会,阿里云诚邀您一同开启AI应用实践之旅!
|
1月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
2月前
|
SQL 存储 人工智能
OceanBase CTO杨传辉谈AI时代下数据库技术的创新演进路径!
在「DATA+AI」见解论坛上,OceanBase CTO杨传辉先生分享了AI与数据库技术融合的最新进展。他探讨了AI如何助力数据库技术演进,并介绍了OceanBase一体化数据库的创新。OceanBase通过单机分布式一体化架构,实现了从小规模到大规模的无缝扩展,具备高可用性和高效的数据处理能力。此外,OceanBase还实现了交易处理、分析和AI的一体化,大幅提升了系统的灵活性和性能。杨传辉强调,OceanBase的目标是成为一套能满足80%工作负载需求的系统,推动AI技术在各行各业的广泛应用。关注我们,深入了解AI与大数据的未来!
OceanBase CTO杨传辉谈AI时代下数据库技术的创新演进路径!
|
2月前
|
缓存 弹性计算 NoSQL
新一期陪跑班开课啦!阿里云专家手把手带你体验高并发下利用云数据库缓存实现极速响应
新一期陪跑班开课啦!阿里云专家手把手带你体验高并发下利用云数据库缓存实现极速响应
|
2月前
|
数据采集 人工智能 自然语言处理
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
【10月更文挑战第4天】表格增强生成(TAG)范式解锁了AI自然语言处理与数据库的深度融合,旨在让用户通过自然语言便捷地查询和管理数据。TAG结合了语言模型的强大推理能力和数据库系统的高效计算能力,通过查询合成、执行及答案生成三步完成复杂查询。相较于传统Text2SQL和RAG方法,TAG在准确性上显著提升,但其应用仍面临技术门槛和数据质量等挑战。[论文地址:](https://arxiv.org/pdf/2408.14717)
72 4
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
4月前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
3月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据