非结构化数据的技术发展情况大概是怎样的？

传统的数据库，无论是 OLTP、OLAP 数据库，还是 NoSQL 数据库，主要面向的是一些结构化的数据，比如说像 string、int 等数值类型的。非架构化数据会更加多样化，比如生活中常见的图片、视频，或者是推荐系统中的用户信息、商品信息，都被归到非结构化数据范畴中。其实非结构化数据的体量在整个业界的规模是更大的，而且增长数独也很快。

据调查报告显示，到 2025 年，80% 以上的数据都会是非结构化数据。但传统的数据库没办法很好地去处理这种非结构化数据。所以其实我们在做大数据转型的过程中，发现很多非结构化数据的价值被浪费了。因此我们现在的核心在于关注这个领域怎么能利用 AI 和数据库的技术，去赋能非结构化数据处理，帮助大家更好地去挖掘各种各样的非结构化数据的核心价值。

那么现在比较主流的非结构化数据处理方式，基本上都是通过一些深度学习的模型实现。因为非结构化数据本身的种类非常多，可能没有办法很容易地通过某一种规则去处理。传统的结构化数据，通过排序或者聚合可以去做一些比较好的处理，它的算子方式相对来讲比较统一。但非结构化数据由于种类很多，所以我们希望先把它统一成一种机器能够理解、能够处理的结构。那么目前比较主流的方式，其实是通过一些深度学习的模型，把数据生成向量 embedding，然后再去做一些近邻的匹配，那么在高纬空间底下，如果这个向量的距离是相似的，我们就认为它代表非结构化数据的一些相似性。

举个简单的例子，我想做图片搜索或者以图搜图，就可以把图片经过深度学习模型转化成一个向量。然后在高纬的向量空间里，找到一些近似的向量。那么这些近似的向量背后代表的那些图片，可能就跟原始的想要查询的图片比较相似。

至于怎么定义这个事情，很大程度上取决于你的深度学习模型，包括训练的时候带有哪些特征等等。比如在做人脸识别的时候，可能会在训练的时候特意给出一组相似的人脸样本，和一组不相似的人脸样本；或者在做物体识别的时候，给到的图片分类里还包括其他生物的图，通过这种方式，把这个问题转换成模型问题。

非结构化数据处理技术正不断发展，以适应多模态和异构数据的挑战。在云数据库领域，如PolarDB PostgreSQL版和AnalyticDB MySQL版，都在探索如何融合结构化与非结构化数据。这包括使用向量处理引擎将非结构化数据转化为结构化形式，以及开发支持多源异构数据的处理技术。例如，AnalyticDB实现了对非结构化数据如JSON的索引管理，支持全文检索与结构化数据的关联分析。数据库系统也在提升智能化和安全性，以简化运维并保障数据安全。您可以参考云原生数据库PolarDB PostgreSQL版的未来规划和AnalyticDB MySQL版的结构化与非结构化数据融合技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

非结构化数据的技术发展情况大概是怎样的？