非结构化数据的格式和标准非常多样,而且在技术上它会比结构化信息更难以标准化和理解,目前非结构化数据的技术发展情况大概是怎样的?
传统的数据库,无论是 OLTP、OLAP 数据库,还是 NoSQL 数据库,主要面向的是一些结构化的数据,比如说像 string、int 等数值类型的。非架构化数据会更加多样化,比如生活中常见的图片、视频,或者是推荐系统中的用户信息、商品信息,都被归到非结构化数据范畴中。其实非结构化数据的体量在整个业界的规模是更大的,而且增长数独也很快。
据调查报告显示,到 2025 年,80% 以上的数据都会是非结构化数据。但传统的数据库没办法很好地去处理这种非结构化数据。所以其实我们在做大数据转型的过程中,发现很多非结构化数据的价值被浪费了。因此我们现在的核心在于关注这个领域怎么能利用 AI 和数据库的技术,去赋能非结构化数据处理,帮助大家更好地去挖掘各种各样的非结构化数据的核心价值。
那么现在比较主流的非结构化数据处理方式,基本上都是通过一些深度学习的模型实现。因为非结构化数据本身的种类非常多,可能没有办法很容易地通过某一种规则去处理。传统的结构化数据,通过排序或者聚合可以去做一些比较好的处理,它的算子方式相对来讲比较统一。但非结构化数据由于种类很多,所以我们希望先把它统一成一种机器能够理解、能够处理的结构。那么目前比较主流的方式,其实是通过一些深度学习的模型,把数据生成向量 embedding,然后再去做一些近邻的匹配,那么在高纬空间底下,如果这个向量的距离是相似的,我们就认为它代表非结构化数据的一些相似性。
举个简单的例子,我想做图片搜索或者以图搜图,就可以把图片经过深度学习模型转化成一个向量。然后在高纬的向量空间里,找到一些近似的向量。那么这些近似的向量背后代表的那些图片,可能就跟原始的想要查询的图片比较相似。
至于怎么定义这个事情,很大程度上取决于你的深度学习模型,包括训练的时候带有哪些特征等等。比如在做人脸识别的时候,可能会在训练的时候特意给出一组相似的人脸样本,和一组不相似的人脸样本;或者在做物体识别的时候,给到的图片分类里还包括其他生物的图,通过这种方式,把这个问题转换成模型问题。
非结构化数据处理技术正不断发展,以适应多模态和异构数据的挑战。在云数据库领域,如PolarDB PostgreSQL版和AnalyticDB MySQL版,都在探索如何融合结构化与非结构化数据。这包括使用向量处理引擎将非结构化数据转化为结构化形式,以及开发支持多源异构数据的处理技术。例如,AnalyticDB实现了对非结构化数据如JSON的索引管理,支持全文检索与结构化数据的关联分析。数据库系统也在提升智能化和安全性,以简化运维并保障数据安全。您可以参考云原生数据库PolarDB PostgreSQL版的未来规划和AnalyticDB MySQL版的结构化与非结构化数据融合技术
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。