开发者社区> 问答> 正文

非结构化数据的技术发展情况大概是怎样的?

非结构化数据的格式和标准非常多样,而且在技术上它会比结构化信息更难以标准化和理解,目前非结构化数据的技术发展情况大概是怎样的?

展开
收起
OSC开源社区 2024-06-12 13:10:03 11 0
2 条回答
写回答
取消 提交回答
  • 传统的数据库,无论是 OLTP、OLAP 数据库,还是 NoSQL 数据库,主要面向的是一些结构化的数据,比如说像 string、int 等数值类型的。非架构化数据会更加多样化,比如生活中常见的图片、视频,或者是推荐系统中的用户信息、商品信息,都被归到非结构化数据范畴中。其实非结构化数据的体量在整个业界的规模是更大的,而且增长数独也很快。

    据调查报告显示,到 2025 年,80% 以上的数据都会是非结构化数据。但传统的数据库没办法很好地去处理这种非结构化数据。所以其实我们在做大数据转型的过程中,发现很多非结构化数据的价值被浪费了。因此我们现在的核心在于关注这个领域怎么能利用 AI 和数据库的技术,去赋能非结构化数据处理,帮助大家更好地去挖掘各种各样的非结构化数据的核心价值。

    那么现在比较主流的非结构化数据处理方式,基本上都是通过一些深度学习的模型实现。因为非结构化数据本身的种类非常多,可能没有办法很容易地通过某一种规则去处理。传统的结构化数据,通过排序或者聚合可以去做一些比较好的处理,它的算子方式相对来讲比较统一。但非结构化数据由于种类很多,所以我们希望先把它统一成一种机器能够理解、能够处理的结构。那么目前比较主流的方式,其实是通过一些深度学习的模型,把数据生成向量 embedding,然后再去做一些近邻的匹配,那么在高纬空间底下,如果这个向量的距离是相似的,我们就认为它代表非结构化数据的一些相似性。

    举个简单的例子,我想做图片搜索或者以图搜图,就可以把图片经过深度学习模型转化成一个向量。然后在高纬的向量空间里,找到一些近似的向量。那么这些近似的向量背后代表的那些图片,可能就跟原始的想要查询的图片比较相似。

    至于怎么定义这个事情,很大程度上取决于你的深度学习模型,包括训练的时候带有哪些特征等等。比如在做人脸识别的时候,可能会在训练的时候特意给出一组相似的人脸样本,和一组不相似的人脸样本;或者在做物体识别的时候,给到的图片分类里还包括其他生物的图,通过这种方式,把这个问题转换成模型问题。

    2024-06-13 15:44:13
    赞同 展开评论 打赏
  • 非结构化数据处理技术正不断发展,以适应多模态和异构数据的挑战。在云数据库领域,如PolarDB PostgreSQL版和AnalyticDB MySQL版,都在探索如何融合结构化与非结构化数据。这包括使用向量处理引擎将非结构化数据转化为结构化形式,以及开发支持多源异构数据的处理技术。例如,AnalyticDB实现了对非结构化数据如JSON的索引管理,支持全文检索与结构化数据的关联分析。数据库系统也在提升智能化和安全性,以简化运维并保障数据安全。您可以参考云原生数据库PolarDB PostgreSQL版的未来规划AnalyticDB MySQL版的结构化与非结构化数据融合技术

    2024-06-12 14:34:36
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载