▲点击进入第五届中国数据库技术大会(DTCC 2014)报道专题
自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经连续举办了四届中国数据库技术大会,每届大会与会规模超千人,大会云集了国内水平最高的数据架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。今年是中国数据库技术大会五周年,大会将继续秉承分享IT最佳应用实践的宗旨,围绕传统数据库和大数据两条技术主线,在目前IT技术和管理快速的大背景下,更加深入地探讨数据库技术的现状和未来的发展方向,以及我们在这个转型过程中的实践经验和教训。
十几年来一直致力于数据集成领域的工作,自2010年带领并参与了10多个基于SAP HANA的产品及客户项目. 2005年加入SAP,在此之前任职于德国海德堡大学,负责数据仓库开发工作。本科毕业于北京邮电大学,后获得德国Ulm大学计算机系硕士学位。
信息爆炸的时代,产生很多的数据,通过对数据的分析了解发生了什么事情,为什么会发生这种事情。 每天产生的数据80%都是非结构化的数据,比如邮件,短信,图片,语音等。过去由于软件和硬件的限制,对于这些数据的挖掘比较滞后。现在硬件和软件技术的更新,能够实时的对数据进行深度挖掘。
本讲座将向您介绍SAP HANA如何帮助用户解决好文本分析,以及如何结合R语言和SAP HANA自带的预测分析函数库来实现文本分析和文本挖掘。
结合R语言 SAP HANA做场景的分析和计算
▲HANA内存数据库平台
可以和移动端结合在一起,做移动应用,也可以在云端使用HANA。能对企业核心的流程进行加速,对传统的ERP代码push到HANA中,进行加速。HANA可以对计划进行预测,支持和ESP一起处理流数据。
在文本搜索方面的架构
通过表的形式存储,通过建立全文的索引,对整个表进搜索。加上文本分析之后,进行语意的处理。建立索引之后,通过建模工具建立搜索模型。通过表的属性建立一个视图,然后确立其他的规则。
在上层建立了UI Tookit,基于搜索的UI框架,通过简单的修改可以使用。也可以自己通过HMTL5做开发。与HANA交互通过扩展的应用服务。
建立文本搜索的几个步骤
基于SAP HANA建立文本搜索需要遵循如上几个步骤。
预测分析库用于文本挖掘使用,其中包括了所有的通用的算法,做分类,聚类和关联性的算法。这些算法在HANA中通过C++实现。
SAP HANA+R
SAP和R是一个很好的结合。R是一个很好的工具,包含了很多的算法,在很多场景进行补充和HAHA结合使用,在HANA中处理的数据在R中运行,然后再返回HAHA,通过R可以做算法的加速。
作者: 景保玉
来源:IT168
原文链接:借助SAP HANA实现文本分析和文本挖掘