借助SAP HANA实现文本分析和文本挖掘

简介:
文章讲的是 借助SAP HANA实现文本分析和文本挖掘2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。

借助SAP HANA实现文本分析和文本挖掘
点击进入第五届中国数据库技术大会(DTCC 2014)报道专题

  自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经连续举办了四届中国数据库技术大会,每届大会与会规模超千人,大会云集了国内水平最高的数据架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。今年是中国数据库技术大会五周年,大会将继续秉承分享IT最佳应用实践的宗旨,围绕传统数据库和大数据两条技术主线,在目前IT技术和管理快速的大背景下,更加深入地探讨数据库技术的现状和未来的发展方向,以及我们在这个转型过程中的实践经验和教训。

借助SAP HANA实现文本分析和文本挖掘
▲ SAP中国研究院项目总监董玢

  十几年来一直致力于数据集成领域的工作,自2010年带领并参与了10多个基于SAP HANA的产品及客户项目. 2005年加入SAP,在此之前任职于德国海德堡大学,负责数据仓库开发工作。本科毕业于北京邮电大学,后获得德国Ulm大学计算机系硕士学位。

  信息爆炸的时代,产生很多的数据,通过对数据的分析了解发生了什么事情,为什么会发生这种事情。  每天产生的数据80%都是非结构化的数据,比如邮件,短信,图片,语音等。过去由于软件和硬件的限制,对于这些数据的挖掘比较滞后。现在硬件和软件技术的更新,能够实时的对数据进行深度挖掘。

  本讲座将向您介绍SAP HANA如何帮助用户解决好文本分析,以及如何结合R语言和SAP HANA自带的预测分析函数库来实现文本分析和文本挖掘。

  结合R语言 SAP HANA做场景的分析和计算

借助SAP HANA实现文本分析和文本挖掘
▲HANA内存数据库平台

  可以和移动端结合在一起,做移动应用,也可以在云端使用HANA。能对企业核心的流程进行加速,对传统的ERP代码push到HANA中,进行加速。HANA可以对计划进行预测,支持和ESP一起处理流数据。

  在文本搜索方面的架构

借助SAP HANA实现文本分析和文本挖掘
▲HAHA文本搜索架构

  通过表的形式存储,通过建立全文的索引,对整个表进搜索。加上文本分析之后,进行语意的处理。建立索引之后,通过建模工具建立搜索模型。通过表的属性建立一个视图,然后确立其他的规则。

  在上层建立了UI Tookit,基于搜索的UI框架,通过简单的修改可以使用。也可以自己通过HMTL5做开发。与HANA交互通过扩展的应用服务。

  建立文本搜索的几个步骤

借助SAP HANA实现文本分析和文本挖掘

  基于SAP HANA建立文本搜索需要遵循如上几个步骤。

借助SAP HANA实现文本分析和文本挖掘
▲InA家族说明

借助SAP HANA实现文本分析和文本挖掘
▲HANA 预测分析库

  预测分析库用于文本挖掘使用,其中包括了所有的通用的算法,做分类,聚类和关联性的算法。这些算法在HANA中通过C++实现。

借助SAP HANA实现文本分析和文本挖掘

SAP HANA+R

  SAP和R是一个很好的结合。R是一个很好的工具,包含了很多的算法,在很多场景进行补充和HAHA结合使用,在HANA中处理的数据在R中运行,然后再返回HAHA,通过R可以做算法的加速。


作者: 景保玉

来源:IT168

原文链接:借助SAP HANA实现文本分析和文本挖掘

相关文章
|
SQL 存储 JavaScript
SAP HANA 详细介绍
SAP HANA 详细介绍
1129 0
|
大数据
为什么要学习SAP HANA
大数据最近几年是一个比较火的名词,2015年读过一本叫做《大数据时代》的书,航空机票的例子让我记忆犹新。如今工作中接触到SAP HANA,勾起了我心中对大数据的欲望。
135 1
|
存储 缓存 算法
「内存数据库」SAP HANA的不可告人的秘密
「内存数据库」SAP HANA的不可告人的秘密
|
大数据
《CIO指南:如何使用SAP HANA平台处理大数据》电子版地址
CIO指南:如何使用SAP HANA平台处理大数据
117 2
《CIO指南:如何使用SAP HANA平台处理大数据》电子版地址
|
存储 缓存 算法
「首席看HANA」SAP HANA的秘密- 不要告诉任何人
「首席看HANA」SAP HANA的秘密- 不要告诉任何人
【SAP Hana】JAVA代码访问SAP HANA
【SAP Hana】JAVA代码访问SAP HANA
165 0
|
存储 云安全 弹性计算
SAP S/4HANA上云最佳实践
本文主要基于《阿里云解决方案技术白皮书》的指导,以一个典型S/4HANA上云案例,来分析上云过程中遇到的一些典型问题,以及架构的设计和落地的最佳实践。
SAP S/4HANA上云最佳实践
SAP S/4HANA里KPI tile的一个具体例子
SAP S/4HANA里KPI tile的一个具体例子
219 0
SAP S/4HANA里KPI tile的一个具体例子
|
云安全 存储 弹性计算
SAP(HANA+S/4)上云基础环境部署最佳实践
为提高客户服务水平及集团管理效率,客户选择了SAP解决方案。但是同时也对客户的IT基础设施提出了更多的要求。对此我们针对SAP上云基础设施选型、云原生产品、灾备方案设计,云上安全环境设计总结出了SAP最佳上云方案。本文展示真实案例中的HANA和S/4部署实践。
SAP(HANA+S/4)上云基础环境部署最佳实践