怎么使用PLDA进行文本聚类-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

怎么使用PLDA进行文本聚类

2015-11-24 18:02:54 6880 0
      先贴文档哈(http://www.yushanfang.com/portal/help/doc.html?spm=0.0.0.0.nha8ts&file=SuanFaPingTai),在文档里搜PLDA可以看到算法的一些信息。
      算法是对数据进行文本聚类,咱们从数据的源头开始一步步做下来。
1,获得分词后的结果表,可以简单用这个实现:


这里的输出表1_1是一个docid+word+count的结果
2,因为上面的表的输出是word是字符串,而PLDA输入的稀疏矩阵的KV结构要求是BIGINT:DOUBLE,所以需要把String转成Bigint。这里建立一个数字和word的一一对应关系。中间怎么处理就看你实现了。可以筛选出自己认为重要的词后,用<数据预处理>里的<序列追加>组件。而Double类型的地方,在PLDA里需要传入的是单词的词频。
我这里的结果表弄成是weibo_blog_data_train_1_wid ,里面的数据结构是word(string)+rn(bigint)。
3,把结果整理成一张PLDA的输入表。文档里提到可以写MR,但是也可以用更加方便的方法(我这里用了mapjoin(b)是因为我筛选出来的b表数据比较少):

create table weibo_plda_in as
select /*+mapjoin(b) */
a.mid,WM_CONCAT(',',concat(b.rn,':',a.count)) as content
from
weibo_wc_1_1 a
join weibo_blog_data_train_1_wid b
on a.word =b.word
group by a.mid
4,用PLDA跑数据吧,哈哈。



取消 提交回答
全部回答(0)
相关问答

1

回答

KubeVela 对哪几个 Golang 生态工具有依赖?

2022-03-15 14:48:48 3729浏览量 回答数 1

0

回答

php -i |grep configure没有任何输出,各位前辈帮忙这几天在百度实在找不到解决方法

2020-05-09 11:58:15 312浏览量 回答数 0

1

回答

通过jmap观察堆几乎没怎么使用, 但是top命令看到java进程占用了12%内存,总内存64G。

2020-04-25 15:15:53 1535浏览量 回答数 1

0

回答

server2008用不惯 能否在阿里云 的云服务器上使用win7系统?

2019-12-19 21:14:59 785浏览量 回答数 0

2

回答

ECS服务器 外网怎么使用 IP访问?

2019-11-19 11:38:38 2835浏览量 回答数 2

2

回答

ESC怎么使用 快速使网站上线

2019-01-07 14:41:37 459浏览量 回答数 2

1

回答

java子类怎么使用接口

2018-05-10 20:09:10 2025浏览量 回答数 1

5

回答

新手求助购买了云服务器ecs,怎么使用

2018-04-05 17:04:19 8514浏览量 回答数 5

1

回答

购买了邮箱之后怎么使用

2018-01-20 19:59:34 3086浏览量 回答数 1

3

回答

阿里云PHP的SDK怎么使用

2016-04-07 17:17:33 6883浏览量 回答数 3
+关注
传学
传学,专注于大数据领域的解决方案
文章
问答
问答排行榜
最热
最新
相关电子书
更多
机器学习中,使用Scikit-Leam简单处理文本数据
立即下载
典型模型-卷积神经网络入门
立即下载
概率图模型
立即下载