开发者社区 问答 正文

怎么使用PLDA进行文本聚类

      先贴文档哈(http://www.yushanfang.com/portal/help/doc.html?spm=0.0.0.0.nha8ts&file=SuanFaPingTai),在文档里搜PLDA可以看到算法的一些信息。
      算法是对数据进行文本聚类,咱们从数据的源头开始一步步做下来。
1,获得分词后的结果表,可以简单用这个实现:


这里的输出表1_1是一个docid+word+count的结果
2,因为上面的表的输出是word是字符串,而PLDA输入的稀疏矩阵的KV结构要求是BIGINT:DOUBLE,所以需要把String转成Bigint。这里建立一个数字和word的一一对应关系。中间怎么处理就看你实现了。可以筛选出自己认为重要的词后,用<数据预处理>里的<序列追加>组件。而Double类型的地方,在PLDA里需要传入的是单词的词频。
我这里的结果表弄成是weibo_blog_data_train_1_wid ,里面的数据结构是word(string)+rn(bigint)。
3,把结果整理成一张PLDA的输入表。文档里提到可以写MR,但是也可以用更加方便的方法(我这里用了mapjoin(b)是因为我筛选出来的b表数据比较少):

create table weibo_plda_in as
select /*+mapjoin(b) */
a.mid,WM_CONCAT(',',concat(b.rn,':',a.count)) as content
from
weibo_wc_1_1 a
join weibo_blog_data_train_1_wid b
on a.word =b.word
group by a.mid
4,用PLDA跑数据吧,哈哈。



展开
收起
传学 2015-11-24 18:02:54 7203 分享 版权
阿里云 AI 助理回答

根据您的请求,我将为您提供关于同步检测和异步检测接口的使用说明,以及如何将Markdown内容导出为Word文档的方法。以下是详细信息:

同步检测接口使用说明

请求参数: - bizType(业务场景标识):非必填,用于标识您的业务场景。 - scenes(应用场景):必填,指定图片检测的应用场景,目前仅支持sface-1。 - tasks(检测任务列表):必填,JSON数组,每个元素代表一个检测任务,包含待检测图片的URL等信息。注意,每次请求最多支持100个任务。

返回数据结构: - 每个检测任务的响应包括code(错误码)、msg(响应消息)、dataId(请求中的dataId)、taskId(检测任务ID)、url(检测对象URL)等字段。 - results字段内含检测结果详情,如scene(风险场景)、label(分类结果)、suggestion(操作建议)、rate(概率)等。

异步检测结果查询

返回数据: - 包括code(错误码)、msg(响应消息)、dataId(检测对象对应的数据ID,如果请求时提供)、taskId(检测任务ID)。

Markdown转换为Word文档方法

  1. 添加第三方库:引入Marked库,它能将Markdown文本转换成HTML。
  2. 配置预加载JS:定义一个函数convert,负责将Markdown内容转换并下载为Word文档。
  3. 调用转换函数:在需要的地方调用convert函数,传入Markdown内容和期望的文件名即可完成转换。

请注意,实际应用中需确保遵循各接口的限制与要求,比如图片URL长度、并发任务数及OSS存储空间授权等。同时,在处理Markdown转Word功能时,正确引用和初始化相关脚本是成功转换的前提。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答