开发者社区大数据文章正文

Spark中使用HanLP分词

2018-10-31 2844

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.将HanLP的data(包含词典和模型)放到hdfs上，然后在项目配置文件hanlp.properties中配置root的路径，比如：
root=hdfs://localhost:9000/tmp/

2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口：

public static class HadoopFileIoAdapter implements IIOAdapter {

    @Override
    public InputStream open(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        return fs.open(new Path(path));
    }

    @Override
    public OutputStream create(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        OutputStream out = fs.create(new Path(path));
        return out;
    }
}

3.设置IoAdapter，创建分词器：

private static Segment segment;

static {

HanLP.Config.IOAdapter = new HadoopFileIoAdapter();
segment = new CRFSegment();

}

然后，就可以在Spark的操作中使用segment进行分词了。

文章来源于云聪的博客

文章标签：

自然语言处理

分布式计算

Spark

关键词：

apache spark hanlp分词

apache spark hanlp

蓝天白芸朵

大数据资讯

自然语言处理分布式计算 Java

Spark中分布式使用HanLP（1.7.0)分词示例

HanLP分词，如README中所说，如果没有特殊需求，可以通过maven配置，如果要添加自定义词典，需要下载“依赖jar包和用户字典".分享某大神的示例经验:是直接"java xf hanlp-1.6.8-sources.jar" 解压源码，把源码加入工程（依赖本地jar包，有些麻烦，有时候到服务器有找不到jar包的情况)按照文档操作，在Spark中分词，默认找的是本地目录，所以如果是在driver中分词是没有问题的。

大数据资讯

1202 0 0

大数据资讯

自然语言处理分布式计算 Spark

spark集群使用hanlp进行分布式分词操作说明

本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作，文章整理自【qq_33872191】的博客，感谢分享！以下为全文：分两步：第一步：实现hankcs.

大数据资讯

14806 0 0

大数据资讯

自然语言处理分布式计算算法

Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程

在Kmeans算法中，一个样本需要使用数值类型，所以需要把文本转为数值向量形式，这里在Spark中有两种方式。其一，是使用TF-IDF；其二，使用Word2Vec。这里暂时使用了TF-IDF算法来进行，这个算法需要提供一个numFeatures，这个值越大其效果也越好，但是相应的计算时间也越长，后面也可以通过实验验证。

大数据资讯

2704 0 0

蓝天白芸朵

自然语言处理分布式计算算法

Spark应用HanLP对中文语料进行文本挖掘--聚类

蓝天白芸朵

1908 0 0

大熊计算机

10月前

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

490 0 0

郑小健

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1135 2 3

Echo_Wish

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

622 79 80

武子康

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

357 0 0

武子康

消息中间件分布式计算 NoSQL

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

武子康

314 0 0

武子康

消息中间件存储分布式计算

大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset

武子康

375 0 0

Spark中使用HanLP分词

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark中使用HanLP分词

热门文章

最新文章

相关课程

相关电子书