文档备案控制台

开发者社区大数据文章正文

spark集群使用hanlp进行分布式分词操作说明

2019-01-21 14846

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作，文章整理自【qq_33872191】的博客，感谢分享！以下为全文：分两步：第一步：实现hankcs.

本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作以下为全文：

分两步：

第一步：实现hankcs.hanlp/corpus.io.IIOAdapter

c2c824f2b6985f612a991817069f2cc171538e0b

1.Â public class HadoopFileIoAdapter implements IIOAdapter {

2.

3. @Override

4. public InputStream open(String path) throws IOException {

5. Configuration conf = new Configuration();

6. FileSystem fs = FileSystem.get(URI.create(path), conf);

7. return fs.open(new Path(path));

8. }

9.

10. @Override

11. public OutputStream create(String path) throws IOException {

12. Configuration conf = new Configuration();

13. FileSystem fs = FileSystem.get(URI.create(path), conf);

14. OutputStream out = fs.create(new Path(path));

15. return out;

16. }

17. }

第二步：修改配置文件。root为hdfs上的数据包，把IOAdapter改为咱们上面实现的类

4bce59231d05248baedb0b7544d4a239d9c7d4f3

9f63503ef2c610b239e08be8ad28aea4fec86c7e

ok，这样你就能在分布式集群上使用hanlp进行分词了。

整个步骤比较简单，欢迎各位大神交流探讨！

文章标签：

自然语言处理

分布式计算

Spark

关键词：

分布式集群

集群分布式

apache spark集群

apache spark分布式

spark分布式

大数据资讯

目录

相关文章

赵渝强老师

|

11月前

|

存储负载均衡 NoSQL

【赵渝强老师】Redis Cluster分布式集群

Redis Cluster是Redis的分布式存储解决方案，通过哈希槽（slot）实现数据分片，支持水平扩展，具备高可用性和负载均衡能力，适用于大规模数据场景。

赵渝强老师

757 2 3

数据库知识分享者小北

|

Cloud Native 关系型数据库分布式数据库

登顶TPC-C｜云原生数据库PolarDB技术揭秘：Limitless集群和分布式扩展篇

阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录，展现卓越性能与性价比。其轻量版满足国产化需求，兼具高性能与低成本，适用于多种场景，推动数据库技术革新与发展。

数据库知识分享者小北

1343 13 13

阿里云瑶池数据库_

|

Cloud Native 关系型数据库分布式数据库

登顶TPC-C｜云原生数据库PolarDB技术揭秘：Limitless集群和分布式扩展篇

云原生数据库PolarDB技术揭秘：Limitless集群和分布式扩展篇

阿里云瑶池数据库_

940 46 50

CamilleKing

|

存储分布式计算负载均衡

分布式计算模型和集群计算模型的区别

【10月更文挑战第18天】分布式计算模型和集群计算模型各有特点和优势，在实际应用中需要根据具体的需求和条件选择合适的计算架构模式，以达到最佳的计算效果和性能。

CamilleKing

942 162 162

Deephub

|

并行计算 PyTorch 算法框架/工具

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题，文章提出利用UCC和UCX等统一通信框架实现高效数据传输，并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战，如计算能力不平衡、内存容量差异及通信性能优化，文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性，但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开，供读者参考实践。

Deephub

1468 3 4

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

蓝染-惣右介

|

存储 SpringCloudAlibaba Java

【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论

一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论。

蓝染-惣右介

885 1 3

【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论

aliyun4381607004

|

分布式计算 Java 开发工具

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景，随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码，发现使用的`nativeBooster.saveModel`方法不支持OSS路径，而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令，帮助用户顺利迁移模型存储路径。

aliyun4381607004

983 1 1

武子康

|

分布式计算 Hadoop

Hadoop-27 ZooKeeper集群集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置分布式协调框架 Leader Follower Observer

Hadoop-27 ZooKeeper集群集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置分布式协调框架 Leader Follower Observer

武子康

377 1 2

武子康

|

分布式计算 Hadoop 网络安全

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

307 1 1

武子康

|

存储机器学习/深度学习缓存

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

498 1 1

热门文章

最新文章

Spark SQL性能优化

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

EMR Spark Relational Cache的执行计划重写

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

钉钉群直播【Spark Relational Cache 原理和实践】

Spark - Task 与 Partition 一一对应与参数详解

Spark 环境搭建_下载和解压 Spark 安装包|学习笔记

HiveOnSpark 报错：java.lang.IllegalStateException(Connection to remote Spark driver was lost)‘ Last kno

大模型分布式推理：张量并行与流水线并行技术

基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南

《聊聊分布式》BASE理论分布式系统可用性与一致性的工程平衡艺术

《聊聊分布式》ZooKeeper与ZAB协议：分布式协调的核心引擎

《聊聊分布式》分布式系统基石：深入理解CAP理论及其工程实践

《聊聊分布式》从单体到分布式：电商系统架构演进之路

《聊聊分布式》分布式系统核心概念

《深入理解Spring》Spring Cloud 构建分布式系统的微服务全家桶

优化分布式采集的数据同步：一致性、去重与冲突解决的那些坑与招

【分布式能源选址与定容】光伏、储能双层优化配置接入配电网研究（Matlab代码实现）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

基于Zookeeper、Dubbo构建互联网分布式基础架构

分布式文件存储系统技术及实现

分布式协调系统 Zookeeper 快速入门

相关电子书

更多

高并发分布式缓存Redis6.0

基于社区的分布式风险感知模型

如何利用Redisson分布式化传统Web项目

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！