金融行业数据实时共享场景下的动态脱敏技术
在信息化大潮愈演愈烈的当下,数据和信息不啻为一种“新型资本”,尤其对于数据资产量巨大,操作复杂程度高、系统性能要求高的金融领域来说,数据资产发挥着越来越突出的价值,和传统资本具有的特性相似,数据资产的价值在流转、共享、整合利用中逐渐显现并越发放大。
阿里巴巴机器翻译在跨境电商场景下的应用和实践
本文将与大家分享机器翻译相关背景知识,再深入介绍机器翻译在阿里生态中的具体应用实践,介绍基于机器翻译技术搭建的一套完善的电商多语言解决方案,最后将会从技术角度介绍阿里机器翻译在解决实际业务问题中的技术创新和亮点。
word2vec 自己训练中文语料
(1) 准备文本
可以用爬虫爬,也可以去下载,必须是全文本。
(2)对数据进行分词处理
因为英文但此只见是空格所以不需要分词,二中文需要分词,
中文分词工具还是很多的,我自己常用的:
- 中科院NLPIR
- 哈工大LTP
- 结巴分词
注意:分词后保存的文件将会作为word2vec的输入文件进行训练
(3)训练与实验
python 需要先安装gensim,参