如何利用淘宝的分词来帮助我们合理的书写标题

简介:

如何利用淘宝的分词来帮助我们合理的书写标题

今天跟大家分享一下淘宝的分词算法,分词我想大家都不陌生,当然我们讲的是淘宝的分词技术,我们知道淘宝中的每一个宝贝都有一个标题,而标题是由很多的词或者说字组成的,那么对于这些词和字我们如何得知淘宝是如何拆分和识别的呢?再淘宝的分词识别中我之前写过一篇文章:淘宝的分词系统,其中介绍了淘宝的分词技术的发展和其影响因素和识别的内容,今天我们继续这个话题跟大家简单谈谈淘宝的系统是如何拆分关键词的,好了,废话少说,直接进入主题。

分词;

我们先拿出一个标题这里我准备了一个:

2013秋冬pu短裙女包臀裙子水洗pu皮裙A字裙显瘦修身前开叉半身裙

我们先不说这个标题的好坏,我们来看下淘宝是如何去拆分这个标题的,上图:

OK,这张图是淘宝的系统给标题进行了拆分的结果:

原标题:2013秋冬pu短裙女包臀裙子水洗pu皮裙A字裙显瘦修身前开叉半身裙

拆分后:2013/秋冬/pu/短裙/女包/臀/裙子/水洗/pu/皮裙/A/字/裙/显瘦/修身/前/开叉/半身/裙

细心的淘友们发现了淘宝在拆分的时候出现了一个词“女包”,很是纳闷,我们一眼就知道这款宝贝我们卖的裙子怎么变成女包了额,所以我们从淘宝的拆词系统中我们可以知道标题的关键词的组合是很重要的,而且淘宝的拆词算法是机器去做的,而并非是人工去拆分的,

所以在写标题的时候就一定要注意下这些细小的组成部分。不然的话就出现了误识别导致宝贝失去了原有的流量基础。

那么针对这类问题如何进行修改呢?

修改后:2013秋冬pu短裙包臀裙子水洗pu皮裙A字裙显瘦修身前开叉半身裙

我们来看下淘宝是如何拆分的?

很显然已经非常正确的识别出来了,这里有的人就会很好奇的问::淘宝的拆词是如何进行的,因为我们能够看到的个体也就是我展示的图片是淘宝拆分后的一个结果图,那么如果我们知道了淘宝拆词的步骤和方法是不是说我们就很有效的让淘宝更好的识别我们的关键词呢,也就可以知道我们标题的权重指标是不是这样的呢?

好,不说废话,上标题:

迎/51/特价/镜面/全棉/平顶/帽子/男女/帽子/遮阳/军帽/男女/帽子/男/帽子

这是一款帽子的标题,标题的拆分结果我们已经用“/”表示出来,好,我们来看下淘宝的一个识别情况:

通过数据采集采样,我做了一个识别的结果(这个是我个人收集整理的,大家仅供参考):

我们看A类:是标题拆分后的一个结果,B类是词性,C类是最优类目,D类是该宝贝的最优类目的包含情况,以上数据采集来自数据魔方。

好了,我们简单看到的一个结果是“镜面这个词”是不包含所在的类目的,从利润上来说单词的索引是可以识别的,但是我们标出了红色,表示不可用。好了我们先分析结果数据再来看这个推理,

OK,这是我们看到这款产品可以被识别的一些关键词从上到下是单词和组合词,我们简单来看下这两个小的概念,

单词:就是指拆分的最小单位

组合词:由最小单位两个及以上的组合形式

这里有人会问为什么很多的组合词没有出现,没有出现不代表没有,由于权重和人气不同识别的也是不同的,我们自己采集的时候就这么多了,所以大家将就看下,最重要的是了解其中的含义。

OK,我们标红的词我们看下上上面的那张表格,发现了木有,都是神马词?没错都是名词,对于这两个名词我们再来看下,“帽子”是类目词,“军帽”是名词但不是类目词。OK,这里我们就知道了淘宝第一识别的是什么,没错就是名词且是类目词优先识别,是不是有点像我们买家买东西一样,进入类目先点击一些关键词再输入一些关键词,模式是相通的哦!

好了,我们把刚刚标题去重一下:

特价/全棉/平顶/男女/遮阳/军帽/男/帽子

为什么很多关键词都木有了呢?包括镜面这个词,OK

其实呢去重也是淘宝的一个关键的步骤,所以做标题的时候注意了哦,亲

OK,我们来观察下这组词:

军帽 男

帽子 男

特价 男

平顶帽子

平顶帽子 男

帽子特价

帽子 军帽

男 帽子 遮阳

遮阳 帽子

遮阳军帽

男女 帽子

全棉 特价

帽子 全棉

帽子 男特价

帽子 男 军帽

是不是又发现了一个秘密,什么秘密呢?第一系统很小去打破标题的顺序,虽然说标题中的顺序不是非常大的影响标题的识别,但是通过第一个例子和这里的样本,我们很显然知道是有影响的,OK,继续我们还可以知道这些组合词的组成基本上都是由靠近的邻词组成的,是不是大家可以自己去看下哦!

好了,我们来看下“镜面”这个词的组成

这个图又告诉我们什么呢,一些特殊的词,单词是不被索引,但是组合词是可以被索引的。

在我们平常书写标题的时候我们是不是也是值得注意的,此类词,本人建议最后不要去书写在标题中,如果一定要书写就记得合理的利用空格。

OK,我们来总结一下:

关键词的拆分

拆成多个单词

关键词的识别顺序

类目词优先,名词,组合词

标题组合词的规律

单词到多词组合

最小滑动组合

特殊词如何组合,以免误识别

合理利用空格技术

目录
相关文章
|
自然语言处理 算法 搜索推荐
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
|
5月前
|
数据可视化 前端开发 搜索推荐
ECharts 词云案例三:2024年阅读关键词
探索ECharts词云图进阶,使用蒙版创造个性化2024年阅读关键词云。预览图展示渐变色背景与随机色词汇。蒙版概念引入,通过HTML结构和JavaScript配置实现词云与图像蒙版结合。代码及依赖下载链接提供,展示五种创意蒙版效果,激发数据可视化的创新思维。
75 0
ECharts 词云案例三:2024年阅读关键词
|
4月前
|
数据采集 JSON API
深入解析:抖音视频标题的Python爬虫提取方法
深入解析:抖音视频标题的Python爬虫提取方法
|
6月前
|
JSON 搜索推荐 数据挖掘
电商数据分析的利器:电商关键词搜索API接口(标题丨图片丨价格丨链接)
淘宝关键词搜索接口为电商领域的数据分析提供了丰富的数据源。通过有效利用这一接口,企业和研究人员可以更深入地洞察市场动态,优化营销策略,并提升用户体验。随着电商平台技术的不断进步,未来的API将更加智能和个性化,为电商行业带来更多的可能性。
|
6月前
|
关系型数据库 MySQL
Mysql基础第二十一天,全文本搜索
Mysql基础第二十一天,全文本搜索
53 0
|
自然语言处理 搜索推荐 关系型数据库
淘东电商项目(47) -商品搜索服务功能的实现(集成拼音分词器)
淘东电商项目(47) -商品搜索服务功能的实现(集成拼音分词器)
95 0
|
XML JSON 缓存
Java实现根据关键词搜索抖音视频数据方法
Java实现根据关键词搜索抖音视频数据方法
谈一谈|Word文档图片的提取
谈一谈|Word文档图片的提取
157 0
|
Web App开发 XML JavaScript
【原创】淘宝关键词搜索爬取与解析
【原创】淘宝关键词搜索爬取与解析
【原创】淘宝关键词搜索爬取与解析
|
前端开发 搜索推荐 索引
重学前端 5 # 如何运用语义类标签来呈现Wiki网页?
重学前端 5 # 如何运用语义类标签来呈现Wiki网页?
121 0
重学前端 5 # 如何运用语义类标签来呈现Wiki网页?