EdgeNGramFilterFactory 与 NGramFilterFactory的实测效果

简介: 假期重新把之前在新浪微博的内容(原新浪这个平台已经下线了)梳理了下,同步搬到这里。主要是Lucene、Solr 应用这块的内容。本文是分词的效果对比。

EdgeNGramFilterFactory

例子 abcde   淘宝杭州市政府

各个场景下输出:

tgramfront   abc    abcd    abcde    淘宝杭    淘宝杭州    淘宝杭州市    淘宝杭州市政    淘宝杭州市政府


tgramback    cde    bcde    abcde    市政府    州市政府    杭州市政府    宝杭州市政府    淘宝杭州市政府


bgramfront    ab    abc    abcd    abcde  淘宝    淘宝杭    淘宝杭州    淘宝杭州市    淘宝杭州市政    淘宝杭州市政府


bgramback    de    cde    bcde    abcde  政府    市政府    州市政府    杭州市政府    宝杭州市政府    淘宝杭州市政府


NGramFilterFactory

gramfront

淘宝杭    宝杭州    杭州市    州市政    市政府    淘宝杭州    宝杭州市    杭州市政  州市政府    淘宝杭州市    宝杭州市政    杭州市政府    淘宝杭州市政    宝杭州市政府淘宝杭州市政府


配置

<fieldType name="tgramfront"class="solr.TextField"positionIncrementGap="100"omitNorms="false"omitPositions="true">
  <analyzer type="index">
     <tokenizer class="solr.WhitespaceTokenizerFactory"/>
     <filter class="solr.EdgeNGramFilterFactory"side="front"minGramSize="3"maxGramSize="20" />
  </analyzer>
  <analyzer type="query">
     <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  </analyzer>
 </fieldType>
<fieldType name="gramfront"class="solr.TextField"positionIncrementGap="100"omitNorms="false"omitPositions="true">
   <tokenizer class="solr.WhitespaceTokenizerFactory"/>
   <filter class="solr.NGramFilterFactory"side="front"minGramSize="3"maxGramSize="20"/>
  </fieldType>
<fieldType name="tgramback"class="solr.TextField"positionIncrementGap="100"omitNorms="false"omitPositions="true">
   <filter class="solr.EdgeNGramFilterFactory"side="back"minGramSize="3"maxGramSize="20"/>
 </fieldType>
 <fieldType name="bgramfont"class="solr.TextField"positionIncrementGap="100"omitNorms="false"omitPositions="true" />
 <tokenizer class="solr.WhitespaceTokenizerFactory"/>     
 <filter class="solr.EdgeNGramFilterFactory"side="front"minGramSize="2"maxGramSize="20"/>
</fieldType>
<fieldType name="bgramback"class="solr.TextField"positionIncrementGap="100"omitNorms="false"omitPositions="true"/>
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>  
  <filter class="solr.EdgeNGramFilterFactory"side="back"minGramSize="2"maxGramSize="20"/>
 </fieldType> 


目录
相关文章
|
人工智能 搜索推荐 物联网
VeRA: 性能相当,但参数却比LoRA少10倍
2022年的LoRA提高了微调效率,它在模型的顶部添加低秩(即小)张量进行微调。模型的参数被冻结。只有添加的张量的参数是可训练的。
76 0
|
6月前
|
传感器 算法 测试技术
LabVIEW更高的吞吐量与更少的延迟2
LabVIEW更高的吞吐量与更少的延迟2
41 2
|
6月前
|
算法 芯片
LabVIEW更高的吞吐量与更少的延迟A
LabVIEW更高的吞吐量与更少的延迟A
34 2
|
6月前
|
编解码 并行计算 计算机视觉
jetson-ffmpeg对视频硬编解码实测记录
jetson-ffmpeg对视频硬编解码实测记录
422 0
实测Hutool的雪花算法8G内存跑到7600万条OOM
实测Hutool的雪花算法8G内存跑到7600万条OOM
|
存储 Oracle JavaScript
300万数据导入导出优化方案,从80s优化到8s(实测)
300万数据导入导出优化方案,从80s优化到8s(实测)
300万数据导入导出优化方案,从80s优化到8s(实测)
|
机器学习/深度学习 人工智能 编解码
安卓手机上跑15亿参数大模型,12秒不到就推理完了
安卓手机上跑15亿参数大模型,12秒不到就推理完了
227 0
|
存储 NoSQL 算法
10倍压缩比?Lindorm与其他数据库实测大比拼
让数据存储得起,我们不是说说而已。
10倍压缩比?Lindorm与其他数据库实测大比拼
|
机器学习/深度学习 算法 异构计算
视频训练效率太低?试试这个加速算法
在 3D CNN 视频模型中, 每一个 mini-batch 的输入 shape 为 Batch_size x T (采样帧数) x H (高度) x W(宽度), 通常在训练中 Batch_size,T,H,W 的值都是固定的。 为了解决训练效率的问题,论文 "A Multigrid Method for Efficiently Training Video Models" 提出了一种动态改变 Batch_size、采样帧数 T、 每一帧的宽度 W 和高度 H 的方式,能在保证训练精度不变的情况下,加速训练收敛。
237 0
视频训练效率太低?试试这个加速算法
|
缓存 负载均衡 监控
提升系统 10 倍性能的 10 个建议!
在线经济活动的比例日益提高,就连发展中国家和地区的经济活动都已经有5%以上在线进行了(相关数据请参考本文后面的资源)。在这个超级链接、随时在线的现代世界,用户的期望也远非昔日可比。如果你的网站不能马上响应,你的应用不能立即运行,用户转身就会投奔你的竞争对手。
提升系统 10 倍性能的 10 个建议!