c#-SimHash匹配相似-算法

简介:

使用场景:Google 的 simhash 算法

//通过大量测试,simhash用于比较大文本,比如500字以上效果都还蛮好,距离小于3的基本都是相似,误判率也比较低。
 
//从我的经验,如果我们假定N是每个块的大小,M是重叠的字符的数目,N = 4和M = 3是最好的选择

  

public  class  SimHashAnalyser : IAnalyser
{
 
     private  const  int  HashSize = 32;
 
     public  float  GetLikenessValue( string  needle, string  haystack)
     {
         var  needleSimHash = this .DoCalculateSimHash(needle);
         var  hayStackSimHash = this .DoCalculateSimHash(haystack);
         return  (HashSize - GetHammingDistance(needleSimHash, hayStackSimHash)) / ( float )HashSize;
     }
 
     private  static  IEnumerable< int > DoHashTokens(IEnumerable< string > tokens)
     {
         var  hashedTokens = new  List< int >();
         foreach  ( string  token in  tokens)
         {
             hashedTokens.Add(token.GetHashCode());
         }
         return  hashedTokens;
     }
 
     private  static  int  GetHammingDistance( int  firstValue, int  secondValue)
     {
         var  hammingBits = firstValue ^ secondValue;
         var  hammingValue = 0;
         for  ( int  i = 0; i < 32; i++)
         {
             if  (IsBitSet(hammingBits, i))
             {
                 hammingValue += 1;
             }
         }
         return  hammingValue;
     }
 
     private  static  bool  IsBitSet( int  b, int  pos)
     {
         return  (b & (1 << pos)) != 0;
     }
 
     private  int  DoCalculateSimHash( string  input)
     {
         ITokeniser tokeniser = new  OverlappingStringTokeniser(4, 3);
         var  hashedtokens = DoHashTokens(tokeniser.Tokenise(input));
         var  vector = new  int [HashSize];
         for  ( var  i = 0; i < HashSize; i++)
         {
             vector[i] = 0;
         }
 
         foreach  ( var  value in  hashedtokens)
         {
             for  ( var  j = 0; j < HashSize; j++)
             {
                 if  (IsBitSet(value, j))
                 {
                     vector[j] += 1;
                 }
                 else
                 {
                     vector[j] -= 1;
                 }
             }
         }
 
         var  fingerprint = 0;
         for  ( var  i = 0; i < HashSize; i++)
         {
             if  (vector[i] > 0)
             {
                 fingerprint += 1 << i;
             }
         }
         return  fingerprint;
     }
 
 
}
 
 
 
public  interface  IAnalyser
{
     float  GetLikenessValue( string  needle, string  haystack);
}
 
public  interface  ITokeniser
{
     IEnumerable< string > Tokenise( string  input);
}
 
public  class  FixedSizeStringTokeniser : ITokeniser
{
     private  readonly  ushort  tokensize = 5;
     public  FixedSizeStringTokeniser( ushort  tokenSize)
     {
         if  (tokenSize < 2 || tokenSize > 127)
         {
             throw  new  ArgumentException( "Token 不能超出范围" );
         }
         this .tokensize = tokenSize;
     }
 
     public  IEnumerable< string > Tokenise( string  input)
     {
         var  chunks = new  List< string >();
         int  offset = 0;
         while  (offset < input.Length)
         {
             chunks.Add( new  string (input.Skip(offset).Take( this .tokensize).ToArray()));
             offset += this .tokensize;
         }
         return  chunks;
     }
 
}
 
 
public  class  OverlappingStringTokeniser : ITokeniser
{
           
     private  readonly  ushort  chunkSize = 4;
     private  readonly  ushort  overlapSize = 3;
 
     public  OverlappingStringTokeniser( ushort  chunkSize, ushort  overlapSize)
     {
         if  (chunkSize <= overlapSize)
         {
             throw  new  ArgumentException( "Chunck 必须大于 overlap" );
         }
         this .overlapSize = overlapSize;
         this .chunkSize = chunkSize;
     }
 
     public  IEnumerable< string > Tokenise( string  input)
     {
         var  result = new  List< string >();
         int  position = 0;
         while  (position < input.Length - this .chunkSize)
         {
             result.Add(input.Substring(position, this .chunkSize));
             position += this .chunkSize - this .overlapSize;
         }
         return  result;
     }
 
 
}

  

使用:

const  string  HayStack = "中国香港………………" ;
const  string  Needle = "中国香港 2013………………" ;
 
IAnalyser analyser = new  SimHashAnalyser();
var  likeness = analyser.GetLikenessValue(Needle, HayStack);
 
Console.Clear();
Console.WriteLine( "Likeness: {0}%" , likeness * 100);
Console.ReadKey();

  

 SimHash for c#


    本文转自曾祥展博客园博客,原文链接:http://www.cnblogs.com/zengxiangzhan/p/3311114.html,如需转载请自行联系原作者


相关文章
|
2月前
|
存储 监控 算法
电脑监控管理中的 C# 哈希表进程资源索引算法
哈希表凭借O(1)查询效率、动态增删性能及低内存开销,适配电脑监控系统对进程资源数据的实时索引需求。通过定制哈希函数与链地址法冲突解决,实现高效进程状态追踪与异常预警。
161 10
|
6月前
|
存储 运维 监控
基于 C# 语言的 Dijkstra 算法在局域网内监控软件件中的优化与实现研究
本文针对局域网监控系统中传统Dijkstra算法的性能瓶颈,提出了一种基于优先队列和邻接表优化的改进方案。通过重构数据结构与计算流程,将时间复杂度从O(V²)降至O((V+E)logV),显著提升大规模网络环境下的计算效率与资源利用率。实验表明,优化后算法在包含1000节点、5000链路的网络中,计算时间缩短37.2%,内存占用减少21.5%。该算法适用于网络拓扑发现、异常流量检测、故障定位及负载均衡优化等场景,为智能化局域网监控提供了有效支持。
147 5
|
2月前
|
存储 机器学习/深度学习 监控
网络管理监控软件的 C# 区间树性能阈值查询算法
针对网络管理监控软件的高效区间查询需求,本文提出基于区间树的优化方案。传统线性遍历效率低,10万条数据查询超800ms,难以满足实时性要求。区间树以平衡二叉搜索树结构,结合节点最大值剪枝策略,将查询复杂度从O(N)降至O(logN+K),显著提升性能。通过C#实现,支持按指标类型分组建树、增量插入与多维度联合查询,在10万记录下查询耗时仅约2.8ms,内存占用降低35%。测试表明,该方案有效解决高负载场景下的响应延迟问题,助力管理员快速定位异常设备,提升运维效率与系统稳定性。
185 4
|
7月前
|
存储 算法 安全
如何控制上网行为——基于 C# 实现布隆过滤器算法的上网行为管控策略研究与实践解析
在数字化办公生态系统中,企业对员工网络行为的精细化管理已成为保障网络安全、提升组织效能的核心命题。如何在有效防范恶意网站访问、数据泄露风险的同时,避免过度管控对正常业务运作的负面影响,构成了企业网络安全领域的重要研究方向。在此背景下,数据结构与算法作为底层技术支撑,其重要性愈发凸显。本文将以布隆过滤器算法为研究对象,基于 C# 编程语言开展理论分析与工程实践,系统探讨该算法在企业上网行为管理中的应用范式。
198 8
|
7月前
|
存储 监控 算法
解析公司屏幕监控软件中 C# 字典算法的数据管理效能与优化策略
数字化办公的时代背景下,企业为维护信息安全并提升管理效能,公司屏幕监控软件的应用日益普及。此软件犹如企业网络的 “数字卫士”,持续记录员工电脑屏幕的操作动态。然而,伴随数据量的持续增长,如何高效管理这些监控数据成为关键议题。C# 中的字典(Dictionary)数据结构,以其独特的键值对存储模式和高效的操作性能,为公司屏幕监控软件的数据管理提供了有力支持。下文将深入探究其原理与应用。
164 4
|
8月前
|
机器学习/深度学习 监控 算法
员工上网行为监控软件中基于滑动窗口的C#流量统计算法解析​
在数字化办公环境中,员工上网行为监控软件需要高效处理海量网络请求数据,同时实时识别异常行为(如高频访问非工作网站)。传统的时间序列统计方法因计算复杂度过高,难以满足低延迟需求。本文将介绍一种基于滑动窗口的C#统计算法,通过动态时间窗口管理,实现高效的行为模式分析与流量计数。
216 2
|
8月前
|
人工智能 运维 算法
基于 C# 深度优先搜索算法的局域网集中管理软件技术剖析
现代化办公环境中,局域网集中管理软件是保障企业网络高效运行、实现资源合理分配以及强化信息安全管控的核心工具。此类软件需应对复杂的网络拓扑结构、海量的设备信息及多样化的用户操作,而数据结构与算法正是支撑其强大功能的基石。本文将深入剖析深度优先搜索(Depth-First Search,DFS)算法,并结合 C# 语言特性,详细阐述其在局域网集中管理软件中的应用与实现。
189 3
|
5月前
|
监控 算法 安全
基于 C# 基数树算法的网络屏幕监控敏感词检测技术研究
随着数字化办公和网络交互迅猛发展,网络屏幕监控成为信息安全的关键。基数树(Trie Tree)凭借高效的字符串处理能力,在敏感词检测中表现出色。结合C#语言,可构建高时效、高准确率的敏感词识别模块,提升网络安全防护能力。
135 2
|
6月前
|
监控 算法 数据处理
内网实时监控中的 C# 算法探索:环形缓冲区在实时数据处理中的关键作用
本文探讨了环形缓冲区在内网实时监控中的应用,结合C#实现方案,分析其原理与优势。作为固定长度的循环队列,环形缓冲区通过FIFO机制高效处理高速数据流,具备O(1)时间复杂度的读写操作,降低延迟与内存开销。文章从设计逻辑、代码示例到实际适配效果展开讨论,并展望其与AI结合的潜力,为开发者提供参考。
261 2
|
6月前
|
监控 算法 安全
公司电脑监控软件关键技术探析:C# 环形缓冲区算法的理论与实践
环形缓冲区(Ring Buffer)是企业信息安全管理中电脑监控系统设计的核心数据结构,适用于高并发、高速率与短时有效的多源异构数据处理场景。其通过固定大小的连续内存空间实现闭环存储,具备内存优化、操作高效、数据时效管理和并发支持等优势。文章以C#语言为例,展示了线程安全的环形缓冲区实现,并结合URL访问记录监控应用场景,分析了其在流量削峰、关键数据保护和高性能处理中的适配性。该结构在日志捕获和事件缓冲中表现出色,对提升监控系统效能具有重要价值。
165 1

热门文章

最新文章