并行编程应用——计算文章相似度

简介: 并行编程应用——计算文章相似度

今天给大家介看下并行编程在实际场景中的应用

1 需求

给定一篇文章A,从备选的1000份文章中找出和文章A相似度最高的一篇。如果相似度大于50%,则认为该文章有抄袭嫌疑,将文章提取出来进行人工筛查。而且效率要足够高。

这里请大家暂停10分钟,思考下如果换做是你,你将如何实现这个需求。


我来讲下方法,如果大家有更好的想法,小豆君希望大家在评论区讨论。每个人积极交换思想,才能碰撞出更亮的火花。


2 方法

在数据分析中,有个叫做余弦相似度的概念

其公式为:

余弦相似度公式

其中,a·b表示向量点积

向量点积

||a||*||b||表示:


举例:

文章A内容:中国人民都爱喝牛奶

文章B内容:我们中国百姓都喜欢喝牛奶

文章C内容:外国人不喜欢牛奶

然后将三篇文章做成一个矩阵表格,其中每个单元格的数字表示这个字在文章中出现的次数

字矩阵

那么

A·B=6 (A和B对应每列相乘再求和)

sqrt(A^2)=3

sqrt(B^2)=3.46

cos(A,B)=6/(3*3.46)=0.58

你可以尝试求一下cos(A,C),我这里就不给答案了,你可以将答案写到评论区。

故文章A与B的余弦相似度为0.58


解释:

余弦相似度实际上是两个向量之间的夹角余弦值,夹角越小越相似。在用点积除以距离时,实际上是将它们进行了归一化处理,这时我们就不需要考虑向量的长度了。

在取点积时,如果乘数中有0,则相当于是将彼此间互不包含的字符去掉了,这会使得整个分子变小,而分子变小,余弦值减小,角度增大,其相似度也就增大了。当余弦值为0时,角度为90度,说明它们之间不包含任何相同的文字了。

通过上面的解释,你应该已经弄懂了什么是余弦相似度了。接下来我们用代码实现之


3 余弦相似度代码实现

上代码:

#include <QDebug>
//获取字符串a和字符串b每个字的出现次数
QMap<QString, QList<int> > get_dict(const QString& a, const QString& b)
{
    QMap<QString, QList<int> > dict;
    QList<int> empty_list;  //空的一位列表,索引0为a的字符次数,索引1为b的字符次数
    empty_list.append(0);
    empty_list.append(0);
    //找到所有的字,并初始化为空列表
    foreach (const QString& v, a+b)
    {
        if (!dict.contains(v))
        {
            dict[v] = empty_list;
        }
    }
    //计算a中字符出现次数
    foreach (const QString& v, a)
    {
        if (dict.contains(v))
        {
            dict[v][0] +=1;
        }
    }
    //计算b中字符出现次数
    foreach (const QString& v, b)
    {
        if (dict.contains(v))
        {
            dict[v][1] += 1;
        }
    }
    return dict;
}
double cos_ab(const QString& a, const QString& b)
{
    int ab = 0;  //点积
    int a_distance2 = 0;  //a距离平方
    int b_distance2 = 0;  //b距离平方
    QMap<QString, QList<int> > dict = get_dict(a, b);
    QMapIterator<QString, QList<int> > i(dict);
    while (i.hasNext())
    {
      i.next();
      const QList<int>& v = i.value();
      ab += v[0]*v[1];
      a_distance2 += v[0]*v[0];
      b_distance2 += v[1]*v[1];
    }
    double s_a = sqrt(a_distance2);
    double s_b = sqrt(b_distance2);
    return ab/(s_a*s_b);
}
int main()
{
    double result = cos_ab(QString("中国人民都爱喝牛奶"), QString("我们中国百姓都喜欢喝牛奶"));
    qDebug() << result;
}


以上,我们已经解决了比较文章相似度的问题了,但需求是需要从1000篇文章中进行筛选,所以我们要充分发挥计算机的资源,尽快找出相似度最高的文章,所以需要用到多线程。


4 使用Qt中的Concurrent实现并行计算

在Qt中,QtConcurrent提供了并行处理方案。

上代码:

#include <QApplication>
#include <QDebug>
#include <QTextStream>
#include <QFile>
#include <QDir>
#include <qtconcurrentmap.h>
// 查找指定目录下的所有文件,并指定过滤条件,返回文件路径列表
QStringList find_files(const QString &startDir, QStringList filters)
{
    QStringList names;
    QDir dir(startDir);
    foreach (QString file, dir.entryList(filters, QDir::Files))
        names += startDir + '/' + file;
    foreach (QString subdir, dir.entryList(QDir::AllDirs | QDir::NoDotAndDotDot))
        names += find_files(startDir + '/' + subdir, filters);
    return names;
}
// 读取文件中的所有内容
QString read_file(const QString& file)
{
    QFile f(file);
    f.open(QIODevice::ReadOnly);
    return f.readAll();
}
// 余弦函数代理,用于在mappedReduced中计算余弦相似度
double cos_ab_proxy(const QString& file)
{
    static QString src = read_file("./src.txt");  // 存放原始文件内容,"中国人民都爱喝牛奶"
    QString compare = read_file(file);  // 读取被比较的文件内容
    double res = cos_ab(src, compare);
    qDebug() <<QString("原字符串[%1] 被比较字符串[%2] 相似度[%3]").arg(src).arg(compare).arg(res);
    return res;
}
// 对计算后的余弦相似度进行处理,找出最大的余弦相似度
void reduce(double &result, double calc_result)
{
    if (result < calc_result)
    {
        result = calc_result;
    }
}
int main(int argc, char** argv)
{
    QApplication app(argc, argv);
    // 查找files目录下的所有txt文件,并返回文件路径列表。1.txt (我们中国百姓都喜欢喝牛奶) 2.txt (外国人不喜欢牛奶)
    QStringList files = find_files("./files/", QStringList() << "*.txt");
    double result = QtConcurrent::mappedReduced(files, cos_ab_proxy, reduce);
    qDebug() << "最高相似度为:" << result;
}


输出结果:

并行计算结果

使用QtConcurrent编写的程序可以根据可用的处理器内核数自动调整线程数来加快计算速度,那么当部署到核数更多的机器上时,计算速度将自动提高。

QtConcurrent::mappedReduced函数,第一个参数是一个序列,它会将序列中的每一个元素分别传递给cos_ab_proxy函数作为参数,然后将cos_ab_proxy的结果传递给reduce,作为reduce的入参。reduce的结果将是整个函数的返回值。


你可以尝试增加文本和文件数量,当数量越来越多时,就会体现出并行计算的优势。


此处小豆君计算文本之间的相似度,是很初级的。因为中国是汉字,这里只计算的汉字之间的相似度,实际应计算词语相似度,过滤掉特殊符号,标点符号等。还需要处理同一种词或词义的不同形式。这个留给后面我们进行探索。


最后留一个问题,本代码中,并没有返回是哪篇文章相似度最高,大家可以思考下应该怎么做。


喜欢本文的大家就点个赞吧,同时也欢迎关注

微信号:小豆君编程分享 (关注后,可加入小豆君交流群进行学习交流,也可第一时间看到最新文章)

头条号:小豆君编程分享


有小伙伴问我,新手学习Qt应选择什么书,我比较推荐如下这本,里面内容主要是Qt帮助文档的翻译,再加上作者的理解和整理,比直接对着帮助文档看要高效不少。

相关文章
|
存储 编译器 数据库
C语言文件操作1
​✅<1>主页:C语言的前男友 📃<2>知识讲解:C语言的文件操作 🔥<3>创作者:C语言的前男友 ☂️<4>开发环境:Visual Studio 2022 🏡<5>系统环境:windows 10 💬<6>前言:我们想将输入的数据一直存储,而不是代码运行结束存储的数据就没了,这就涉及到了数据持久化的问题,我们一般数据持久化的方法有,把数据存放在磁盘文件、存放到数据库等方式,今天就来学习一下C语言的文件操作。
echarts 仪表盘三分钟上手及属性修改示例
echarts 仪表盘三分钟上手及属性修改示例
405 0
|
XML Java 数据格式
Spring Boot自动配置的底层原理
Spring Boot自动配置的底层原理
319 1
|
8天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
2653 13
|
5天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
2083 3
|
20天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23553 13
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
7天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
1927 1
|
2天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
1098 1
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek