毕业于四川大学信息管理与信息系统专业,现在香港浸会大学信息系统专业读硕士。 最近的主要研究内容是算法和图数据库相关的知识。 我的简书主页:https://www.jianshu.com/u/3f77db8cda3e
图片来源于维基百科 左图在假设P≠NP的情况下有效,右图在假设P=NP的情况下有效 在假定P≠NP的情况下, 有 NP问题:可以在多项式时间内被验证的问题。
循环不变式,是指让每次循环都成立的逻辑表达式,用于证明整个算法的正确性。 它通过证明循环体三条性质的正确性来证明整个算法的正确性。 三条性质: 初始化:循环的第一次迭代前,循环不变式为真。
大O符号(Big O notation), 又称渐进符号,是用于描述函数的渐近行为的数学符号。它是指用另一个(通常更简单的)函数来描述一个函数数量级的渐进上界。
目录 luke 简介 luke下载及安装 luke 使用 打开luke Overview选项卡 Documents选项卡 search选项卡 Commits选项卡 Plugins选项卡 导出索引为XML 检查索引正确性 总结 1. luke 简介 luke### 是一个用于Lucene/Solr/Elasticsearch 搜索引擎的,方便开发和诊断的 GUI(可视化)工具。
以下都是基于linux环境 参考链接:http://lucene.apache.org/solr/quickstart.html 目录: solr 基本命令总结 solr 命令参数详解 solr 查询语法详解 solr schema配置详解 1.
安装环境:Ubuntu 16.04 LTS; Java JDK 1.8.0 目录 检查系统环境 安装Apache Solr 配置solr-mmseg4j 1.
系统版本:Ubuntu 16.04 x86 JDK版本:jdk1.8.0_131 1. 下载Java JDK文件 官网网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html .tar.gz的包是Ubuntu系统用的,.rpm是CentOS系统 我是在云服务器配置的,用wget下载由于网络的原因下不全,所以在本地下好之后上传到了云服务器。
目录 认识中文分词包(下载、安装及运行) 分词方法与效果分析 分词算法学习 分词结果提交(2017/5/24完善方法2) 基于分词结果的词云分析 1.认识中文分词包(下载、安装及运行) 1.1 简介 mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
**中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
实验对象:scrapinghubs 实验目的:通过体验爬虫工具,进一步加深对数据检索的认识 目录 scrapinghubs简介 scrapy cloud试用报告 在Scrapyinghub创建工程 本地配置并连接到Scrapinghub 使用scrapy cloud进行数据爬取 portia试用报告 新建portia工程 选择爬取实体 导入scrapy cloud 总结 1.Scrapinghub简介 scrapinghub首页 *简介 scrapinghub 帮助人们将网站转化为数据。
转载请注明出处!!! 实验对象:豆瓣电影--人民的名义 实验目的:通过使用scrapy框架采集“人民的名义”评价内容,进一步体会信息检索的过程。 实验过程:分析采集实体->确定采集方法->制定爬取规则->编写代码并调试->得到数据 人民的名义 ps:由于最近豆瓣发布的 Api V2测试版 需要授权 走oauth2,但是现在不开放key申请,所以直接爬了网页。
实验对象:Apache Tika 实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识 目录 Apache Tika简介 配置Apache Tika运行环境 用GUI图形界面进行文件格式转换的尝试 用命令行使用Tika 在java工程中使用Tika 1. Apache Tika 简介 Apache Tika是一个用java编写的内容检测和分析框架,是Apache的Lucene项目的子项目。
实验对象:四川大学公共管理学院官网--新闻动态页 实验目的:运用Scrapy框架进行实际信息的采集以巩固和提高信息检索能力 实验过程:分析采集实体->确定采集方法->制定爬取规则->编写代码并调试->得到数据 ---------------------...
目录: robots.txt简介 亚马逊--robots.txt分析 Github--robots.txt分析 总结 robots.txt简介 介绍 robots.txt(统一小写)文件位于网站的根目录下,是ASCII编码的文本文件,用于表明不希望搜索引擎抓取工具访问的内容。
目录 Ubuntu 系统更新 Ubuntu 用户管理 Ubuntu 文件管理(新增了修改文件权限) Ubuntu 软件安装 Ubuntu 搜索文件方法 lrzsz文件传输方法 Ubuntu 文件格式转换 其它 Ubuntu 系统更新 sudo a...
基础装备: Linux云服务器(阿里云Ubuntu 16.04); 建立远程连接的软件(这里用的是XShell); 友情链接: Scrapy入门教程:http://scrapy-chs.