• 关于

    php虫

    的搜索结果

问题

php寄生虫木马如何删除

网站被植入了php寄生虫木马,天天生成垃圾页面。请教各位大神如何查找删除寄生虫木马?...
wyllfx 2019-12-01 20:06:33 1329 浏览量 回答数 1

回答

回 2楼(学虫) 的帖子 您好, 您是按这里的安装说明安装wdCP面板的吗? http://www.wdlinux.cn/wdcp/install.html 您是选择哪种组合方式来安装的,是apache + nginx 两种Web平台切换的吗? 或许您可以尝试在wdCP面板里将Web引擎切换到apache的来试试喔。 ------------------------- 回 6楼(学虫) 的帖子 您好, 如果您的服务器上没重要的数据,建议您还原系统后重新安装一次wdCP面板,在安装时,可先选择 apache + php 的组合,不要选择 apache + nginx + php的组合,从源码编译安装喔。 如还有问题,可临时设置一个root密码,我为您试试看。
dongshan8 2019-12-02 02:31:33 0 浏览量 回答数 0

回答

Re:回 楼主(萤火虫儿) 的帖子 楼主您好!就您的问题已与电话沟通说明,如遇到问题可私信我,只要符合”包年包月购买,且第一次提交备案申请“的阿里云服务器,备多久送多久。在您备案成功之后会有相应部门进行核实后统一给予补偿。具体可以参考一下这里的活动内容: http://bbs.aliyun.com/read.php?tid=141388
备案客服 2019-12-02 02:21:31 0 浏览量 回答数 0

阿里云试用中心,为您提供0门槛上云实践机会!

100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

问题

python爬取网站板块的一个小问题,急急急 == (似乎是个很简单的项目....)

想爬取木虫首页那些板块的名字(似乎是个很简单的项目....)写了如下代码为何既没有我create的文件,又没有爬取结果请大侠们给出修改意见==谢谢!! import requestsfrom requests.exceptions impo...
游客uub3gf5qnjcyg 2019-12-01 19:41:48 255 浏览量 回答数 2

问题

wordpress维护调试时对外展示自定义内容

上篇权当灌水了,这一篇来点实用的。wordpress是很多中小网站初期的选择,强大的插件系统,丰富的主题选择。。。也正是因为wordpress太全面了,基本上每一个用wordpress...
teamo2012 2019-12-01 21:58:40 5167 浏览量 回答数 0

问题

PHP爬虫在js对象里该如何获取

我用PHP爬了个网站、可是数据却用js生成的、审查元素可以找到js对象、PHP代码该怎么样才能获取js里对象的值...
小旋风柴进 2019-12-01 20:12:47 1013 浏览量 回答数 1

回答

上述几种语言都可以,只不过是应用程序的不同表现而已 如果是类似php这种语言的话,做出来就是web应用,需要依赖于web容器来运行而通过浏览器来展现。做本地化程序的话,VC、C#之类的可以胜任,java主要来说是编写web应用,本地程序依赖于JVM,普及率不广,而且UI超级烂,故而除非特定场景,否则不作首选 ######回复 @eechen : 这条说的在理,管他黑猫白猫,能逮到老鼠就是好猫。######回复 @焙焙龙 : 能解决楼主的问题就好,我管它是不是什么本地化程序。Linux上一大堆命令行程序,其中不乏脚本类命令,不专门去纠,根本区别不了。又比如,PHP内置SQLite引擎和HTTP服务器,代码用PHP-Beast加密,打包PHP环境部署到客户端,也就10MB左右,用户用浏览器就能访问服务,只要能解决问题,我管它是不是桌面程序。######回复 @eechen : 关键看这个语言是否具备本地调用的能力,脚本语言都不具备的,php本身也是脚本语言,必定依赖于某一个宿主去执行,脚本语言的入口是宿主语言规定的。所以光用脚本语言,是完全无法编写本地化程序的######不一定呀.PHP写CLI命令行应用,直接用curl函数发出HTTP请求进行发帖也是可以的.跟用PHP写爬虫区别不大.######你需要一个按键精灵######按键精灵不能完成我要的,按键精灵还是太简单了。我想我已经找到我要的了。hex就是我要的###### Visual Basic 6.0 新建标准Exe工程,编译即可得到exe程序。  ######+10086######HTML######试试按键精灵,支持编程的。######1,自己写按键精灵脚本 2,再试试火车头是否复合你的需要。######3,PHP也能完成你要的那种自动发帖的语言吧,而且很简单######用JAVA吧  语言和C#差不多   IDE 有NETBEANS ECLIPSE 土豪请用IDEA。
kun坤 2020-06-09 13:38:58 0 浏览量 回答数 0

问题

PHP可以写网页爬虫吗 ?

PHP可以写网页爬虫吗 ?原理是什么?...
落地花开啦 2019-12-01 20:05:14 1108 浏览量 回答数 2

问题

php使用selenium如何获得页面具体数据

现在用phpunit-selenium做一个php爬虫的一个东西,爬完之后,获得页面的数据,以及具体的table表格里面第三行第二个的值等,,新人,求懂的大神帮忙解答,谢谢~...
小旋风柴进 2019-12-01 20:10:28 972 浏览量 回答数 1

问题

爬虫数据管理【问答合集】

目前互联网中网络爬虫的自然语言处理方向前景怎样?https://yq.aliyun.com/ask/195258artTemplate:arttemplate生成的页面可以爬虫可以爬到数据吗https://yq.aliyun.com/ask...
马铭芳 2019-12-01 20:19:58 63181 浏览量 回答数 22

回答

不明白问题是啥意思。PHP可以开发API接口,一般通过HTTP调取,设置一下response的返回类型就可。关于从某个网站上获取实时数据,这个得利用爬虫去下载网站内容吧。
xiaoruoen 2019-12-02 00:34:20 0 浏览量 回答数 0

回答

几乎任何语言都能写爬虫,原理也都一样,http 协议抓网页内容,按照需求程度不同,可能还要抓响应码、Cookies、header然后自行处理。PHP 有 CURL 库,除稳定性稍差以外,基本可用。
落地花开啦 2019-12-02 02:53:25 0 浏览量 回答数 0

回答

这个错误表明,nginx与你上级服务器通讯的时候超时,通常是上级服务器的问题。如果nginx与上级服务器不在一台机器上,也有可能是网络问题。回复<aclass='referer'target='_blank'>@eatnothing:upstream:fastcgi不就相当于你的上级服务么,会不会是这个没响应了?没用上级服务器,很奇怪的报错请求求解不贴个配置文件吗 看看php-fpm进程存不存在,看看php-fpm.sock存不存在 回复<aclass='referer'target='_blank'>@geminiblue:估计是代码逻辑的问题,新接手的项目回复<aclass='referer'target='_blank'>@eatnothing:程序跑超时了?都存在正常,爬虫常遇到,如果超时了,重新连接再爬取
爱吃鱼的程序员 2020-06-09 13:35:22 0 浏览量 回答数 0

问题

右键点击“查看源代码”比按F12看到的源代码内容少,怎么回事?

网页有些内容要登录才显示,登录后,该内容已经显示在页面上,按F12也能看到该内容。但是在网页上右键点击“查看源代码”,却仍然找不到该内容,怎么回事?补充:好像因为这个原因,php爬虫抓取不到该内容,有解决办法么?...
杨冬芳 2019-12-01 20:04:32 1418 浏览量 回答数 1

回答

Re哪位帮忙做个HTML页面,备案用的,送33元代金卷 论坛应当是PHP的吧?打开首页( index.php )在最前面 <?php 后面添加下面的代码。 这样直接打开是401错误,搜索引擎的爬虫看到的是正常的页面,别人在百度,谷歌啥的搜索都可以正常打开你的网站。 代金卷就不用了! function is_spider() {     $arr_flag_robot = array(        'googlebot',        'mediapartners-google',        'baiduspider ',        'msnbot',        'yodaobot',        'yahoo! slurp;',        'yahoo! slurp china;',        'iaskspider',        'sogou web spider',        'sogou push spider'        );    if (isset($_SERVER['HTTP_USER_AGENT'])) {         if (preg_match("/(" . implode('|', $arr_flag_robot) . ")/i", $_SERVER['HTTP_USER_AGENT'], $matches)) return $matches[0];    } else {        return false;    }} function is_search() {     $arr_flag_search = array(        'google.com',        'baidu.com',        '其他你需要允许链接到本站的域名.com'        );    if (isset($_SERVER['HTTP_REFERER'])) {        // 从HTTP_USER_AGENT中查找关键字        if (preg_match("/(" . implode('|', $arr_flag_search) . ")/i", $_SERVER['HTTP_REFERER'], $matches)) return $matches[0];    } else {        return false;    }}if( !( is_spider() || is_search() ) ){    header('HTTP/1.1 401 Unauthorized');     header('Status: 401 Unauthorized', false, 401);    echo '401 Unauthorized';    return; }
ecrane 2019-12-01 23:37:30 0 浏览量 回答数 0

问题

今天早上起来一看apache进程居然占用300多M

淘尽网 友情通知: 今天早上老是发现,网站比较慢,但是发现cpu占用资源也不高,打开工具连到服务器上一看,昏死,apache进程居然占用300M多...
yyfjj 2019-12-01 20:11:38 5424 浏览量 回答数 0

回答

教程资源类 freeCodeCamp/freeCodeCamp 免费代码训练营 EbookFoundation/free-programming-book 免费编程图书 sindresorhus/awesome awesome 列表的列表。这个项目起源于某个人做了一个 awesome-php 的 php 优质资源 列表,然后大家就做了 awesome-python,awesome-vue 等各种列表,这个项目又把 各种 awesome 列表收集了起来。 CyC2018/CS-Notes 国人编写的计算机基础教程,中文 jwasham/coding-interview-university 面试考点总结 h5bp/Front-end-Developer-Interview-Questions 前端工程师面试问题 vinta/awesome-python Python 的一些优质资源. 前面提到的 awesome 系列列表,不再赘述 airbnb/javascript Airbnb 的 js 编码规范,值得参考。 github/gitignore GitHub 提供的各种项目的 gitignore 文件模板,省了自己写了 getify/You-Dont-Know-JS 前端(JS)的一些坑的总结 vuejs/awesome-vue Vue 的一些优质资源. awesome 系列,不再赘述 前端 UI 框架/库 twbs/bootstrap Twitter 推出的前端 UI 框架,有网格系统和各种组件,曾经常年在 GitHub 上排名第一,可以说是后端工程师画界面的利器。 竞品:Semantic UI, pure-css FontAwesome/Font-Awesome 字体和图标库,可以使用 SVG 和字体等等多种格式。 ant-design/ant-design 蚂蚁金服出的 react/vue 组件库,前一阵大名鼎鼎的“圣诞彩蛋”就是这个库搞得。主要 提供 React 的组件库,用于企业中后端的后台的建设。关于 React/Vue 和前端的组 件化是一个很有意思的话题,可以查阅相关资料。 和 Bootstrap 等的区别在于,Bootstrap 更偏向于 UI 方面,是 CSS 框架,而 antd 则是完整的包括 UI 和功能在内的 React 组件。可以理解为 Bootstrap 只做了“皮”, 而 antd 是 “皮” + “骨”。 Semantic-Org/Sematic-UI 和 Bootstrap 类似的一个组件库。Semantic UI 更强调使用语义化的 class 来定义样式 google / material-design-icons Google 推出的 Material 风格图标库。 daneden/animate.css CSS 动画效果库 大前端框架和库 vuejs/vue Vue 是国人推出的一个前端框架,可以通过写不同的 Vue 组件来组成一个完整的应用, 支持服务端渲染(SSR)。和 React 一样,Vue 也使用了 Virtual-DOM 技术来提高性能。 facebook/react facebook 推出的一个前端框架,特点是每个组件的 HTML/JS/CSS 组合在一起,使用 Virtual-DOM 渲染。在 React 出现之前,前端框架普遍采用了后端广泛使用的 MVC 模式,强调 HTML/JS/CSS 三者要分离,而 React 则反其道而行之,强调从组件构建, 可以说 React 的出现是前端界的一场革命。 facebook/react-native 使用 React 的语法来构建 native app,注意这里并不是使用一个 iOS 或者 Android 的 WebView 中嵌套了一个 webapp,而是直接使用 JS 来操作原生组件。 angular/angular.js Google 推出的前端框架,没用过 reactjs/redux react.js 的一个组件,用来管理数据。 meteor/meteor 前几年火过一阵,号称要统一前后端,然而我从来没搞明白到底是干啥的,如今热度已经 大减了。HN 上甚至直接有人问 Is meteor.js dead? webpack/webpack 用于打包前端资源 chartjs/Chart.js 前端数据可视化组件 electron 可以使用前端的工具链来编写桌面应用,同时能够跨平台。 jQuery 老牌的跨浏览器兼容库。随着浏览器的发展,现在使用 jQuery 的越来越少了。 create-react-app 用来构造 react app 的辅助工具。 d3.js 前端数据可视化组件 后端工具 elasticsearch 使用 Java 编写的一个搜索工具,要实现全文搜索的话,选择 ES 就对了。 moby Docker 的内核. Docker 可以让你打包应用的所有环境, 像虚拟机一样隔离, 但是又不像虚拟机 一样过多消耗资源. 库 ReactiveX/RxJava TODO 一种编程模式,现在还不是很了解。 机器学习 TensorFlow Google 推出的深度学习库, 目前占主流地位. 语言 Microsoft/TypeScript 微软推出的一个 JavaScript 的超集。我们知道 JavaScript 是一个动态弱类型的语言, 这种特性在小项目上很方便,然而随着前端项目越来越大,强类型对于程序正确性的保证 就显得越来越重要了。TypeScript 重点就在于增强了类型,甚至名字都叫 TypeScript。 强类型的语言是近年来语言的发展趋势,新语言诸如 Rust、Go、Swift 都是强类型的 语言。而一些老语言,比如 Python 也加入了 Type Hint 的功能来增强类型支持。 Apple/swift Apple 推出的新语言,用来代替 Obj-C。 golang Google 推出的编程语言。特点是通过 Goroutine 支持高并发。 nodejs 可以在服务器上运行的 js。 通用工具类 hakimel / reveal.js 使用 js 来做 PPT 的一个框架或者说工具 GoogleChrome/puppeteer Google 推出的操作 Chrome 浏览器的 node.js API。可以用在自动化测试和爬虫等领域。 官方 API 的推出基本上意味着第三方工具已经失去意义了。比如说 Phantom.js 直接宣 布停止维护了。 atom GitHub 推出的一个代码编辑器。 oh-my-zsh zsh 的增强组件集,可以让你的 shell 异常强大, 建议刚学命令行的可以体验一下. vscode 微软推出的代码编辑工具,目前占据了市场优势地位。 Web 框架 rails Ruby 的一个 MVC 模式的 web 框架,当年可谓大红大紫,现在似乎热度有所衰减了, 可能是因为大家都不写 Web 应用了。 expressjs Node.js 的一个 Web 框架。 http://socket.io 实现 WebSocket 的一个库,使用 node.js 编写。WebSocket 是在浏览器和服务器之间 实现全双工通信的一个协议。 laravel 一个比较现代的 PHP MVC web 框架,不过 PHP 这几年的热度衰减也很厉害,好多搞 PHP 的都直接转 Go 了。 内核 torvalds/linux 这个不用说了吧。评论里提到 Linux 的贡献者在 GitHub 上显示为正无穷, 厉害了.
有只黑白猫 2020-01-15 16:53:45 0 浏览量 回答数 0

回答

忘记这茬了,ldconfig,已经解决 ###### 哈, 自问自答.....    话说, friso并没有提供--help文档, 只有一个开发帮助的pdf文档... ###### 引用来自“狮子的魂”的答案 哈, 自问自答.....    话说, friso并没有提供--help文档, 只有一个开发帮助的pdf文档... 我用是会用了,我不知道这玩意具体的使用场景是啥?分词的话搜索引擎都会帮你做了呀。。 ###### 信息检索, 语音合成, 语音识别, 文本自动分类, 机器翻译, 关键字提取....... 其中在信息检索中用的最多, 一般的全文索引组建没有提供中文分词工具, 例如: xapian, zebra等.... 都没有..... 如果是用在php里面的话, 我提供了一个robbe扩展... ###### 另外搜索引擎和全文索引是不一样的: 搜索引擎包括: 网络爬虫, 文档处理(去重...), 全文索引(需要中文分词), 查询接口. 我们通常用的是"全文索引"类库, 只是搜索引擎的一部分, 而这些类库基本都是国外的, 加上中文分词的复杂, 里面一般都没有中文分词的类库, 就像lucene, 自带的不好用... ###### 引用来自“狮子的魂”的答案 信息检索, 语音合成, 语音识别, 文本自动分类, 机器翻译, 关键字提取....... 其中在信息检索中用的最多, 一般的全文索引组建没有提供中文分词工具, 例如: xapian, zebra等.... 都没有..... 如果是用在php里面的话, 我提供了一个robbe扩展... 嗯,受教了,我用的是coreseek,这个是基于俄罗人开发的sphinx的。 我测试了下如果用你开发的这套东西的话,我可以用原生的sphinx了。例如搜索“广州市人民医院”,直接通过robbe 分成“广州市” “人民“ “医院”,然后直接放到sphinx API里去搜,我用的对吗? ###### 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... ###### 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 修改sphinx的话对于我来说现在难度太大了,之前是用shinx_for_chinese,但是这玩意在建立索引的时候就已经把词分好了, 所以才导致这种结果:例如搜“广州市物友电子科技有限公司”可以搜到,但是你搜“广州市物友电子科技有限”就搜不到“广州市物友电子科技有限公司”了。后来我就转coreseek了,这玩意的分词是libmmseg,和你的friso一样都是基于mmseg算法实现的,用的是最新测试版的,在线上运行的时候,--rotate建索引的时候出问题了,貌似是BUG,也查不到个所以然,再说这玩意有些年头没更新了,稳定版还是基于sphinx0.9.9的,回退到这个版本的话API里很多东西都不适用了。现在我看到你开发的这个东西,感觉应该适合我们,这样的话可以用原生的sphinx,我打算好好测试测试,但是你推荐第一种,我用第二种会有问题吗? ###### 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 汗,我的数据量是30W的100倍啊,呵呵。如果mysql能解决的话,就好了。。。 ###### 引用来自“宝仔love”的答案 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 修改sphinx的话对于我来说现在难度太大了,之前是用shinx_for_chinese,但是这玩意在建立索引的时候就已经把词分好了, 所以才导致这种结果:例如搜“广州市物友电子科技有限公司”可以搜到,但是你搜“广州市物友电子科技有限”就搜不到“广州市物友电子科技有限公司”了。后来我就转coreseek了,这玩意的分词是libmmseg,和你的friso一样都是基于mmseg算法实现的,用的是最新测试版的,在线上运行的时候,--rotate建索引的时候出问题了,貌似是BUG,也查不到个所以然,再说这玩意有些年头没更新了,稳定版还是基于sphinx0.9.9的,回退到这个版本的话API里很多东西都不适用了。现在我看到你开发的这个东西,感觉应该适合我们,这样的话可以用原生的sphinx,我打算好好测试测试,但是你推荐第一种,我用第二种会有问题吗? 呵呵……这个当初在robbe-1.0发布的时候我就取用它测试了sphinx0.9.9。效果很好,就是用base64转吗也很高效,但是那时候friso1.0的分词效果还不是很好。现在分词好了搜索的精准度高些了。就是那个相关度排序的问题,不知道转换了base64编码后跟中文的相关度是否与误差!
优选2 2020-06-05 11:37:47 0 浏览量 回答数 0

回答

忘记这茬了,ldconfig,已经解决 ###### 哈, 自问自答.....    话说, friso并没有提供--help文档, 只有一个开发帮助的pdf文档... ###### 引用来自“狮子的魂”的答案 哈, 自问自答.....    话说, friso并没有提供--help文档, 只有一个开发帮助的pdf文档... 我用是会用了,我不知道这玩意具体的使用场景是啥?分词的话搜索引擎都会帮你做了呀。。 ###### 信息检索, 语音合成, 语音识别, 文本自动分类, 机器翻译, 关键字提取....... 其中在信息检索中用的最多, 一般的全文索引组建没有提供中文分词工具, 例如: xapian, zebra等.... 都没有..... 如果是用在php里面的话, 我提供了一个robbe扩展... ###### 另外搜索引擎和全文索引是不一样的: 搜索引擎包括: 网络爬虫, 文档处理(去重...), 全文索引(需要中文分词), 查询接口. 我们通常用的是"全文索引"类库, 只是搜索引擎的一部分, 而这些类库基本都是国外的, 加上中文分词的复杂, 里面一般都没有中文分词的类库, 就像lucene, 自带的不好用... ###### 引用来自“狮子的魂”的答案 信息检索, 语音合成, 语音识别, 文本自动分类, 机器翻译, 关键字提取....... 其中在信息检索中用的最多, 一般的全文索引组建没有提供中文分词工具, 例如: xapian, zebra等.... 都没有..... 如果是用在php里面的话, 我提供了一个robbe扩展... 嗯,受教了,我用的是coreseek,这个是基于俄罗人开发的sphinx的。 我测试了下如果用你开发的这套东西的话,我可以用原生的sphinx了。例如搜索“广州市人民医院”,直接通过robbe 分成“广州市” “人民“ “医院”,然后直接放到sphinx API里去搜,我用的对吗? ###### 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... ###### 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 修改sphinx的话对于我来说现在难度太大了,之前是用shinx_for_chinese,但是这玩意在建立索引的时候就已经把词分好了, 所以才导致这种结果:例如搜“广州市物友电子科技有限公司”可以搜到,但是你搜“广州市物友电子科技有限”就搜不到“广州市物友电子科技有限公司”了。后来我就转coreseek了,这玩意的分词是libmmseg,和你的friso一样都是基于mmseg算法实现的,用的是最新测试版的,在线上运行的时候,--rotate建索引的时候出问题了,貌似是BUG,也查不到个所以然,再说这玩意有些年头没更新了,稳定版还是基于sphinx0.9.9的,回退到这个版本的话API里很多东西都不适用了。现在我看到你开发的这个东西,感觉应该适合我们,这样的话可以用原生的sphinx,我打算好好测试测试,但是你推荐第一种,我用第二种会有问题吗? ###### 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 汗,我的数据量是30W的100倍啊,呵呵。如果mysql能解决的话,就好了。。。 ###### 引用来自“宝仔love”的答案 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 修改sphinx的话对于我来说现在难度太大了,之前是用shinx_for_chinese,但是这玩意在建立索引的时候就已经把词分好了, 所以才导致这种结果:例如搜“广州市物友电子科技有限公司”可以搜到,但是你搜“广州市物友电子科技有限”就搜不到“广州市物友电子科技有限公司”了。后来我就转coreseek了,这玩意的分词是libmmseg,和你的friso一样都是基于mmseg算法实现的,用的是最新测试版的,在线上运行的时候,--rotate建索引的时候出问题了,貌似是BUG,也查不到个所以然,再说这玩意有些年头没更新了,稳定版还是基于sphinx0.9.9的,回退到这个版本的话API里很多东西都不适用了。现在我看到你开发的这个东西,感觉应该适合我们,这样的话可以用原生的sphinx,我打算好好测试测试,但是你推荐第一种,我用第二种会有问题吗? 呵呵……这个当初在robbe-1.0发布的时候我就取用它测试了sphinx0.9.9。效果很好,就是用base64转吗也很高效,但是那时候friso1.0的分词效果还不是很好。现在分词好了搜索的精准度高些了。就是那个相关度排序的问题,不知道转换了base64编码后跟中文的相关度是否与误差!
爱吃鱼的程序员 2020-05-30 14:01:40 0 浏览量 回答数 0

回答

忘记这茬了,ldconfig,已经解决 ###### 哈, 自问自答.....    话说, friso并没有提供--help文档, 只有一个开发帮助的pdf文档... ###### 引用来自“狮子的魂”的答案 哈, 自问自答.....    话说, friso并没有提供--help文档, 只有一个开发帮助的pdf文档... 我用是会用了,我不知道这玩意具体的使用场景是啥?分词的话搜索引擎都会帮你做了呀。。 ###### 信息检索, 语音合成, 语音识别, 文本自动分类, 机器翻译, 关键字提取....... 其中在信息检索中用的最多, 一般的全文索引组建没有提供中文分词工具, 例如: xapian, zebra等.... 都没有..... 如果是用在php里面的话, 我提供了一个robbe扩展... ###### 另外搜索引擎和全文索引是不一样的: 搜索引擎包括: 网络爬虫, 文档处理(去重...), 全文索引(需要中文分词), 查询接口. 我们通常用的是"全文索引"类库, 只是搜索引擎的一部分, 而这些类库基本都是国外的, 加上中文分词的复杂, 里面一般都没有中文分词的类库, 就像lucene, 自带的不好用... ###### 引用来自“狮子的魂”的答案 信息检索, 语音合成, 语音识别, 文本自动分类, 机器翻译, 关键字提取....... 其中在信息检索中用的最多, 一般的全文索引组建没有提供中文分词工具, 例如: xapian, zebra等.... 都没有..... 如果是用在php里面的话, 我提供了一个robbe扩展... 嗯,受教了,我用的是coreseek,这个是基于俄罗人开发的sphinx的。 我测试了下如果用你开发的这套东西的话,我可以用原生的sphinx了。例如搜索“广州市人民医院”,直接通过robbe 分成“广州市” “人民“ “医院”,然后直接放到sphinx API里去搜,我用的对吗? ###### 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... ###### 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 修改sphinx的话对于我来说现在难度太大了,之前是用shinx_for_chinese,但是这玩意在建立索引的时候就已经把词分好了, 所以才导致这种结果:例如搜“广州市物友电子科技有限公司”可以搜到,但是你搜“广州市物友电子科技有限”就搜不到“广州市物友电子科技有限公司”了。后来我就转coreseek了,这玩意的分词是libmmseg,和你的friso一样都是基于mmseg算法实现的,用的是最新测试版的,在线上运行的时候,--rotate建索引的时候出问题了,貌似是BUG,也查不到个所以然,再说这玩意有些年头没更新了,稳定版还是基于sphinx0.9.9的,回退到这个版本的话API里很多东西都不适用了。现在我看到你开发的这个东西,感觉应该适合我们,这样的话可以用原生的sphinx,我打算好好测试测试,但是你推荐第一种,我用第二种会有问题吗? ###### 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 汗,我的数据量是30W的100倍啊,呵呵。如果mysql能解决的话,就好了。。。 ###### 引用来自“宝仔love”的答案 引用来自“狮子的魂”的答案 分词重点用在索引的建立和查询过程. 1. 你可以修改sphinx, 将friso内嵌到sphinx当作默认的分词程序. 然后你的spinx的调用接口不变.... 2. 我先前是将利用robbe分词(因为是给php用), 然后在将切分结果base64编码, 再将编码后的词条使用空格串接起来.  在给sphinx用, sphinx会自动用自带的英文分词程序再切分.. http://my.oschina.net/jcseg/blog/111106 里面的示例代码兴许会有帮助. 最好的办法是第一种(但是, 需要对sphinx设计比较熟悉, 才能很好的将friso嵌入到sphinx作为默认的分词程序), 第二种最简单... 修改sphinx的话对于我来说现在难度太大了,之前是用shinx_for_chinese,但是这玩意在建立索引的时候就已经把词分好了, 所以才导致这种结果:例如搜“广州市物友电子科技有限公司”可以搜到,但是你搜“广州市物友电子科技有限”就搜不到“广州市物友电子科技有限公司”了。后来我就转coreseek了,这玩意的分词是libmmseg,和你的friso一样都是基于mmseg算法实现的,用的是最新测试版的,在线上运行的时候,--rotate建索引的时候出问题了,貌似是BUG,也查不到个所以然,再说这玩意有些年头没更新了,稳定版还是基于sphinx0.9.9的,回退到这个版本的话API里很多东西都不适用了。现在我看到你开发的这个东西,感觉应该适合我们,这样的话可以用原生的sphinx,我打算好好测试测试,但是你推荐第一种,我用第二种会有问题吗? 呵呵……这个当初在robbe-1.0发布的时候我就取用它测试了sphinx0.9.9。效果很好,就是用base64转吗也很高效,但是那时候friso1.0的分词效果还不是很好。现在分词好了搜索的精准度高些了。就是那个相关度排序的问题,不知道转换了base64编码后跟中文的相关度是否与误差!
爱吃鱼的程序员 2020-06-02 15:03:04 0 浏览量 回答数 0

回答

那啥。我来扯蛋一下。CSS是帮助我们控制网页中的字体大小、页面宽度、页面内容靠左靠右、字体样式、某些网页里区域背景图片、背景颜色、超链接鼠标事件样式、图片居中、文字居中、网页中内容板块间隔等样式(花样)。 所以说,css只能控制人类看到什么东西和看不到什么东西。seo中所谓的隐藏链接就是把链接设置成背景颜色相同(或者隐藏),让人类的眼睛看不到。但却不能阻止搜索引擎爬虫的抓取。 关于屏蔽搜索引擎抓取:1.如果是链接,你可以用上 nofollow 属性。 signin2.如果是文字,你可以选择 把这个文章做成图片插入到页面 或者 设定一个函数,将文字转换为爬虫等机器无法识别的乱码。比如PHP中就有 antispambot 函数,可以把Email地址转换为乱码(在html模式下会是乱码)。差不多这个意思,你可以自己研究一下。
a123456678 2019-12-02 02:21:24 0 浏览量 回答数 0

回答

Re:回 2楼云代维的帖子 引用第3楼阳光虫草于2016-06-15 14:47发表的 回 2楼云代维的帖子 : 谢谢安慰不少我了 怎木有办法收录bbs.cnsun.cc [url=https://bbs.aliyun.com/job.php?action=topost&tid=285376&pid=796591][/url] 收录是早晚的事,不用太着急,不过你这个站,建议还是做好www主站的内容,别把重心放在论坛上,个人建议。这种行业站还是很有钱途的。 ------------------------- Re:回 4楼云代维的帖子 引用第7楼阳光虫草于2016-06-15 15:02发表的 回 4楼云代维的帖子 : 谢谢你的鼓励,主站感觉没有那么多内容可以做了,原创内容太难了,怎么办,帮我出出主意 [url=https://bbs.aliyun.com/job.php?action=topost&tid=285376&pid=796602][/url] 粘贴复制啊,内容简单改改,不改也可以,但是标题一定要改,而且要改好。 ------------------------- Re:回 10楼云代维的帖子 引用第11楼阳光虫草于2016-06-15 15:16发表的 回 10楼云代维的帖子 : 啊这样也可以啊,那么一个网站只要人看,不需要参与也是可以的吗? 但我看很多行业网站做的风生水起的,还有很多人参与,我也想做成那样的网站,最终走向专业性网站,这样才能拿到风投做产品研发,但相关内容太少了,都是卖产品的信息比较多。 网站有人访问才是最主要的,有没有参与并不是很重要,行业站的广告费很贵的,如果流量做起来会很赚钱,做主站的流量比做论坛的人气要容易些。但是这些好像都和风投没有太大关系,等你把网站做到能拉到疯投的级别,网站本身就已经很能赚钱了。
云代维 2019-12-02 01:46:38 0 浏览量 回答数 0

回答

lz 提的问题没有咋子关联咋。叫人咋个答呀?如果是抓取网页你要了解 socket 和 http 协议。 不过应该有第三方的库。######或许我没表述清楚吧...... 我的意思就是要抓取给定网页的信息。######如果是windows系统,winapi里面有访问http的接口的,取得html后,找个html解析类库即可。另外可以模拟网页上的各种输入事件,比如点击一个按钮。######好的,谢谢我试试看######如果是新手,而且使用Windows平台,直接用微软IE浏览器的COM组建Microsoft Web Browser,ieframe.dll,模拟操作直接运行js。 ######谢谢 我先看看 有不懂的还要继续请教######libcurl######libcurl很猛, 很多人用php来引用它做爬虫, c的例子要是不容易找到就找php的,反正调用原理一样的啦。######我也查到这个第三方类库很强大 但是我发现网上关于这个的讲解和案例不多 请问你有比较好的学习资源么 谢谢..祝新年快乐######去我空间看看,我们有这个软件######这个不就是爬虫吗,就看你用什么工具了,尤其是对动态网页的解析,如果是静态网页的话,python吧,半天搞定######@syj52417 如果真的是想c++的话,单单是获取网页数据,这个好像比较单一吧,起码要前端后端数据库等等######谢谢回复 我知道python搞这个很在行 很简单 我是因为学完c++之后对这个东西感兴趣所以才会想到用c++去做 那么你认为,学完c++之后做一个什么样的项目比较合适? =========================
kun坤 2020-06-06 00:43:43 0 浏览量 回答数 0

回答

Re回楼主布尔凱索的帖子 引用第1楼qilu于2014-12-29 18:44发表的 回 楼主(布尔凱索) 的帖子 : 楼主为什么不在ecs里边进行调试,需要把环境下载到本地调试?能否说明详情说明下需求场景。 [url=http://bbs.aliyun.com/job.php?action=topost&tid=195395&pid=604875][/url] 服务器是用来对外服务的,在服务器上调试,如果不小心宕机了,哪怕恢复回滚的再快也要几分钟是不。而且如果在上面调试,重启web服务,对爬虫和用户和性能都有影响。布置上去的服务就是要稳定运行,不然停停测测,那是当儿戏再刷,不是做事业。
布尔凱索 2019-12-02 01:21:50 0 浏览量 回答数 0

回答

打电话给马云呀, 他很好话的, 你带好硬盘过去就行了. 多大的硬盘? 6TB够了吧? 开什么玩笑, 用东风卡车拉硬盘过来拷..  ######动态加入的也可以取到的。Java环境下的 HtmlUnit ,可以简单理解为是 没有界面的浏览器,它支持运行JavaScript######还是独立于某种技术架构的比较好 —— http://www.oschina.net/p/phantomjs######单品的具体销售数据是无法获取的,但是价格走势是可以通过分析淘宝的页面API接口获取到的。###### 试试神箭手云爬虫平台的淘宝商品信息及评价采集爬虫(按商品搜索关键字)支持云端自动采集,试试监控更新~ 爬虫链接:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=119
爱吃鱼的程序员 2020-06-04 16:49:25 0 浏览量 回答数 0

问题

PHP curl采集防盗链网站乱码问题求助?报错

在采集一个视频资讯网站时发现其用了防盗链和爬虫、禁用cookies会报错,完全模拟采集后全是乱码。 用fillder抓包设置no compression 之后就可以看到正常的HTML代码了,不知道这是社么原理࿰...
爱吃鱼的程序员 2020-06-14 16:21:31 0 浏览量 回答数 1

问题

如何搭建自己的博客,未完待续

     首先为什么要搭建自己的博客?这有三个理由: 1、博客是自己的网络名片,有助于世界的小伙伴们了解你 2、自古以来都是自己的地盘我做主,用现成的只能受制于人 3、运营一个网...
matrixpipi 2019-12-01 21:41:12 9215 浏览量 回答数 4

问题

【开源分享】5期 基于 Go 的分布式管理平台 Crawlab

Crawlab是一款基于 Go 的分布式管理平台。支持 Python、Node.js、Go、Java、PHP 等多种编程语言以及多种爬虫框架 爬虫文件编辑 任务抓取结果 任务日志 定时任务 语言安装 依赖安装 消息...
问问小秘 2020-05-07 13:49:42 106 浏览量 回答数 2

回答

我也不知道###### 是自己写的,模拟登陆这一块,网上有很多教程,可以搜一下看看。主要就是有个prelog  ###### 推荐一个现成可用的: 新浪微博爬虫[按微博昵称爬取] ###### 推荐使用神箭手云爬虫平台的新浪微博爬虫[按微博昵称爬取](网站进阶版)支持云端自动采集,实时更新信息~适合开发者! 爬虫链接:http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=207 ###### ForeSpider,爬微博的所有用户信息都是没有问题的, 现在这软件有免费版,高配版也很便宜。 建议你去查一查。 我之前用它采过豆瓣的全部影评,一天就采了几百万条数据,非常快,而且我只是用笔记本采的,并没有开服务器。可想而知他的强大了。
爱吃鱼的程序员 2020-06-01 13:51:43 0 浏览量 回答数 0

问题

Spider抓取动态内容(JavaScript指向的页面)

PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。 也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),…… 另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问...
a123456678 2019-12-01 20:13:52 872 浏览量 回答数 1

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化