• 关于

    批量数据处理干啥用的

    的搜索结果

回答

正常,这一般都是网络问题 而且只能是分段导入 还不如解析为csv,调用sqlldr。另外用plsqldeveloper直接粘贴excel数据,数万行也毫无压力 java好神奇哦,1.5K就崩溃了。 用npoi处理过10K+的数据没问题哦信息量严重不足 引用来自“北落”的答案 java好神奇哦,1.5K就崩溃了。 用npoi处理过10K+的数据没问题哦回复 @okgood:还没分清什么是平台什么是语言的,说个JB.net这种残废品,怎敢与我java相提并论?我有好方法,把Excel当成数据库,用sql语句查询,用rs.next理论上可以支持很多行 你真神奇呀,java操作execl是一步操作,在把数据保存到数据库是一步操作 你oracle报错肯定是第二步,你看下是不是事物超时了,只要不是内存溢出第一步就没问题 我说你们上面这些人根本没有仔细看楼主的问题所在 通过反射一一读出来保存到list中 看到没,他还小心翼翼的保存到list中,然后再插入,我问一下保存到list中干啥,尼迭代excel的row的时候顺便插入数据库不就行了! 难怪你内存溢出呢! 批量提交,不是一次读完再插入SpringBatch
爱吃鱼的程序员 2020-06-22 17:38:09 0 浏览量 回答数 0

回答

直接把两种文件格式改咯。。。。对文件直接做格式转换。这是最快的方式了。 读个毛,写个毛,直接用C,把excel的文件读到内存。按照数据库表的规则,直接对数据库的已有表文件操作。如果格式没有问题,整块的塞。 别说我SB,这是专业做法。也就是所谓的转码器的工作。######这位同学估计是在说类似access,dbf这种小型数据库吧,可以直接按他的文件格式写,一般这种东西普通人都想到怎么往大型数据库里面导入######膜拜,还能这么搞######直接用C,把excel的文件读到内存。按照数据库表的规则,直接对数据库的已有表文件操作. 我居然没读懂这句话。。。######还有这样的做法,太神了。完全没想到。。。。牛人啊######批量插入: com.jfinal.plugin.activerecord.Db.batch(......)######应该是想要将Excel当数据源select * into ……这样的答案吧。###### @Secret : 看你头像估计是JAVA的,做应用开发的,自然爽。我们做C的,整天就没白天黑夜的在底层折腾这种事情。你们如同豪华油轮上的侍者,虽然服务于民,但多少一样可以看到风景。我们是锅炉房里铲煤的,自然你们不知道昏天黑地里,还有一片火光。。。哈。 ######回复 @布谷鸟 : 桑那用工资??太亏了吧。银行的钱不借,傻哦。。哈。######嗯,你们领工资去桑拿按*摩的时候,我们忙着到银行还信用卡-_-//###### 是java吗? 我只用过jxl.jar包从excel导入数据库,三五万条没问题,太大量的也没有试过。 我是这么做的,先从excel读取一定的数量,比如说100条,批量插入数据库,甚至可以适当的sleep一下释放掉数据库服务器资源,如此往复。 百万条excel数据用jxl不知道会不会报内存溢出,但是可以在运行程序之前,加大jvm内存,应该是可行的。###### 又是小倩风格.  execl文件是啥格式? 好吧, 这个也还可以有资料可以参考 , 毕竟有可以兼容execl的开源软件可以参考.  那数据库表文件呢, 去哪里可以看到oracle的数据文件是啥格式?哪里有这样的资料? ###### 引用来自“中山野鬼”的答案 直接把两种文件格式改咯。。。。对文件直接做格式转换。这是最快的方式了。 读个毛,写个毛,直接用C,把excel的文件读到内存。按照数据库表的规则,直接对数据库的已有表文件操作。如果格式没有问题,整块的塞。 别说我SB,这是专业做法。也就是所谓的转码器的工作。 用 win 的Com 接口, 直接调用 excel的接口, 导出csv 然后 想咋干就咋干 软件就是服务嘛 把Excel 当成工人看待 ###### 引用来自“布谷鸟”的答案 是java吗? 我只用过jxl.jar包从excel导入数据库,三五万条没问题,太大量的也没有试过。 我是这么做的,先从excel读取一定的数量,比如说100条,批量插入数据库,甚至可以适当的sleep一下释放掉数据库服务器资源,如此往复。 百万条excel数据用jxl不知道会不会报内存溢出,但是可以在运行程序之前,加大jvm内存,应该是可行的。 jxl是一个java用于处理小数据量的,而且易于使用的处理excel的类库,但仅限于数据量比较少。因为jxl是将workbook中的整个sheet的内容都加载到内存中来处理的,如果你操作的是getSheets(),那么将把workbook中所有的sheet都加载到内存,然后才处理。所以针对数据量比较大的情况下,还是不要使用jxl。另外他对03之前的支持还可以,之后就不支持了。对于数据量比较小的情况下,可以玩玩,数据量大的情况下可以尝试使用poi. ###### 引用来自“justin_cn”的答案 引用来自“布谷鸟”的答案 是java吗? 我只用过jxl.jar包从excel导入数据库,三五万条没问题,太大量的也没有试过。 我是这么做的,先从excel读取一定的数量,比如说100条,批量插入数据库,甚至可以适当的sleep一下释放掉数据库服务器资源,如此往复。 百万条excel数据用jxl不知道会不会报内存溢出,但是可以在运行程序之前,加大jvm内存,应该是可行的。 jxl是一个java用于处理小数据量的,而且易于使用的处理excel的类库,但仅限于数据量比较少。因为jxl是将workbook中的整个sheet的内容都加载到内存中来处理的,如果你操作的是getSheets(),那么将把workbook中所有的sheet都加载到内存,然后才处理。所以针对数据量比较大的情况下,还是不要使用jxl。另外他对03之前的支持还可以,之后就不支持了。对于数据量比较小的情况下,可以玩玩,数据量大的情况下可以尝试使用poi. From http://www.andykhan.com/jexcelapi/tutorial.html Memory Allocation and Sheet Caching For very large files, it was found that reading in the entire workbook led to horrendous performance. As of version 1.6, it was therefore decided to read in a sheet at a time. Every call to getSheet() frees up all the objects currently allocated in the current sheet and then reads in all the data from the next sheet. This alleviated the problems which previously occurred, but it does however assume that the giant size workbooks are spread over several sheets - if not, performance problems and OutOfMemoryExceptions may still occur.  A consequence of this is that if you are using the API to constantly flick between sheets in a large workbook, then this will result in adverse performance because every call to getSheet is causing ExcelRead to re-read and re-deduce all the data. It is recommended that ,if possible, the client application should do all their processing necessary on one sheet before progressing to the next.  The method getSheets(), which returns an array of all sheets, will still attempt to hold all sheets in memory at the same time. Use of this method for very large spreadsheets is not recommended.  ######直接 copy to啊 load进去啊 转换导入的格式,很快的。 跟 @中山野鬼 那速度差不多。
kun坤 2020-06-08 11:17:45 0 浏览量 回答数 0

回答

SciHub Desktop这个软件的最初两个版本是用 Python + TK 写的 GUI 程序,主要是为了方便广大研究生突破权限下载英文文献。内含多个文献下载数据源,只要输入文献的 DOI 号,回车就可以自动下载文献全文,非常方便,目前仅网盘的下载量就超过了 30 万人次。Tsing:SciHub Desktop 桌面版软件官方发布页面​ zhuanlan.zhihu.com2. HistCite Pro这个软件是基于 HistCite 内核开发的免安装易用版本,使用 Python 对从 Web of Science 数据库中导出的数据文件进行预处理,然后进行文献引文分析,快速分析出某个研究领域最具有价值的文献和作者,目前也得到了数万用户的使用。Tsing:文献引文分析利器 HistCite 详细使用教程暨 HistCite Pro 首发页面​ zhuanlan.zhihu.com3. 上学吧答案神器这款软件是最近才写的,主要实现的是无限制获取上学吧网站上的题目答案(绕过 IP 限制),并实现了自动识别验证码,只用输入某个题目的网址,即可一键获取答案,速度非常快。Tsing:自动识别验证码无限次获取上学吧的题目答案​ zhuanlan.zhihu.com 4. 破解观看中科大网络课堂 由于 本科四年都在科大,所以那时候也写了好多关于科大的脚本(正是因为太喜欢科大了才会去折腾这些哈),虽然目前有些已经失效了,但是还是值得放出来纪念一下的。 中国科学技术大学网络课堂汇集了很多知名教授的授课视频,以及最新的大牛讲座视频,内容相当丰富,但是这些视频只面向校内 IP 开放。后来不小心找到了网站上的一个漏洞,用 Python 写了不到 10 行代码就可以获取真实视频地址,这样就可以在校外看视频了。(这个漏洞目前已经被修复了,大家就不要找我要代码了哈~) 另外还简单写了一个 GUI 界面,打包成 exe 单软件给室友用,都说挺好用的哈。 5. 抓取研究生系统内全部学生姓名学号及选课信息登录中国科学技术大学的研究生综合系统,可以看到每一门课选课的学生姓名和学号,当时就想到做一个这样的系统,输入任何姓名或学号就可以看到他所有的选课信息。 点击每门课的已选人数链接,可以看到所有的选课学生姓名和学号: 下面利用 requests 的模拟登录功能,先获取全部课程的链接,然后逐个抓取所有课程的选课信息。(为了保护学生信息,对程序的关键部分进行了模糊处理。) 这样就获取了一个巨大的 json 文件,里面全都是学生的姓名、学号以及选课信息: 有了这个 json 文件,我们可以写入数据库,也可以直接利用 json 文件来查询: 为了方便其他人使用,基于上面的数据我开发了一个在线查询网站(目前已下线): 输入姓名或者学号都可以直接查询别人的选课信息: 6. 扫描研究生系统上的弱密码用户基于上面获得的研究生学号,很容易利用 Python 批量尝试登录研究生系统,密码就用 123456 这样的弱密码,然后可以获得身份证号码等重要信息。 这样就得到了使用 123456 作为密码的用户信息,所以在此提醒大家一定不要使用弱密码,希望下面的同学早日修改密码。 7. 模拟登录图书馆系统并自动续借以前收到借阅图书到期通知短信,就会运行一下这个程序,然后就自动续借了,这样就可以再看一个月了。不过后来科大图书馆系统升级了,因此这个方法也就失效了。 运行就是这样的,自动续借成功,看到的链接就是每本书的续借链接。 8. 云短信网站上的验证码短信来源分析这个网站提供了很多免费的临时手机号,用这些公用的手机号你可以注册一些好玩的(或者你懂的)网站和APP,而不用担心个人信息的泄露。于是我用 Python 写了一个爬虫脚本,自动翻页抓取了部分短信内容,然后解析出其中的信息来源并分析一下频次,就发现好几个看名字就挺有意思的 APP 压根没有听过呀,看来是时候用短信验证码的方式登录看看去啦~Tsing:Python爬虫:大家用公共的手机号干了啥?​ zhuanlan.zhihu.com 9. 给钓鱼网站批量提交垃圾信息经常会收到含有钓鱼网站链接的短信的,一般都是盗取 QQ 密码的偏多,其实可以使用 Python 来批量给对方的服务器提交垃圾数据(需要先抓包),这样骗子看到信息之后就不知道哪些是真的哪些是假的了,说不定可以解救一部分填了密码的同学。Tsing:偶遇一个钓鱼网站,于是就简单玩了一下...​ zhuanlan.zhihu.com10. 网易云音乐批量下载可以批量下载网易云音乐热歌榜的歌曲,可以自己设定数量,速度非常快。 # 网易云音乐批量下载 # Tsing 2019.03.28 # 首先,找到你要下载的歌曲,用网页版打开,复制链接中的歌曲ID,如:http://music.163.com/#/song?id=476592630 这个链接ID就是 476592630 # 然后将ID替换到链接 http://music.163.com/song/media/outer/url?id=ID.mp3 中的ID位置即可获得歌曲的外链:http://music.163.com/song/media/outer/url?id=476592630.mp3 import requests # 用于获取网页内容的模块 from bs4 import BeautifulSoup # 用于解析网页源代码的模块 header={ # 伪造浏览器头部,不然获取不到网易云音乐的页面源代码。 'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36', 'Referer':'http://93.174.95.27', } link = "http://music.163.com/discover/toplist?id=3778678" # 这是网易云音乐热歌榜的链接(其实是嵌套在网页里面含有歌曲数据的页面框架的真实链接) r = requests.get(link, headers=header) # 通过 requests 模块的 get 方法获取网页数据 html = r.content # 获取网页内容 soup = BeautifulSoup(html, "html.parser") # 通过 BeautifulSoup 模块解析网页,具体请参考官方文档。 songs = soup.find("ul", class_="f-hide").select("a", limit=10) # 通过分析网页源代码发现排行榜中的歌曲信息全部放在类名称为 f-hide 的 ul 中,于是根据特殊的类名称查找相应 ul,然后找到里面的全部 a 标签,限制数量为10,即排行榜的前 10 首歌。
游客bnlxddh3fwntw 2020-04-25 14:35:08 0 浏览量 回答数 0

Quick BI 数据可视化分析平台

2020年入选全球Gartner ABI魔力象限,为中国首个且唯一入选BI产品

问题

MaxCompute百问集锦

大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效...
yq传送门 2019-12-01 20:16:47 2404 浏览量 回答数 1

问题

【Java问答学堂】6期 如何解决消息队列的延时以及过期失效问题?

面试题 如何解决消息队列的延时以及过期失效问题?消息队列满了以后该怎么处理?有几百万消息持续积压几小时,说说怎么解决? 面试官心理分析 你看这问法,其实本质针对的场...
剑曼红尘 2020-04-23 19:55:22 9 浏览量 回答数 1

问题

MaxCompute百问集锦(持续更新20171011)

大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效...
隐林 2019-12-01 20:19:23 38430 浏览量 回答数 18

问题

如何解决消息队列的延时以及过期失效问题?【Java问答学堂】24期

面试题 如何解决消息队列的延时以及过期失效问题?消息队列满了以后该怎么处理?有几百万消息持续积压几小时,说说怎么解决? 面试官心理分析 你看这问法,其实本质针对的场...
剑曼红尘 2020-05-22 19:09:10 7 浏览量 回答数 1

问题

SSH面试题

1.什么是struts2?struts的工作原理? struts2:1)经典的  mvc (Model  View  Controller) 框架                          ...
琴瑟 2019-12-01 21:46:22 3489 浏览量 回答数 0
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板