• 关于

    识别orc

    的搜索结果
  • tesseract-orc 合并识别结果

    在实际使用 tesseract-orc 识别库的时候,初次制作的识别库很有可能识别率不太理想,需要后期慢慢补充 本文演示如何将多个修正过的box文件合并成一个识别库。 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样品图片和修正过的box文件...

    文章 狼人2007 1970-01-01 891浏览量

  • java文字识别技术(亲测,识别率很高)

       java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google。tesseract-ocr 3.0发布,支持中文。不过tesseract-ocr 3.0不是图形化界面的客户端,别人写的...

    文章 优惠码发放 2018-01-19 6221浏览量

  • Alibaba Cloud Linux 2 LTS 快速启动优化实践

    1. 概述 Alibaba Cloud Linux 2(原Aliyun Linux 2,简称Alinux 2)是阿里云操作系统团队基于开源Linux内核4.19 LTS版本打造的一款针对云应用场景的下一代Linux OS发行,不仅提供Linux社区的最新增强功能,在提供云上最佳用户体验的同时,也针...

    文章 飞飞能 2020-04-30 286浏览量

  • Data Lake Analytics: 基于OSS文件自动推断建表

    背景 用户在使用Data Lake Analytics对OSS上的数据建表时,需要预先知道目标文件的格式和schema信息。当目标文件中每条记录对应的列数很多时,需要一个个手动匹配,很不方便。 在新版的Data Lake Analytics中,支持了CREATE EXTERNAL TABLE LI...

    文章 金络 2019-04-19 704浏览量

  • 《Spark与Hadoop大数据分析》一一2.1 Apache Hadoop概述

    本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.1节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点...

    文章 华章计算机 2017-07-03 1917浏览量

  • 国泰君安证券信息技术部总经理俞枫:券商大数据技术及应用

    8月29日,上海国资大数据课题启动仪式暨数据资产技术及金融行业应用沙龙在华东理工大学隆重召开。本次沙龙在上海市国有资产监督管理委员会、上海市经济和信息化委员会、上海市科学技术委员会的指导下,由上海市国有资产信息中心、华东理工大学金融大数据研究中心、上海计算机软件技术开发中心联合主办,畅享网作为媒体...

    文章 玄学酱 2018-03-06 1701浏览量

  • 国泰君安证券信息技术部总经理俞枫:券商大数据技术及应用

    8月29日,上海国资大数据课题启动仪式暨数据资产技术及金融行业应用沙龙在华东理工大学隆重召开。本次沙龙在上海市国有资产监督管理委员会、上海市经济和信息化委员会、上海市科学技术委员会的指导下,由上海市国有资产信息中心、华东理工大学金融大数据研究中心、上海计算机软件技术开发中心联合主办,畅享网作为媒体...

    文章 玄学酱 2018-03-07 3389浏览量

  • 如何用好云原生数据湖?

    一 数据湖的机遇与挑战 数据湖可以很好地帮助企业应对当前数据场景越来越多、数据结构越来越复杂、数据处理的需求越来越多样化的问题。Gartner 2020年发布的报告显示目前已经有39%的用户在使用数据湖,34%的用户考虑在1年内使用数据湖。 从2018年起,阿里云就开始布局数据湖,推出了云原生数...

    文章 茶什i 2020-10-26 1905浏览量

  • Data Lake Analytics中OSS LOCATION的使用说明

    前言 Data Lake Analytic(后文简称 DLA)可以帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。 在查询前,用户需要根据数据文件的格式和内容在DLA中创建一张表。Data Lake Analytics + OSS数据文件格式处理大全 一文...

    文章 金络 2018-08-07 2142浏览量

  • Hadoop大数据平台实战(01):Impala vs Hive的区别

    Hadoop大数据生态系统重要的2个框架Apache Hive和Impala,用于在HDFS和HBase上进行大数据分析。 但Hive和Impala之间存在一些差异--Hadoop生态系统中的SQL分析引擎的竞争。本文中我们会来对比两种技术Impala vs Hive区别? Hive介绍Apac...

    文章 徐雷frank 2019-04-05 2306浏览量

  • Halcon解决方案指南(18)OCR--字符识别

    第18章 光学字符识别_OCR OCR(Optical Character Recongnition)即我们通常意义上讲的光学字符识别。在HALCON中,OCR常被用来分割区域及读取识别图像中的字符含义。 HALCON中提供了一组预先训练好的字体(在安装目录下的ocr文件夹中),这些字体来源于各个...

    文章 笑笑生2019 2019-01-29 3834浏览量

  • SparkSQL在有赞的实践

    前言 有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验...

    文章 邹有福 2019-01-10 7005浏览量

  • C#实现PDF转图片

    最近因为写文献,很保密的那种,想要防止别人复制是ORC图文识别,这里就设计到一个老生长谈的问题了,就是做成图片格式,并且加上干扰码,正弦,余弦,噪点,反射弧什么的统统加上,这样就实现了我们的目的。 之前也有人说用百度文库啊,豆丁啊,之类的方式,但是想想他们处理的还是不够彻底,至少我都有数十种方法获...

    文章 余二五 2017-11-23 1339浏览量

  • 【云周刊】第202期:12亿行代码,阿里巴巴这一年的技术报告和梦想报告

    本期头条 12亿行代码,阿里巴巴这一年的技术报告和梦想报告 78年前,图灵用代码编译出的情报破解系统,让二战至少提前2年结束,挽救了2000万人的生命;50年前,登月科学家敲下的一行关键代码,启动了阿波罗号的着陆,成就了人类的一大步;2019年1月9日,阿里巴巴公布了其2018年度代码报告。点击查...

    文章 场景研读 2019-01-10 3930浏览量

  • 《Spark与Hadoop大数据分析》——2.1 Apache Hadoop概述

    2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理。Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建。Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障。此外,H...

    文章 华章计算机 2017-09-01 1364浏览量

  • 教程:Data Lake Analytics + OSS数据文件格式处理大全

    0. 前言 Data Lake Analytics是Serverless化的云上交互式查询分析服务。用户可以使用标准的SQL语句,对存储在OSS、TableStore上的数据无需移动,直接进行查询分析。 目前该产品已经正式登陆阿里云,欢迎大家申请试用,体验更便捷的数据分析服务。请参考https:/...

    文章 金络 2018-08-07 4535浏览量

  • 四两拨千斤:小巧新秀ClickHouse如何完美支撑史上最强双十一?

    关于云数据库ClickHouse ClickHouse是一款开源的列式分析型数据库,自从2016年开源以来在全世界开源社区内的受欢迎程序逐渐上升,GitHub上Star数目已经超过了Presto、Impala、Greenplum等开源时间更久的老牌经典项目。在国内,ClickHouse也越来越火,...

    文章 louth 2020-11-12 8751浏览量

  • 阿里巴巴大数据技术关键进展及展望

    摘要:2019杭州云栖大会大数据技术专场,由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移,概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍,从引擎优化到 “自动驾驶”,...

    文章 晋恒 2019-10-28 8496浏览量

  • AI加持的阿里云飞天大数据平台技术揭秘

    摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分,一是原创技术优化+系统融合,打破了数据增长和成本增长的线性关系,二是从云原生大数据平台到全域云数仓,阿里开始从原生系统走入到...

    文章 晋恒 2019-10-28 6594浏览量

  • AI加持的阿里云飞天大数据平台技术揭秘

    摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分,一是原创技术优化+系统融合,打破了数据增长和成本增长的线性关系,二是从云原生大数据平台到全域云数仓,阿里开始从原生系统走入到...

    文章 晋恒 2019-10-28 351浏览量

  • Flink 1.11.0 发布,有哪些值得关注的新特性?

    在进入深度解读前,我们先简单了解下社区发布的一般流程,帮助大家更好的理解和参与 Flink 社区的工作。 首先在每个版本的规划初期,会从志愿者中选出 1-2 名作为 release manager。1.11.0 版本我作为中国这边的 release manager,同时还有一名来自 Ververi...

    文章 茶什i 2020-07-14 426浏览量

  • 使用llvm实现一门语言 —— cava

    背景 cava 产生的背景,是由于ha3业务方对插件定制及版本兼容需求,要求我们基于llvm开发一种性能与c++相当的类java脚本语言。 经过我们的调查发现: 可备选项由例如sp上的lua,elasticsearch上的groovy等,但最终得出的结论是现有的脚本语言都不能很好的满足ha3的需求...

    文章 tjmts 2018-03-26 7230浏览量

  • 解决问题 1474 个,Flink 1.11 究竟有哪些易用性上的改善?

    作者 | 王治江,Apache Flink PMC 7月7日,Flink 1.11.0 正式发布了,作为这个版本的 release manager 之一,我想跟大家分享一下其中的经历感受以及一些代表性 feature 的解读。在进入深度解读前,我们先简单了解下社区发布的一般流程,帮助大家更好的理解...

    文章 阿里云实时计算Flink 2020-07-24 2756浏览量

  • Flink + Iceberg 全场景实时数仓的建设实践

    整理|路培杰(Flink 社区志愿者) 摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream AP...

    文章 阿里云实时计算Flink 2021-01-28 992浏览量

  • Flink 与 Hive 的磨合期

    有不少读者反馈,参考上篇文章《Hive 终于等来了 Flink》部署 Flink 并集成 Hive 时,出现一些 bug 以及兼容性等问题。虽已等来,却未可用。所以笔者增加了这一篇文章,作为姊妹篇。 回顾 在上篇文章中,笔者使用的 CDH 版本为 5.16.2,其中 Hive 版本为 1.1.0(...

    文章 阿里云实时计算Flink 2020-05-19 810浏览量

  • 10g TNS 13541 监听错误 tnsping可以但是conn system/manager@mult1.net 报错

    oracle 10g : ORA-12514: TNS:listener does not currently know of service requested in connect descriptor error message: ORA-12514: TNS:listener does...

    文章 白及88 2016-03-11 1838浏览量

  • 案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

    传统大卖场营收持续下滑,必须通过业务创新走出困境   曾经风光无限的零售大型超市业态--大卖场,当初代表先进零售模式进入中国市场,激起零售行业蓬勃发展的大浪潮,但是近年来,随着人们消费方式的巨大转变以及来自电子商务的冲击,传统大卖场的发展发生逆转。传统的零售技术和模式已经无法满足顾客的需求,同时传...

    文章 断木 2020-02-06 1654浏览量

  • Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

    DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到MaxCompute、RDS等,不需要用户提前安装和部署DataX...

    文章 隐林 2018-09-11 8417浏览量

  • 案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

    传统大卖场营收持续下滑,必须通过业务创新走出困境   曾经风光无限的零售大型超市业态--大卖场,当初代表先进零售模式进入中国市场,激起零售行业蓬勃发展的大浪潮,但是近年来,随着人们消费方式的巨大转变以及来自电子商务的冲击,传统大卖场的发展发生逆转。传统的零售技术和模式已经无法满足顾客的需求,同时传...

    文章 包邮 2020-03-02 127浏览量

  • 阿里云云原生数据湖分析DLA重磅发布-数据湖管理,助力企业一站式管理OSS数据湖存储数据

    一、什么是数据湖方案 数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金。一些企业已经构建了自己的云原生数据湖方案,有效解决了业务痛点;还有很多企业在构建或者计划构建自己的数据湖,Gartner...

    文章 云原生数据湖分析DLA 2020-08-20 1930浏览量

1 2 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务