• 关于

    was连接数据库日志数据

    的搜索结果

回答

首先搜了下druid 官网 FAQ https://github.com/alibaba/druid/wiki/常见问题 发现是druid有对连接泄露进行监控处理 https://github.com/alibaba/druid/wiki/连接泄漏监测 https://github.com/alibaba/druid/issues/872 我这边没有配对监控,直接是从日志中看到的,有相应的线程栈信息,可以方便排查。 public DruidPooledConnection getConnectionDirect(long maxWaitMillis) throws SQLException { int notFullTimeoutRetryCnt = 0; DruidPooledConnection poolableConnection; while(true) { while(true) { try { Connection realConnection = poolableConnection.getConnection(); this.discardConnection(realConnection); } else { Connection realConnection = poolableConnection.getConnection(); if(realConnection.isClosed()) { this.discardConnection((Connection)null); } else { if(!this.isTestWhileIdle()) { break; } long currentTimeMillis = System.currentTimeMillis(); long lastActiveTimeMillis = poolableConnection.getConnectionHolder().getLastActiveTimeMillis(); long idleMillis = currentTimeMillis - lastActiveTimeMillis; long timeBetweenEvictionRunsMillis = this.getTimeBetweenEvictionRunsMillis(); if(timeBetweenEvictionRunsMillis <= 0L) { timeBetweenEvictionRunsMillis = 60000L; } if(idleMillis < timeBetweenEvictionRunsMillis) { break; } this.discardConnection(realConnection); } } } if(this.isRemoveAbandoned()) { StackTraceElement[] stackTrace = Thread.currentThread().getStackTrace(); poolableConnection.setConnectStackTrace(stackTrace); poolableConnection.setConnectedTimeNano(); poolableConnection.setTraceEnable(true); Map var21 = this.activeConnections; synchronized(this.activeConnections) { this.activeConnections.put(poolableConnection, PRESENT); } } if(!this.isDefaultAutoCommit()) { poolableConnection.setAutoCommit(false); } return poolableConnection; } 这个连接泄露不会导致OOM,因为druid会去主动detroy这些未关闭的连接,也就是上面日志中的错误信息 现在知道是有数据库连接未关闭,但是代码中并没有去管理数据库连接池,都是交给了Spring去管理的呢,而且不是每个数据库操作都会有问题,而是特定的数据库操作有问题 开启debug日志 2018-01-23 21:08:35,760 DEBUG [org.springframework.data.redis.core.RedisConnectionUtils] - Opening RedisConnection 2018-01-23 21:08:35,761 DEBUG [org.springframework.data.redis.core.RedisConnectionUtils] - Closing Redis Connection 2018-01-23 21:08:35,762 DEBUG [org.mybatis.spring.SqlSessionUtils] - Creating a new SqlSession 2018-01-23 21:08:35,762 DEBUG [org.mybatis.spring.SqlSessionUtils] - SqlSession [org.apache.ibatis.session.defaults.DefaultSqlSession@5ba28a19] was not registered for synchronization because synchronization is not active 2018-01-23 21:08:35,765 DEBUG [org.springframework.jdbc.datasource.DataSourceUtils] - Fetching JDBC Connection from DataSource 2018-01-23 21:08:35,765 DEBUG [org.mybatis.spring.transaction.SpringManagedTransaction] - JDBC Connection [com.taobao.tddl.matrix.jdbc.TConnection@24f6de0] will not be managed by Spring 2018-01-23 21:08:35,766 DEBUG [com.taobao.tddl.group.jdbc.TGroupConnection] - [TDDL] dataSourceIndex=GroupIndex [index=0, failRetry=false], tddl version: 5.1.7 2018-01-23 21:08:35,810 DEBUG [org.mybatis.spring.SqlSessionUtils] - Closing non transactional SqlSession [org.apache.ibatis.session.defaults.DefaultSqlSession@5ba28a19] 2018-01-23 21:08:35,810 DEBUG [org.springframework.jdbc.datasource.DataSourceUtils] - Returning JDBC Connection to DataSource 这里接可以看出阿里的开源软件距离工业级还有距离,Spring的可以清楚的看到连接释放与返回,而Druid并没有 因为这个是和特定的SQL有关系,所有看下具体的这个SQL操作 @Options(statementType = StatementType.CALLABLE) @Insert("<script> " + "</script>") int saveDemo(Demo demo); 这个是之前人留下的,这种写法目前在项目组不是很常见了,没有实现代码与SQL语句分离,不是很提倡。 这边的StatementType为Callable,看起来比奇怪,一般CallableStatement由于数据库存储过程的操作,显然这个语句不是这么调用存储过程。不知道前任为什么这么写,所以首先干掉了这个StatementType.CALLABLE参数。 结果果然出错了,调用的时候报错,一个好笑的错误,没有使用auto generate id,却调用了。 这个应该是MySQL 5.7 driver的一个bug,前任为了避免这个问题,使用CallableStatement绕过去了 Caused by: Generated keys not requested. You need to specify Statement.RETURN_GENERATED_KEYS to Statement.executeUpdate() or Connection.prepareStatement(). at com.taobao.tddl.repo.mysql.handler.PutMyHandlerCommon.handle(PutMyHandlerCommon.java:52) at com.taobao.tddl.executor.AbstractGroupExecutor.executeInner(AbstractGroupExecutor.java:59) at com.taobao.tddl.executor.AbstractGroupExecutor.execByExecPlanNode(AbstractGroupExecutor.java:40) at com.taobao.tddl.executor.TopologyExecutor.execByExecPlanNode(TopologyExecutor.java:59) at com.taobao.tddl.executor.MatrixExecutor.execByExecPlanNode(MatrixExecutor.java:282) 所以先改成xml方式验证下,xml默认是PreparedStatement,然后看下是否还能发生错误 发现没有了,所以问题的原因就是CallableStatement造成的
保持可爱mmm 2020-04-15 23:11:09 0 浏览量 回答数 0

问题

技术运维问题 - MYSQL使用 -迁入RDS后为什么数据库变慢的分析

为什么我的RDS 突然变慢了?相信不少客户在使用RDS 中经常遇到的头疼问题。下面我将通过[size=; font-size: 10pt,10pt] 真实案例 来分析一下用户在使用RDS 中慢的原因: ...
李沃晟 2019-12-01 21:43:13 986 浏览量 回答数 0

回答

12月17日更新 请问下同时消费多个topic的情况下,在richmap里面可以获取到当前消息所属的topic吗? 各位大佬,你们实时都是怎样重跑数据的? 有木有大神知道Flink能否消费多个kafka集群的数据? 这个问题有人遇到吗? 你们实时读取广业务库到kafka是通过什么读的?kafka connector 的原理是定时去轮询,这样如果表多了,会不会影响业务库的性能?甚至把业务库搞挂? 有没有flink 1.9 连接 hive的例子啊?官网文档试了,没成功 请问各位是怎么解决实时流数据倾斜的? 请问一下,对于有状态的任务,如果任务做代码升级的时候,可否修改BoundedOutOfOrdernessTimestampExtractor的maxOutOfOrderness呢?是否会有影响数据逻辑的地方呢? 老哥们有做过统计从0点开始截止到现在时刻的累计用户数吗? 比如五分钟输出一次,就是7点输出0点到7点的累计用户,7:05输出0点到7:05的累计用户。 但是我这里有多个维度,现在用redis来做的。 想知道有没有更好的姿势? 实时数仓用什么存储介质来存储维表,维表有大有小,大的大概5千万左右。 各位大神有什么建议和经验分享吗? 请教个问题,就是flink的窗口触发必须是有数据才会触发吗?我现在有个这样的需求,就是存在窗口内没有流数据进入,但是窗口结束是要触发去外部系统获取上一个窗口的结果值作为本次窗口的结果值!现在没有流数据进入窗口结束时如何触发? kafkaSource.setStartFromTimestamp(timestamp); 发现kafkasource从指定时间开始消费,有些topic有效,有效topic无效,大佬们有遇到过吗? 各位大佬,flink两个table join的时候,为什么打印不出来数据,已经赋了关联条件了,但是也不报错 各位大佬 请教一下 一个faile的任务 会在这里面存储展示多久啊? 各位大佬,我的程序每五分钟一个窗口做了基础指标的统计,同时还想统计全天的Uv,这个是用State就能实现吗? 大佬们,flink的redis sink是不是只适用redis2.8.5版本? 有CEP 源码中文注释的发出来学习一下吗? 有没有拿flink和tensorflow集成的? 那位大神,给一个java版的flink1.7 读取kafka数据,做实时监控和统计的功能的代码案例。 请问下风控大佬,flink为风控引擎做数据支撑的时候,怎么应对风控规则的不断变化,比如说登录场景需要实时计算近十分钟内登录次数超过20次用户,这个规则可能会变成计算近五分钟内登录次数超过20次的。 想了解一下大家线上Flink作业一般开始的时候都分配多少内存?广播没办法改CEP flink支持多流(大于2流)join吗? 谁能帮忙提供一下flink的多并行度的情况下,怎么保证数据有序 例如map并行度为2 那就可能出现数据乱序的情况啊 请教下现在从哪里可以可以看单任务的运行状况和内存占用情况,flink页面上能看单个任务的内存、cpu 大佬们 flink1.9 停止任务手动保存savepoint的命令是啥? flink 一个流计算多个任务和 还是一个流一个任务好? flink 1.9 on yarn, 自定义个connector里面用了jni, failover以后 就起不来了, 报错重复load so的问题。 我想问一下 这个,怎么解决。 难道flink 里面不能用jni吗。 ide里面调试没有问题,部署到集群就会报错了,可能什么问题? 请教一下对于长时间耗内存很大的任务,大家都是开checkpoint机制,采用rocksdb做状态后端吗? 请问下大佬,flink jdbc读取mysql,tinyin字段类型自动转化为Boolean有没有好的解决方法 Flink 1.9版本的Blink查询优化器,Hive集成,Python API这几个功能好像都是预览版,请问群里有大佬生产环境中使用这些功能了吗? 想做一个监控或数据分析的功能,如果我flink 的datastreaming实现消费Kafka的数据,但是我监控的规则数据会增加或修改,但是不想停这个正在运行的flink程序,要如何传递这个动态变化的规则数据,大神给个思路,是用ConnectedStream这个吗?还是用Broadcast ?还有一个,比如我的规则数据是存放在Mysql表中,用什么事件隔30秒去触发读取mysql规则表呢?谢谢! 想做一个监控或数据分析的功能,如果我flink 的datastreaming实现消费Kafka的数据,但是我监控的规则数据会增加或修改,但是不想停这个正在运行的flink程序,要如何传递这个动态变化的规则数据,大神给个思路,是用ConnectedStream这个吗?还是用Broadcast ?还有一个,比如我的规则数据是存放在Mysql表中,用什么事件隔30秒去触发读取mysql规则表呢?谢谢! 各位大佬,在一个 Job 计算过程中,查询 MySQL 来补全额外数据,是一个好的实践嘛?还是说流处理过程中应该尽量避免查询额外的数据? Flink web UI是jquery写的吗? 12月9日更新 成功做完一次checkpoint后,会覆盖上一次的checkpoint吗? 数据量较大时,flink实时写入hbase能够异步写入吗? flink的异步io,是不是只是适合异步读取,并不适合异步写入呀? 请问一下,flink将结果sink到redis里面会不会对存储的IO造成很大的压力,如何批量的输出结果呢? 大佬们,flink 1.9.0版本里DataStream api,若从kafka里加载完数据以后,从这一个流中获取数据进行两条业务线的操作,是可以的吗? flink 中的rocksdb状态怎么样能可视化的查看有大佬知道吗? 感觉flink 并不怎么适合做hive 中的计算引擎来提升hive 表的查询速度 大佬们,task端rocksdb状态 保存路径默认是在哪里的啊?我想挂载个新磁盘 把状态存到那里去 flink 的state 在窗口滑动到下一个窗口时候 上一个窗口销毁时候 state会自己清除吗? 求助各位大佬,一个sql里面包含有几个大的hop滑动窗口,如15个小时和24个小时,滑动步长为5分钟,这样就会产生很多overlap 数据,导致状态会很快就达到几百g,然后作业内存也很快达到瓶颈就oom了,然后作业就不断重启,很不稳定,请问这个业务场景有什么有效的解决方案么? 使用jdbcsink的时候,如果连接长时间不使用 就会被关掉,有人遇到过吗?使用的是ddl的方式 如何向云邪大佬咨询FLink相关技术问题? 请问各位公司有专门开发自己的实时计算平台的吗? 请问各位公司有专门开发自己的实时计算平台的吗? 有哪位大佬有cdh集成安装flink的文档或者手册? 有哪位大佬有cdh集成安装flink的文档或者手册? 想问下老哥们都是怎么统计一段时间的UV的? 是直接用window然后count嘛? Flink是不是也是这样的? 请问现在如有个实时程序,根据一个mysql的维表来清洗,但是我这个mysql表里面就只有几条信息且可能会变。 我想同一个定时器去读mysql,然后存在对象中,流清洗的时候读取这个数据,这个想法可行吗?我目前在主类里面定义一个对象,然后往里面更新,发现下面的map方法之类的读不到我更新进去的值 有大佬做过flink—sql的血缘分析吗? 12月3日更新 请教一下,为什么我flume已经登录成功了keytab认证的kafka集群,但是就是消费不到数据呢? flink 写入mysql 很长一段时间没有写入,报错怎么解决呢? flink timestamp转换为date类型,有什么函数吗 Run a single Flink job on YARN 我采用这种模式提交任务,出现无法找到 开启 HA 的ResourceManager Failed to connect to server: xxxxx:8032: retries get failed due to exceeded maximum allowed retries number: 0 有大佬遇到过吗 ? 各位大佬,请问有Flink写S3的方案吗? flink 连接hbase 只支持1.4.3版本? onnector: type: hbase version: "1.4.3" 请问 flink1.9能跑在hadoop3集群上吗? 滑动窗口 排序 报错这个是什么原因呢? 这个pravega和kafka有啥区别? flink 开发里数据源配置了RDS,但是在RDS里没有看到创建的表,是为什么呢? Tumbling Window里的数据,是等窗口期内的数据到齐之后一次性处理,还是到了一条就处理一条啊 双流join后再做time window grouping. 但是双流join会丢失时间属性,请问大家如何解决 stream processing with apache flink,这本书的中译版 现在可以买吗? flink on yarn时,jm和tm占用的内存最小是600M,这个可以修改吗? 各位大佬,使用默认的窗口Trigger,在什么情况下会触发两次啊?窗口关闭后,然后还来了这个窗口期内的数据,并且开了allowedLateness么? flink web里可以像storm那样 看每条数据在该算子中的平均耗时吗? 各位大佬,flink任务的并发数调大到160+以后,每隔几十分钟就会出现一次TM节点连接丢失的异常,导致任务重启。并发在100时运行比较稳定,哪位大佬可以提供下排查的思路? 感觉stateful function 是下一个要发力的点,这个现在有应用案例吗? 我有2个子网(a子网,b子网)用vpn联通,vpn几周可能会断一次。a子网有一个kafka集群,b子网运行我自己的flink集群和应用,b子网的flink应用连接到a子网的kafka集群接收消息来处理入库到数仓去。我的问题是,如果vpn断开,flink consumer会异常整个作业退出吗?如果作业退出,我重连vpn后,能从auto checkpoint再把flink应用恢复到出错时flink kafka consumer应该读取的partition/offset位置吗?flink的checkpoint除了保存自己开发的算子里的state,kafkaconsumer里的partition/offset也会保存和恢复吗? flink的反压为什么不加入metrics呢 hdfs是不是和flink共用一个集群? flink消费kafka,可以从指定时间消费的吗?目前提供的接口只是根据offset消费?有人知道怎么处理? flink 的Keyby是不是只是repartition而已?没有将key相同的数据放到一个组合里面 电商大屏 大家推荐用什么来做吗? 我比较倾向用数据库,因为有些数据需要join其他表,flink充当了什么角色,对这个有点迷,比如统计当天订单量,卖了多少钱,各个省的销量,销售金额,各个品类的销售量销售金额 开源1.9的sql中怎么把watermark给用起来,有大神知道吗? 有没有人能有一些flink的教程 代码之类的分享啊 采用了checkpoint,程序停止了之后,什么都不改,直接重启,还是能接着继续运行吗?如果可以的话,savepoint的意义又是什么呢? 有人做过flink 的tpc-ds测试吗,能不能分享一下操作的流程方法 checkpoint是有时间间隔的,也就可以理解为checkpoint是以批量操作的,那如果还没进行ckecnpoint就挂了,下次从最新的一次checkpoint重启,不是重复消费了? kafka是可以批量读取数据,但是flink是一条一条处理的,应该也可以一条一条提交吧。 各位大佬,flink sql目前是不是不支持tumbling window join,有人了解吗? 你们的HDFS是装在taskmanager上还是完全分开的,请问大佬们有遇到这种情况吗? 大佬们flink检查点存hdfs的话怎么自动清理文件啊 一个128M很快磁盘就满了 有谁遇到过这个问题? 请教一下各位,这段代码里面,我想加一个trigger,实现每次有数据进window时候,就输出,而不是等到window结束再输出,应该怎么加? 麻烦问下 flink on yarn 执行 客户端启动时 报上面错,是什么原因造成的 求大佬指点 ERROR org.apache.flink.client.program.rest.RestClusterClient - Error while shutting down cluster java.util.concurrent.ExecutionException: org.apache.flink.runtime.concurrent.FutureUtils$RetryException: Could not complete the operation. Number of retries has been exhausted. 大家怎么能动态的改变 flink WindowFunction 窗口数据时间 flink on yarn之后。yarn的日志目录被写满,大家如配置的? Flink1.9 启动 yarn-session报这个错误 怎么破? yarn 模式下,checkpoint 是存在 JobManager的,提交任务也是提交给 JobManager 的吧? heckpoint机制,会不会把window里面的数据全部放checkpoint里面? Flink On Yarn的模式下,如果通过REST API 停止Job,并触发savepiont呢 jenkins自动化部署flink的job,一般用什么方案?shell脚本还是api的方式? 各位大佬,开启增量checkpoint 情况下,这个state size 是总的checkpoint 大小,还是增量上传的大小? 想用状态表作为子表 外面嵌套窗口 如何实现呢 因为状态表group by之后 ctime会失去时间属性,有哪位大佬知道的? 你们有试过在同样的3台机器上部署两套kafka吗? 大家有没有比较好的sql解析 组件(支持嵌套sql)? richmapfuntion的open/close方法,和处理数据的map方法,是在同一个线程,还是不同线程调用的? flink on yarn 提交 参数 -p 20 -yn 5 -ys 3 ,我不是只启动了5个container么? Flink的乱序问题怎么解决? 我对数据流先进行了keyBy,print的时候是有数据的,一旦进行了timeWindow滑动窗口就没有数据了,请问是什么情况呢? 搭建flinksql平台的时候,怎么处理udf的呀? 怎么查看sentry元数据里哪些角色有哪些权限? 用java api写的kafka consumer能消费到的消息,但是Flink消费不到,这是为啥? 我state大小如果为2G左右 每次checkpoint会不会有压力? link-table中的udaf能用deltaTrigger么? flink1.7.2,场景是一分钟为窗口计算每分钟传感器的最高温度,同时计算当前分钟与上一分钟最高温 001 Flink集群支持kerberos认证吗?也就是说flink客户端需要向Flink集群进行kerberos认证,认证通过之后客户端才能提交作业到Flink集群运行002 Flink支持多租户吗? 如果要对客户端提交作业到flink进行访问控制,你们有类似的这种使用场景吗? flink可以同时读取多个topic的数据吗? Flink能够做实时ETL(oracle端到oracle端或者多端)么? Flink是否适合普通的关系型数据库呢? Flink是否适合普通的关系型数据库呢? 流窗口关联mysql中的维度表大佬们都是怎么做的啊? 怎么保证整个链路的exactly one episode精准一次,从source 到flink到sink? 在SQL的TUMBLE窗口的统计中,如果没数据进来的,如何让他也定期执行,比如进行count计算,让他输出0? new FlinkKafkaConsumer010[String]("PREWARNING",new JSONKeyValueDeserializationSchema(true), kafkaProps).setStartFromGroupOffsets() ) 我这样new 它说要我传个KeyedDeserializationSchema接口进去 flink里面broadcast state想定时reload怎么做?我用kafka里的stream flink独立模式高可用搭建必需要hadoop吗? 有人用增量cleanupIncrementally的方式来清理状态的嘛,感觉性能很差。 flink sink to hbase继承 RichOutputFormat运行就报错 kafka 只有低级 api 才拿得到 offset 吗? 有个问题咨询下大家,我的flinksql中有一些参数是要从mysql中获取的,比如我flink的sql是select * from aa where cc=?,这个问号的参数需要从mysql中获取,我用普通的jdbc进行连接可以获的,但是有一个问题,就是我mysql的数据改了之后必须重启flink程序才能解决这个问题,但这肯定不符合要求,请问大家有什么好的办法吗? flink里怎样实现多表关联制作宽表 flink写es,因为半夜es集群做路由,导致写入容易失败,会引起source的反压,然后导致checkpoint超时任务卡死,请问有没有办法在下游es处理慢的时候暂停上游的导入来缓解反压? flink 写parquet 文件,使用StreamingFileSink streamingFileSink = StreamingFileSink.forBulkFormat( new Path(path), ParquetAvroWriters.forReflectRecord(BuyerviewcarListLog.class)). withBucketAssigner(bucketAssigner).build(); 报错 java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS and for Hadoop version 2.7 or newer 1.7.2 NoWindowInnerJoin这个实现,我看实现了CleanupState可更新过期时间删除当前key状态的接口,是不是这个1.7.2版本即使有个流的key一直没有被匹配到他的状态也会被清理掉,就不会存在内存泄漏的问题了? flink1.7.2 想在Table的UDAF中使用State,但是发现UDAF的open函数的FunctionContext中对于RuntimeContext是一个private,无法使用,大佬,如何在Table的UDAF中使用State啊? Flink有什么性能测试工具吗? 项目里用到了了KafkaTableSourceSinkFactory和JDBCTableSourceSinkFactory。maven打包后,META-INF里只会保留第一个 标签的org.apache.flink.table.factories.TableFactory内容。然后执行时就会有找不到合适factory的报错,请问有什么解决办法吗? 为什么这个这段逻辑 debug的时候 是直接跳过的 各位大佬,以天为单位的窗口有没有遇到过在八点钟的时候会生成一条昨天的记录? 想问一下,我要做一个规则引擎,需要动态改变规则,如何在flink里面执行? flink-1.9.1/bin/yarn-session.sh: line 32: construc 我要用sql做一个规则引擎,需要动态改变规则,如何在flink里面执行? 我要用sql做一个规则引擎,需要动态改变规则,如何在flink里面执行? 一般公司的flink job有没有进程进行守护?有专门的工具或者是自己写脚本?这种情况针对flink kafka能不能通过java获取topic的消息所占空间大小? Flink container was removed这个咋解决的。我有时候没有数据的时候也出现这 大家有没有这种场景,数据从binlog消费,这个信息是订单信息,同一个订单id,会有不同状态的变更 问大家个Hive问题,新建的hive外部分区表, 怎么把HDFS数据一次性全部导入hive里 ? flink里面的broadcast state值,会出现broad流的数据还没put进mapstat Flink SQL DDL 创建表时,如何定义字段的类型为proctime? 请问下窗口计算能对历史数据进行处理吗?比如kafka里的写数据没停,窗口计算的应用停掉一段时间再开起 请问下,想统计未退费的订单数量,如果一个订单退费了(发过来一个update流),flink能做到对结果进行-1吗,这样的需求sql支持吗? 使用Flink sql时,对table使用了group by操作。然后将结果转换为流时是不是只能使用的toRetractStream方法不能使用toAppendStream方法。 百亿数据实时去重,有哪位同学实践过吗? 你们的去重容许有误差?因为bloom filter其实只能给出【肯定不存在】和【可能存在】两种结果。对于可能存在这种结果,你们会认为是同一条记录? 我就运行了一个自带的示例,一运行就报错然后web页面就崩了 flink定时加载外部数据有人做过吗? NoSuchMethodError: org.apache.flink.api.java.Utils.resolveFactory(Ljava/lang/ThreadLocal;Ljava/lang/Object;)Ljava/util/Optional 各位知道这个是那个包吗? flink 可以把大量数据写入mysql吗?比如10g flink sql 解析复杂的json可以吗? 在页面上写规则,用flink执行,怎么传递给flink? 使用cep时,如何动态添加规则? 如何基于flink 实现两个很大的数据集的交集 并集 差集? flink的应用场景是?除了实时 各位好,请教一下,滑动窗口,每次滑动都全量输出结果,外部存储系统压力大,是否有办法,只输出变化的key? RichSinkFunction close只有任务结束时候才会去调用,但是数据库连接一直拿着,最后成了数据库连接超时了,大佬们有什么好的建议去处理吗?? 为啥我的自定义函数注册,然后sql中使用不了? 请问一下各位老师,flink flapmap 中的collector.collect经常出现Buffer pool is destroyed可能是什么原因呢? 用asyncIO比直接在map里实现读hbase还慢,在和hbase交互这块儿,每个算子都加了时间统计 请教一下,在yarn上运行,会找不到 org.apache.flink.streaming.util 请问下大佬,flink1.7.2对于sql的支持是不是不怎么好啊 ,跑的数据一大就会报错。 各位大佬,都用什么来监控flink集群? flink 有那种把多条消息聚合成一条的操作吗,比如说每五十条聚合成一条 如何可以让checkpoint 跳过对齐呢? 请问 阿里云实时计算(Blink)支持这4个源数据表吗?DataHub Kafka MQ MaxCompute? 为啥checkpoint时间会越来越长,请问哪位大佬知道是因为啥呢? 请问Flink的最大并行度跟kafka partition数量有关系吗? source的并行度应该最好是跟partition数量一致吧,那剩下的算子并行度呢? Flink有 MLIB库吗,为什么1.9中没有了啊? 请教一下,有没有flink ui的文章呢?在这块内存配置,我给 TM 配置的内存只有 4096 M,但是这里为什么对不上呢?请问哪里可以看 TM 内存使用了多少呢? 请教个问题,fink RichSinkFunction的invoke方法是什么时候被调用的? 请教一下,flink的window的触发条件 watermark 小于 window 的 end_time。这个 watermark 为什么是针对所有数据的呢?没有设计为一个 key 一个 watermark 呢? 就比如说有 key1、key2、key3,有3个 watermark,有 3个 window interval不支持left join那怎么可以实现把窗口内左表的数据也写到下游呢? 各位 1、sink如何只得到最终的结果而不是也输出过程结果 ;2、不同的运算如何不借助外部系统的存储作为另外一个运算的source 请教各位一个问题,flink中设置什么配置可以取消Generic这个泛型,如图报错: 有大佬在吗,线上遇到个问题,但是明明内存还有200多G,然后呢任务cancel不了,台也取消不了程序 flink遇到The assigned slot container_1540803405745_0094_01_000008_1 was removed. 有木有大佬遇到过。在flink on yarn上跑 这个报错是什么意思呢?我使用滑动窗口的时候出现报错 flink 双流union状态过期不清理有遇到的吗? 大家有没有这种场景,数据从binlog消费,这个信息是订单信息,同一个订单id,会有不同状态的变更,如果订单表与商品明细join查询,就会出现n条重复数据,这样数据就不准了,flink 这块有没有比较好的实战经验的。 大佬们、有没有人遇到过使用一分钟的TumblingEventTimeWindows,但是没有按时触发窗口、而是一直等到下一条消息进来之后才会把这个窗口的数据发送出去的? flink 有办法 读取 pytorch的 模型文件吗? 大佬们、有没有人遇到过使用一分钟的TumblingEventTimeWindows,但是没有按时触发窗口、而是一直等到下一条消息进来之后才会把这个窗口的数据发送出去的? flink timestamp转换为date类型,有什么函数吗 flink 写入mysql 很长一段时间没有写入,报错怎么解决呢? flink 有办法 读取 pytorch的 模型文件吗? 有没有大佬知道实时报表怎么做?就是统计的结果要实时更新,热数据。 刚接触flink 1.9 求问flink run脚本中怎么没有相关提交到yarn的命令了 请教一下,flink里怎么实现batch sink的操作而不导致数据丢失
问问小秘 2019-12-02 03:19:17 0 浏览量 回答数 0

Quick BI 数据可视化分析平台

2020年入选全球Gartner ABI魔力象限,为中国首个且唯一入选BI产品

问题

个别表运行更新语句mysql服务停止怎么解决

地数据库上运行sql语句,有的几个表一运行更新语句就断开连接、sql服务终止,其他的表没问题,出错的表结构也没问题,把我的数据库备份到其他的电脑上也没出错,我以前试的,有个表是条件是主键就出这个错误--sql服务停止,但是where条件是其...
蛮大人123 2019-12-01 19:48:35 2586 浏览量 回答数 1

问题

mysql 每半个小crash一次,求解读日志

日志如下:130420 10:06:42 - mysqld got signal 11 ;This could be because you hit a bug. It is also possible that this binaryor...
落地花开啦 2019-12-01 19:53:16 1273 浏览量 回答数 1

问题

Web测试方法

在Web工程过程中,基于Web系统的测试、确认和验收是一项重要而富有挑战性的工作。基于Web的系统测试与传统的软件测试不同,它不但需要检查和验证是否按照设计的要求运行,而且还要测试系统在不同用户的浏...
技术小菜鸟 2019-12-01 21:41:32 7022 浏览量 回答数 1

回答

公共错误码 更新时间:2020-03-20 14:55:04 编辑 我的收藏 HttpCode 错误码 错误信息 描述 400 AppCategoryNotMatchWithStacks The application type declared in the application does not match the type of the software stack. Please make sure that the types are consistent and then try again. 应用中所声明的应用类型与软件栈中的应用类型不匹配,需要确保两边一致后再进行重试。 403 AppDeleteNotAllowed You cannot delete this application. Make sure that all deployment environments in this application are terminated. 不允许删除该应用,如果该应用下有部署环境,需要确保所有环境均处于“已释放”状态才能删除应用,请检查对应环境的状态后重试。 400 AppMismatch The application specified does not match the application of source object. 指定的部署环境名与源部署环境的模板不属于同一个应用。 400 AppNameUsed The specified application name already exists in this region. Enter another application name. 创建应用时所使用的应用名称已被占用,请更换应用名称后重试。应用名在不同的地域下可重名。 400 AppNotExist A corresponding application was not found based on the application ID. 根据应用ID没有找到对应的应用。 404 AppPackageNotExists An application deployment package is required to create or update a deployment environment. For the first time of using WebPlus, we recommend that you use a sample project. 创建或更新一个部署环境时,请选择正确的应用部署包。当您首次使用Web+时,可以选择示例部署包来体验。 400 AppPackageOwnedByOthers The version of the application package used must be consistent with the application to which the environment belongs. 当创建或更新一个环境的版本信息时,所使用的应用部署包版本必须与环境所属的应用一致。 400 AppPackageOwnedByOthers The version of the deployment package used must be consistent with the application to which the environment belongs. 当创建或更新一个环境的版本信息时,所使用的应用部署包版本必须与环境所属的应用一致。 400 AppUpdateFailed An error occurred while updating application records. The application may have been deleted or the parameters may be invalid. 更新应用记录失败,有可能此应用已经被删除或参数有误。 401 AuthMissingEntityid The specified request object (application, environment, instance, change, software version, or template) ID does not exist. 请求实体(应用/环境/实例/变更/软件版本/模版)的 ID 不存在,请求非法。 401 AuthMissingUid The request is invalid. The primary account AliyunUID does not exist. 主账号ID不存在,请求非法。 400 BadRequest The specified request is invalid. It may contain invalid values, characters, or enumerated values. 请求不合法,可能请求中含有非法的数值、字符、或不符合定义的枚举值等。 404 CategoryNotExists The specified application category does not exist. 根据所使用的应用类型名称没有找到对应的记录,可能是配置错误或参数错误。 400 ChangeActionNameInvalid The specified change name is invalid. Valid values: Apply, RestartApp, StopApp, StartApp, ReloadProxy, Termination, GatherLog, and GatherStats. 变更名称枚举不合法,该枚举的取值范围为:Apply, RestartApp, StopApp, StartApp, ReloadProxy, Termination, GatherLog, GatherStats 。 400 ChangeFinished An error occurred while stopping the change. The change is already complete. 放弃变更失败,因为此次变更已经完成。 404 ChangeNotExists The change record could not be found based on the change ID specified, please double confirm the resource is still exists. 无法根据所指定的变更ID找到变更记录,该记录可能被删除或传入的参数有误。 400 ChangeOnAborting The change is being canceled. Please do not cancel again. 变更正在被中止,请勿重复操作。 400 ChangingAReadonlyConfig An error occurred while modifying the configuration. You cannot modify a read-only configuration. 更新配置失败,您不能对设置为只读的配置进行修改。 400 ConfigExists An error occurred while initializing the environment. The corresponding configuration template already exists. The change is terminated to prevent the existing configuration from being flushed. 初始化环境失败,在初始化环境的配置时,所对应的环境或者模版已经存在相应的配置,为防止覆盖已有的配置,先终止此次变更。 404 ConfigIdxNotExists The configuration index entry does not exist. 配置索引项没有找到。 404 ConfigOptionNotExists An error occurred while updating the configuration. The system did not locate the configuration item declared by the key. 更新配置失败,没能找到对应的Key所声明的配置项。 400 ConfigParamInvalid The request for obtaining the value of configuration index is invalid. Specify either the environment ID or the software stack ID. 获取配置索引的值的请求不合法,环境ID和软件栈ID必须存在一项。 400 ConfigParsingFailed An error occurred while extracting the corresponding item from the configuration. Please check the configuration and try again. 从配置中抽取出对应项时,出现解析参数项的配置;请认真核对配置,修正后重试。 400 ConfigValidationParamInvalid You must specify at least one of the following parameters: software stack ID, template ID, and environment ID. 校验配置失败,软件栈ID、模版ID、环境ID必须存在一项。 400 CreateCommandFailed The creation of the cloud assistant command failed. Please check if the cloud assistant's command exceeds the limit. 创建云助手命令失败,请检查云助手的命令是否超过限制。 404 DefaultVpcNotExists The default VPC in the current Region does not exist. You can manually create a VPC instance on the console and try again. 没有发现该用户对应地域下的默认VPC,您可通过控制台手动创建一个VPC后重试。 404 DefaultVswitchNotExists The default VSwitch is not found under the corresponding VPC. You can manually specify a VSwitch ID or create a new one through the console and try again. 在对应的VPC下,没有发现默认的Vswitch,您可以手动指定Vswitch ID或通过控制台创建Vswitch之后重试。 403 DeleteEnvNotAllowed You cannot delete an environment when the environment is abandoning an update, performing a change, or when the status is not “terminated". 删除应用环境失败,当环境处正在:放弃某次更新、正在执行变更、同时状态不是 "终止"时;不允许删除环境的操作。 404 DeletingEnvNotExists Deleting environment failed. The specified environment does not exist. 删除应用环境失败,将被删除的环境不存在。 400 DiskCategoryInvalid The specified disk category is invalid. 非法的磁盘类别 400 DiskSizeInvalid The specified disk size is invalid. 非法的数据磁盘大小 400 DuplicatedTemplateName An error occurred while generating an environment configuration template. The specified template name already exists in the application. 生成环境配置模版失败,在该应用下,您不能使用已经使用过的模版名称。 400 EcsLaunchTemplateInvalid An error occurred while updating the environment configuration. The start template of the specified ECS instance is not found. 环境配置更新失败,所指定的ECS的启动模版不存在或不可见。 400 EcsTagInalid The specified ECS Tag field is invalid. Please check the key and the value. Values cannot begin with aliyun, http, or https. 非法的ECS Tag,请确认tagKey和tagValue均存在,tagKey和tagValue均不支持aliyun、http://和 https://开头。tagKey不允许为空,tagValue允许为空字符串。 400 EmptyResponse The returned data is empty. 返回数据为空。 400 EnvContainsNoScalingGroup The current deployment environment is not bound to an ESS scaling group ID. This may cause an error when an user attempts to scale up the instance. 当前部署环境没有绑定弹性伸缩服务(ESS)的伸缩组ID,此数据缺失将导致用户实例扩所容的失败。 400 EnvCreateFailed An error occurred while creating an environment. 创建环境失败,在往插入记录时遇到未知错误。 400 EnvDeleteFailed An error occurred while deleting the application environment. This environment may have been deleted, or an error occurred while the server was deleting the environment configuration. 删除应用环境失败,有可能此环境之前已经被删除;或服务器删除环境配置时发生错误。 404 EnvNotExists The corresponding deploy environment was not found according to the env ID. 没有找到对应的应用部署环境,请确认此环境是否被删除或参数是否有误。 404 EnvNotExists The specified deployment environment does not exist. Check whether this environment is deleted or whether the parameter is invalid. 没有找到对应的应用部署环境,请确认此环境是否被删除或参数是否有误。 400 EnvOnChanging An error occurred while starting the change. Wait until the ongoing change is complete. 变更启动失败,原因是上一个变更正在进行,请等待上一次变更完成后再继续。 404 EnvTemplateNotExists When the environment was generated from the template, the corresponding template information was not found; please confirm whether the template was deleted or the parameters passed in were incorrect. 从模版生成环境时,没有发现对应的模版信息;请确认模版是否被删除或传入的参数有误。 401 ESSAuthFailed An error occurred while creating an ESS scaling group. Go to the RAM console and authorize this primary account with the ESS service role. 创建ESS伸缩组失败,您需要前往RAM控制台将ESS服务角色授权至此主账号。 400 EssScalingExecuteFailed An error occurred while scaling the cluster by using ESS. This may have been caused by network jitter. 通过弹性伸缩服务(ESS)进行实例伸缩失败,有可能是网络抖动等其他未知原因引起。 400 GatherLogOnTerminatedEnvNotAllowed It is not allowed to collect logs on an already terminated environment. 不允许在已经终止的环境上收集日志。 403 GatherStatsOnTerminatedEnvNotAllowed You cannot collect system operation statistics on a terminated environment. 不允许在已经终止的环境上收集系统运行统计信息。 400 InstanceIdParamInvalid The specified instance ID does not exist. 实例ID不存在。 404 InstanceNotExists The specified instance does not exist according to the Instance ID declared. The specified instance may have been released or the parameter passed in is invalid. 根据所声明的实例 ID,没有找到对应的实例,有可能所指定的实例已经被释放或参数传入有误。 400 InstanceSizeParamInvalid An error occurred while creating an instance. The number of declared instances must be greater than zero. 创建实例失败,所声明的实例个数必须大于 0。 400 InstanceUpdateInvalidId An error occurred while updating the instance status. The specified instance ID is invalid. 更新实例状态失败,没有找到合法的实例ID。 400 InstanceUpdateStatusFailed An error occurred while updating the data on the database instance. This results in a failure to update the instance status. Please make sure that this instance is still available within the deployed environment. 更新实例状态失败,原因是更新数据库实例数据失败,请确认此实例是否还在此部署环境之中。 500 InternalError An error occurred while creating a configuration template. A database error may have occurred. 配置模版创建失败,此处有可能是数据库发生错误。 500 InternalError An error occurred while creating an application version information record. A database error may have occurred. 应用版本信息记录创建失败,可能为数据库错误。 500 InternalError An error occurred while executing the change. Failed to update the database status for the records of the application environment. 执行变更失败,针对应用环境的记录更新数据库状态失败。 500 InternalError An error occurred while generating a record of changes. This may have been caused by a database error. 变更记录生成失败,此处引起的错误可能是数据库引起。 500 InternalError An error occurred while processing your request. Submit a ticket for a solution Web+网关暂时遇到后端服务短暂的未知错误,这些错误可能由配置、链接、或者后端Bug引起,如果此错误一直出现,请提交工单处理。 500 InternalError An error occurred while updating the application environment. Database entries such as configurations of the application and the environment records may not be updating correctly or they do not exist. 应用环境更新失败,发生此错误信息,有可能是由于应用的配置、环境记录等数据库记录更新有误或不存在。 500 InternalError An error occurred while WebPlus was attempting to insert a record into the database. The application was not created. 创建应用失败,当 WebPlus 试图往数据库中插入记录时失败。 500 InternalError The backend service connection timeout, please try again later. 后端服务地址连接超时,请稍候重试。 500 InternalError The backend service is not reachable, please try again later. 后端服务地址无法联通,请稍候重试。 500 InternalError The backend service resolved failed, the system may under maintenance, please try again later. Web+ 网关发现后端服务地址无法找到,可能系统正在维护;请稍候再重试此动作。 500 InternalError The backend service responded an http error, this request may caused a server error, please try again later. 后端服务返回了 HTTP 错误,请确认参数与操作正确后重试此操作。 400 ListenPortExists A listener with the specified port already exists 所指定的SLB端口已经存在。 400 NameDuplicated The specified name already exists. Please choose a different one. 设置名称已存在,请重设一个名称后继续。 400 NotAGatherLogAction The specified change order is not a change that collects logs. 此变更单ID不是一个收集日志的变更。 400 NotAGatherStatsAction The specified change order is not an order that collects system operational statistics. 此变更单ID不是一个收集系统运行统计信息的变更。 400 OperationFailed An unknown error occurred while processing your request. Please clear the cache or the cookies of your browser. If the problem still exists, please submit a ticket and provide the RequestId. 请求遇到未知错误,如经过清空浏览器缓存/Cookie 等动作重试后依然出现,请提交工单处理,同时请提供 RequestId。 404 OSSBucketNotExists No valid OSS Bucket configuration has been found. It may have been deleted, or the parameter passed in is invalid. 没有发现合法的OSS Bucket配置。有可能Bucket被删除,或传入的参数有误。 400 OSSPathInvalid The specified OSS path is invalid. For more information about OSS path, see oss://webx-demo/directory/file.json 非法的OSS路径,OSS路径请参考:oss://webx-demo/directory/file.json 400 ParameterValidationFailed An error occurred while verifying the parameter. Please confirm whether the value type, size, and range that you passed in for the request are consistent with the declared values. 参数校验失败,请确认请求中的参数传入的值类型、大小、范围等,是否与所声明的一致。 400 PausingFinishedChange An error occurred while pausing a change. You cannot pause a change that has already been completed. 暂停变更失败,您不能针对一个已经完成的变更进行暂停操作。 400 PausingPausedChange An error occurred while pausing a change. You cannot pause a change that has already been paused. 暂停变更失败,您不能针对一个已经暂停的变更进行暂停操作。 403 PermissionDenied Your request is denied. You do not have access to the requested resources. If you are sure that the specified resource belongs to the current primary account, ask the primary account owner to perform a RAM authorization first and try again. 请求拒绝,您对所请求的资源没有发起访问的权限;如确认此资源是属于当前主账号的资源,请联系主账号对此资源进行 RAM 授权后重试此操作。 400 ProfileNameInvalid The specified cluster type in the template is invalid. Valid values: Default, StandAlone, and HighAvailability. 启动模版的集群类型名称不合法,该枚举的取值范围为:Default, StandAlone, HighAvailability. 400 RemoveInstanceParamInvalid An error occurred while releasing an instance. The number of instances to be released need to be greater than zero or the instance ID cannot be empty. 释放实例失败,需要被释放的实例数必须大于 0 或实例 ID 不能为空。 403 ResourceAuthFailed The specified resource does not exist or it does not belong to this Alibaba Cloud account. 相关资源不存在或不属于此阿里云账号。 400 ResumingANotPausedChange An error occurred while restarting a change. You cannot restart a change that is not paused. 重启变更失败,您不能针对一个没有暂停的变更进行重启操作。 400 ResumingFinishedChange An error occurred while restarting a change. You cannot restart a change that has already been completed. 重启变更失败,您不能针对一个已经完成的变更进行重启操作。 404 ScalingGroupNotExists An error occurred while obtaining the scaling group rule of the Auto Scaling service (ESS). The scaling group may have been deleted or the parameters may be invalid. 获取弹性伸缩服务(ESS)伸缩组规则失败,有可能此伸缩组被删除或参数有误。 404 SecurityGroupNotExists An error occurred while updating the environment configuration. The specified security group does not exist. 环境配置更新失败,所指定的安全组不存在。 400 SecurityGroupVpcNotMatch An error occurred while updating the environment configuration. The VPC in which the specified security group is located does not match the VPC in which the instance is located. 环境配置更新失败,所指定的安全组所在的 VPC 与实例所在的 VPC 不匹配。 400 SlbRuleInvalid The SLB forwarding rule does not permit an empty domain name with a root path of /. SLB 转发规则不允许域名为空,同时路径为根路径(/)。 404 SourceEnvNotExists The source environment information does not exist while cloning from a deployment environment. Please check whether the environment is deleted or with wrong parameter. 克隆环境时,发现源环境信息不存在,请确认是否被删除或传入的参数有误。 404 SourceTemplateNotExists An error occurred while building an environment, because the declared template ID does not exist. 从模版生成环境失败,原因是所声明的模版ID不存在 400 StackContainsNoConfigOption An error occurred while modifying the configuration. The corresponding software stack does not contain any configuration items. 配置变更失败,对应的软件栈不包含任何的配置项。 404 StackNotExists The declared software stack information does not exist. 创建应用或更新应用环境时,所声明的软件栈信息不存在。 400 StartMovingFailed An error occurred while executing a change. Update failed when calculating the configurations and resources. 开始执行变更失败,当进入到资源规则匹配的计算时,后台出现更新失败。 403 StatusNotAllowedRebuild You can only rebuild a terminated environment or an environment that failed to be rebuilt. 应用环境重建只能针对两种状态进行:已终止或上次执行失败。其他状态不允许重建的操作。 403 StatusNotAllowedRestart Only a running environment or a terminated environment can be restarted. 应用环境重启只能针对两种状态进行:运行中或停止;其他状态不允许重启操作 403 StatusNotAllowedStart A start action can only be made to an environment that is already stopped. An environment with other status cannot be started. 应用启动只能针对已经停止的应用环境状态进行,其他状态不允许启动。 403 StatusNotAllowedStop A stop action can only be made to an environment that is already running. An environment with other status cannot be stopped. 应用停止只能针对已经在运行中的环境状态进行,其他状态不允许应用停止。 403 StatusNotAllowedTerminated A terminate action cannot be performed on an environment that has already terminated. 不能对已经终止的环境执行应用终止操作。 404 TemplateNotExists An error occurred while updating the configuration. No corresponding configuration template instance was found. 更新配置失败,没有找到相应的配置模版实例。 401 TenantInvalid The system did not find a username based on AliyunUID. 根据Aliyunuid没有获取到用户名。 400 VersionLabelExists An error occurred while creating an application version. The version name already exists. Please use a different name and try again. 创建应用版本失败,版本名称已经存在,请更换版本名称后重试此次操作。 403 VpcNotAllowedUpdate You are not allowed to modify the VPC ID against an unterminated environment. Please terminate it before continuing this operation. 未终止的环境不允许修改VPC ID,请先终止环境后再继续此项操作。 404 VPCNotExists An error occurred while changing the environment configuration. The specified VPC instance does not exist according to the specified VPC ID. 变更环境配置失败,根据所指定的VPC ID没有查询得到相应的VPC实例。 404 VSwitchNotExists An error occurred while changing the environment configuration. The specified VSwitch does not exist according to the specified VSwitch ID. 变更环境配置失败,根据所指定的VSwitch ID没有查询得到指定的VSwitch实例。 访问错误中心查看更多错误码。 访问错误中心查看更多错误码。
1934890530796658 2020-03-23 14:44:34 0 浏览量 回答数 0

回答

本文主要为您介绍如何创建和使用带有 NPU 资源的 Kubernetes 集群。 前提条件 您需要开通容器服务和访问控制(RAM)服务。 背景信息 与大型算法模型中 CPU 相比,NPU 处理器最明显的优势是信息处理能力快。NPU 采用了“数据驱动并行计算”架构,颠覆了 CPU 所采用的传统冯·诺依曼计算机架构,这种数据流类型的处理器大大提升了计算能力与功耗的比率。NPU 特别适合处理视频、图像类的海量多媒体数据的场景,不仅速度比 CPU 要高出 100 ~ 1000 倍,同时功耗也远远低于 CPU。 您可以通过阿里云 Kubernetes 集群 + ALI NPU 运行机器学习,图像处理等高运算密度等任务,实现快速部署和弹性扩缩容等功能。 说明 如果想了解 ALI NPU 的相关信息,请参见 AliNPU Website。 本文将以创建 Kubernetes 集群时,添加 ecs.ebman1.26xlarge 实例为例说明如何使用 NPU。 创建集群过程中,容器服务会进行如下操作: 创建 ECS,配置管理节点到其他节点的 SSH 的公钥登录,通过 CloudInit 安装配置 Kubernetes 集群。 创建安全组,该安全组允许 VPC 入方向全部 ICMP 端口的访问。 如果您不使用已有的 VPC 网络,会为您创建一个新的 VPC 及 VSwitch,同时为该 VSwitch 创建 SNAT。 创建 VPC 路由规则。 创建 NAT 网关及 EIP。 创建 RAM 子账号和 AccessKey,该子账号拥有 ECS 的查询、实例创建和删除的权限,添加和删除云盘的权限,SLB 的全部权限,云监控的全部权限,VPC 的全部权限,日志服务的全部权限,NAS 的全部权限。Kubernetes 集群会根据用户部署的配置相应的动态创建 SLB,云盘,VPC路由规则。 创建内网 SLB,暴露 6443 端口。 创建公网 SLB,暴露 6443、8443和 22 端口(如果您在创建集群的时候选择开放公网 SSH 登录,则会暴露 22 端口;如果您选择不开放公网 SSH 访问,则不会暴露 22 端口)。 使用限制 随集群一同创建的负载均衡实例只支持按量付费的方式。 Kubernetes 集群仅支持专有网络 VPC。 每个账号默认可以创建的云资源有一定的配额,如果超过配额创建集群会失败。请在创建集群前确认您的配额。 如果您需要提高配额,请提交工单申请。 每个账号默认最多可以创建 5 个集群(所有地域下),每个集群中最多可以添加 40 个节点。如果您需要创建更多的集群或者节点,请提交工单申请。 说明 Kubernetes 集群中,VPC 默认路由条目不超过48条,意味着 Kubernetes 集群使用 VPC 时,默认节点上限是 48 个,如果需要更大的节点数,需要您先对目标 VPC 开工单,提高 VPC 路由条目,再对容器服务提交工单。 每个账号默认最多可以创建 100 个安全组。 每个账号默认最多可以创建 60 个按量付费的负载均衡实例。 每个账号默认最多可以创建 20 个EIP。 ECS 实例使用限制: 仅支持 CentOS 操作系统。 支持创建按量付费和包年包月的 ECS 实例。 说明 实例创建后,您可以通过 ECS 管理控制台将按量付费转预付费,请参见按量付费转包年包月。 创建 NPU 型 Kubernetes 集群 登录容器服务管理控制台。 在 Kubernetes 菜单下,单击左侧导航栏的集群 > 集群,单击页面右上角的创建 Kubernetes 集群。 在选择集群模板页面,选择异构计算专有集群页面,并单击创建,进入Kubernetes 专有版页面。 本例中创建的是异构计算专有集群,您也可以在选择集群模板时选择异构计算托管集群并进行以下操作。选择集群模板 说明 为了创建 NPU 集群,通常情况下,Worker 节点使用 NPU 类型的 ECS。集群其他参数配置,请参见创建 Kubernetes 集群。 设置 Worker 节点的配置信息。本例中将 Worker 节点作为 NPU 工作节点,选择 NPU 计算型实例规格 ecs.ebman1.26xlarge。 若您选择新增实例,则需要选择 Worker 节点的系列和规格,以及需要创建的 Worker 节点的数量(本示例创建 2 个 NPU 节点,实例类型为 ecs.ebman1.26xlarge)。 设置节点 若您选择添加已有实例,则需要预先在此地域下创建 NPU 云服务器。请参见实例规格族。 完成其他配置后,单击创建集群,启动部署。 集群创建成功后,单击左侧导航栏中的集群 > 节点,进入节点列表页面。 选择所需的集群,选择创建集群时配置的 Worker 节点,单击操作列的更多 > 详情,查看该节点挂载的 NPU 设备。 配置私有镜像密钥 如果您需要使用阿里云提供的 NPU 类型的 Docker 镜像,可以联系与您对接的客户经理或销售人员,获取一个已授权的账号。下载 Docker 镜像并在 Kubernetes 集群中配置私有镜像密钥。 在 Kubernetes 菜单下,单击左侧导航栏的集群 > 集群,进入集群列表页面。 选择所需的集群并单击操作列更多 > 通过 CloudShell 管理集群。 集群连接成功后,界面显示如下:显示结果 执行以下命令,创建一个 docker-registry 类型的 secret。 kubectl create secret docker-registry regsecret --docker-server=registry.cn-shanghai.aliyuncs.com --docker-username=<your_username> --docker-password=<your_password> 说明 regsecret:指定密钥的键名称,可自行定义。 --docker-server:指定 Docker 仓库地址。 --docker-username:获取的账号。 --docker-password:获取的密码。 在 Pod 的配置文件中添加 secret,拉取NPU类型的私有镜像。 apiVersion: v1 kind: Pod metadata: name: test-npu spec: containers: - name: <容器名称> image: registry.cn-shanghai.aliyuncs.com/hgai/<NPU类型的docker镜像> imagePullSecrets: - name: <secret名称> 说明 imagePullSecrets 是声明拉取镜像时需要指定密钥。 regsecret 必须和步骤3生成密钥的键名一致。 image 中的 Docker 仓库名称必须和 --docker-server 中的 Docker 仓库名一致。 使用 NPU 资源 如果某一个 Pod 需要使用 NPU 资源,需要在resources.limits定义aliyun.com/npu的值。 apiVersion: v1 kind: Pod metadata: name: <pod名称> spec: containers: - name: <容器名称> image: <镜像名称> resources: limits: aliyun.com/npu: <请求npu资源数> 运行 TensorFLow 的 NPU 实验环境 您可以在集群中使用 NPU 资源完成模型训练。本例中,将会启动一个使用 NPU 资源的 Pod 进行模型训练。 连接集群,请参见在CloudShell上通过kubectl管理Kubernetes集群 。 在 CloudShell 界面执行以下操作。 cat > test-pod.yaml <<- EOF apiVersion: v1 kind: Pod metadata: name: test-npu-pod spec: restartPolicy: Never imagePullSecrets: - name: regsecret containers: - name: resnet50-npu image: registry.cn-shanghai.aliyuncs.com/hgai/tensorflow:v1_resnet50-tensorflow1.9.0-toolchain1.0.2-centos7.6 resources: limits: aliyun.com/npu: 1 # requesting NPUs EOF 执行如下命令,创建 Pod。 kubectl apply -f test-pod.yaml 执行以下命令,查看 Pod 的状态。 kubectl get po test-npu-pod 说明 如果Pod 为 Error 状态,请执行kubectl logs test-npu-pod命令监听 Pod 日志,并排查修改。 执行结果 等待一段时间后,您可以通过执行如下命令查看 Pod 的状态。 kubectl get po test-npu-pod 如果查看到 Pod 的状态为 Completed,再执行如下命令查看日志。 kubectl logs test-npu-pod 此时看到日志显示结果如下,表示训练任务完成。 2019-10-30 12:10:50.389452: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 AVX512F FMA 100%|##########| 98/98 [00:26<00:00, 3.67it/s] resnet_v1_50, result = {'top_5': 0.9244321584701538, 'top_1': 0.7480267286300659}
1934890530796658 2020-03-27 10:02:57 0 浏览量 回答数 0

问题

【每日一教程6.13】阿里云实现web数据同步的四种方式

========================...
李逵 2019-12-01 22:01:00 21343 浏览量 回答数 10

问题

apache和tomcat整合问题? 报错

apache和tomcat整合问题? 400 报错 我整合的apache和tomcat 负载出了一个很头疼的问题 我的apache版本是 2.2.15 ,tomcat版本是6.0 我的  worker.propertie...
优选2 2020-06-04 18:05:07 3 浏览量 回答数 1

问题

apache和tomcat整合问题? 400 报错

apache和tomcat整合问题? 400 报错 我整合的apache和tomcat 负载出了一个很头疼的问题 我的apache版本是 2.2.15 ,tomcat版本是6.0 我的  worker.propertie...
爱吃鱼的程序员 2020-05-29 17:55:50 0 浏览量 回答数 1

问题

apache和tomcat整合问题? 400 报错

apache和tomcat整合问题? 400 报错 我整合的apache和tomcat 负载出了一个很头疼的问题 我的apache版本是 2.2.15 ,tomcat版本是6.0 我的  worker.propertie...
爱吃鱼的程序员 2020-06-02 12:01:00 0 浏览量 回答数 1

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT