HarmonyOS学习路之开发篇—AI功能开发(二维码生成及文字识别)

简介: 为应用提供丰富的AI(Artificial Intelligence)能力,支持开箱即用。开发者可以灵活、便捷地选择AI能力,让应用变得更加智能。

AI能力概述

为应用提供丰富的AI(Artificial Intelligence)能力,支持开箱即用。开发者可以灵活、便捷地选择AI能力,让应用变得更加智能。


已开放的AI能力如下表所示:


image.pngimage.pngimage.png

image.png

image.png

说明

目前,二维码生成能力支持智能穿戴设备和手机;其他AI能力仅支持手机设备。

码生成概述

码生成能够根据开发者给定的字符串信息和二维码图片尺寸,返回相应的二维码图片字节流。调用方可以通过二维码字节流生成二维码图片。


约束与限制

当前仅支持在中国区发售的华为终端设备。

当前仅支持生成QR二维码(Quick Response Code)。由于QR二维码算法的限制,Java语言开发时字符串信息的长度不能超过2953个字符;JS语言开发时字符串信息的长度不能超过256个字符。

Java语言开发时,生成的二维码图片的宽度不能超过1920像素,高度不能超过1680像素。由于QR二维码是通过正方形阵列承载信息的,建议二维码图片采用正方形,当二维码图片采用长方形时,会在QR二维码信息的周边区域留白。

JS语言开发时,生成的二维码图片的宽高最小值为200px;当宽高不一致时,以二者最小值作为二维码的边长,且最终生成的二维码居中显示。支持矩形、圆形两种二维码类型(默认是矩形)。

码生成开发

场景介绍

码生成能够根据给定的字符串信息,生成相应的二维码图片。常见应用场景举例:


社交或通讯类应用:根据输入的联系人信息,生成联系人二维码。

购物或支付类应用:根据输入的支付链接,生成收款或付款二维码。

接口说明

码生成提供了IBarcodeDetector()接口,常用方法的功能描述如下:


image.png


开发步骤

1. 在使用码生成SDK时,需要先将相关的类添加至工程

import ohos.ai.cv.common.ConnectionCallback;
import ohos.ai.cv.common.VisionManager;
import ohos.ai.cv.qrcode.IBarcodeDetector;

2. 定义ConnectionCallback回调,实现连接能力引擎成功与否后的操作。


ConnectionCallback connectionCallback = new ConnectionCallback() {
    @Override
    public void onServiceConnect() {
        // Do something when service connects successfully
    }
    @Override
    public void onServiceDisconnect() {
        // Do something when service connects unsuccessfully
    }
};

3. 调用VisionManager.init()方法,将此工程的context和connectionCallback 作为入参,建立与能力引擎的连接,context应为ohos.aafwk.ability.Ability或ohos.aafwk.ability.AbilitySlice的实例或子类实例。


int result = VisionManager.init(context, connectionCallback);

4. 在收到onServiceConnect回调连接服务成功后,实例化IBarcodeDetector接口,将此工程的context作为入参


IBarcodeDetector barcodeDetector = VisionManager.getBarcodeDetector(context);

5. 定义码生成图像的尺寸,并根据图像大小分配字节流数组空间。


int result = barcodeDetector.detect("This is a TestCase of IBarcodeDetector", byteArray, SAMPLE_LENGTH, SAMPLE_LENGTH);

6. 调用IBarcodeDetector的detect()方法,根据输入的字符串信息生成相应的二维码图片字节流。


InputStream inputStream = new ByteArrayInputStream(byteArray);
ImageSource imageSource = ImageSource.create(inputStream, null);

7. 如果返回值为0,表明调用成功。后续可以利用API将解码流转换为图片源,简要示例如下:


InputStream inputStream = new ByteArrayInputStream(byteArray);

ImageSource imageSource = ImageSource.create(inputStream, null);

8. 当码生成能力使用完毕后,调用IBarcodeDetector的release()方法,释放资源


result = barcodeDetector.release();

9. 调用VisionManager.destroy()方法,断开与能力引擎的连接。


VisionManager.destroy();

文字识别概述

通用文字识别的核心技术是OCR(Optical Character Recognition,光学字符识别)。OCR是一种通过拍照、扫描等光学输入方式,把各种票据、卡证、表格、报刊、书籍等印刷品文字转化为图像信息,再利用文字识别技术将图像信息转化为计算机等设备可以使用的字符信息的技术。


约束与限制

支持处理的图片格式包括JPEG、JPG、PNG。

通用文字识别目前支持的语言有:中文、英文、日语、韩语、俄语、意大利语、西班牙语、葡萄牙语、德语,以及法语(将来会增加更多语种)。

目前支持文档印刷体识别,不支持手写字体识别。

为保证较理想的识别结果,调用通用文字识别功能时,应尽可能保证输入图像具有合适的成像质量(建议720p以上)和高宽比例(建议2:1以下,接近手机屏幕高宽比例为宜)。当输入图像为非建议图片尺寸时,文字识别的准确度可能会受到影响。

为保证较理想的识别结果,建议文本与拍摄角度夹角在正负30度范围内。

文字识别开发

场景介绍

通用文字识别适用于如下场景:


可以对文档翻拍、街景翻拍等图片进行文字检测和识别,也可以集成于其他应用中,提供文字检测、识别的功能,并根据识别结果提供翻译、搜索等相关服务;

可以处理来自相机、图库等多种来源的图像数据,提供一个自动检测文本、识别图像中文本位置以及文本内容功能的开放接口;

能在一定程度上支持文本倾斜、拍摄角度倾斜、复杂光照条件以及复杂文本背景等场景的文字识别。

接口说明

通用文字识别提供了setVisionConfiguration()和detect()两个函数接口。


调用ITextDetector的setVisionConfiguration()方法,通过传入的TextConfiguration,选择需要调用的OCR类型。

void setVisionConfiguration(TextConfiguration textConfiguration);

下表列出了TextConfiguration的常用设置:



image.png


进程模式定义:


VisionConfiguration.MODE_IN(同进程调用)

VisionConfiguration.MODE_OUT(跨进程调用)

默认值为VisionConfiguration.MODE_OUT。


调用ITextDetector的detect()方法,获取识别结果。


int detect(VisionImage image, Text result, VisionCallback<Text> visionCallBack);

其中:


image为待OCR检测识别的输入图片。

如果visionCallback为null,执行同步调用,结果码由方法返回,检测及识别结果由result返回。

如果visionCallback为有效的回调函数,则该函数为异步调用,函数返回时result中的值无效,实际识别结果由回调函数返回。回调函数的使用方法请参见开发步骤中的具体说明。

同步模式调用成功时,该函数返回结果码0。异步模式调用请求发送成功时,该函数返回结果码700。

开发步骤

1. 在使用通用文字识别SDK时,将实现文字识别的相关的类添加至工程。

import ohos.ai.cv.common.ConnectionCallback;
import ohos.ai.cv.common.VisionCallback;
import ohos.ai.cv.common.VisionConfiguration;
import ohos.ai.cv.common.VisionImage;
import ohos.ai.cv.common.VisionManager;
import ohos.ai.cv.text.ITextDetector;
import ohos.ai.cv.text.Text;
import ohos.ai.cv.text.TextConfiguration;
import ohos.ai.cv.text.TextDetectType;
import ohos.app.Context;
import ohos.media.image.PixelMap;

2. 定义ConnectionCallback回调,实现连接能力引擎成功与否后的操作。

ConnectionCallback connectionCallback = new ConnectionCallback() {
    @Override
    public void onServiceConnect() {
        // 定义连接能力引擎成功后的操作。
    }
    @Override
    public void onServiceDisconnect() {
        // 定义连接能力引擎失败后的操作。
    }
};

3. 调用VisionManager.init()方法,将此工程的context和已经定义的connectionCallback回调作为入参,建立与能力引擎的连接。context应为ohos.aafwk.ability.Ability或ohos.aafwk.ability.AbilitySlice的实例或子类实例。


int result = VisionManager.init(context, connectionCallback);

4. 在收到onServiceConnect回调连接服务成功后,实例化ITextDetector接口,将此工程的context作为入参。

ITextDetector textDetector = VisionManager.getTextDetector(context);

5. 实例化VisionImage对象image,并传入待检测图片pixelMap。


VisionImage image = VisionImage.fromPixelMap(pixelMap);

6. 实例化Text对象text,该对象在同步模式下用于存放调用textDetector.detect()方法的结果返回码及文字识别结果。

Text text = new Text();

7. (可选) 定义VisionCallback<Text>回调。


VisionCallback<Text> callback= new VisionCallback<Text>() {
    @Override
    public void onResult(Text text) {
        // 对正确获得文字识别结果进行处理。
    }
    @Override
    public void onError(int i) {
        // 处理错误返回码。
    }
    @Override
    public void onProcessing(float v) {
        // 返回处理进度。
    }
};

说明


在异步模式下,该类的onResult()方法用于获得文字识别结果Text;onError()方法用于处理错误返回码;onProcessing()方法用于返回处理进度,目前没有实现此接口的功能。

同步与异步模式区别在于detect()的最后一个参数VisionCallback<Text>是否为空。若非空则为异步模式。此时会忽略自定义的Text输入(效果与传入null相同),接口调用结果一律从VisionCallback<Text>获得,自定义的Text输入不做更新。

8. 通过TextConfiguration配置textDetector()方法的运行参数,可选择识别场景、语言类型、调用模式等。跨进程模式(MODE_OUT)下调用方与能力引擎处于不同进程;同进程模式(MODE_IN)下,能力引擎在调用方进程中实例化,调用方通过反射的方式调用引擎里的通用文字识别能力。以聚焦通用文字识别,同进程英文语种检测为例:

TextConfiguration.Builder builder = new TextConfiguration.Builder();
builder.setProcessMode(VisionConfiguration.MODE_IN);
builder.setDetectType(TextDetectType.TYPE_TEXT_DETECT_FOCUS_SHOOT);
builder.setLanguage(TextConfiguration.ENGLISH);
TextConfiguration config = builder.build();
textDetector.setVisionConfiguration(config);

9. (可选)调用ITextDetector的prepare()方法。


result = textDetector.prepare();

说明


如果返回的result不为0,说明当前OCR能力准备失败,需要处理错误,不再执行之后的动作。在detect()方法中会首先调用prepare()启动引擎,如果引擎已经启动则不会再次启动。


10. 调用ITextDetector的detect()方法。

result = textDetector.detect(image, text, null); // 同步

或者

result = textDetector.detect(image, null, visionCallback); // 异步

说明


同步模式调用完成时,该函数立即返回结果码;

异步模式调用请求发送成功时,该函数返回结果码700。如果返回其他的结果码,说明异步调用请求不成功,需要先处理错误,此时回调函数不会被调用。

如果异步模式调用请求发送成功,则OCR完成后,相应的回调函数会被自动调用。

如果onResult()回调被调用,说明OCR检测识别成功,相当于同步模式结果码为0的情况。

如果onError()方法被调用,则说明OCR发生了错误,具体的调用结果码将由onError()的参数接收。

结果码定义如下表:



image.png

image.png

11. 调用ITextDetector的release()方法,释放资源。调用pixelMap的release()方法,释放图片内存。

textDetector.release();
if (pixelMap != null) {
    pixelMap.release();
    pixelMap = null;
}

说明


不再使用通用文字识别能力时,调用release()方法释放资源。


12. 调用VisionManager.destroy()方法,断开与能力引擎的连接。


VisionManager.destroy();
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
学习AI技术
【4月更文挑战第30天】学习AI技术
9 4
|
2天前
|
机器学习/深度学习 人工智能 算法
【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题
【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题
|
2天前
|
机器学习/深度学习 人工智能 监控
构建未来:AI在个性化学习路径设计中的应用
【4月更文挑战第29天】 随着人工智能(AI)的飞速发展,教育领域正经历一场由数据驱动的变革。本文聚焦于AI技术在个性化学习路径设计中的应用,探讨其如何通过精准分析学习者的行为和表现来优化教学策略和内容。我们展示了利用机器学习模型来预测学习成果、识别学习障碍以及提供即时反馈的潜力。文章还讨论了实施个性化学习所面临的挑战,包括数据隐私保护和技术整合问题,并提出了相应的解决策略。
|
3天前
|
机器学习/深度学习 人工智能 搜索推荐
构建未来:基于AI的自适应学习系统
【4月更文挑战第28天】 随着人工智能技术的不断进步,其在教育领域的应用也日益广泛。本文将探讨如何利用AI技术构建一个自适应学习系统,以提供更加个性化的学习体验。我们将讨论AI在教育中的应用,包括智能教学系统的设计、学习内容的个性化推荐以及学习进度的自动调整等方面。此外,我们还将探讨如何通过数据分析来优化学习过程,以及如何保护学习者的隐私。
7 0
|
4天前
|
机器学习/深度学习 人工智能 算法
AI大模型学习理论基础
本文探讨了AI大模型学习的理论基础,包括深度学习(模拟神经元工作原理,通过多层非线性变换提取特征)、神经网络结构(如前馈、循环和卷积网络)、训练方法(监督、无监督、强化学习)、优化算法(如SGD及其变种)、正则化(L1、L2和dropout防止过拟合)以及迁移学习(利用预训练模型加速新任务学习)。这些理论基础推动了AI大模型在复杂任务中的应用和人工智能的发展。
|
8天前
|
人工智能 Python
【AI大模型应用开发】【LangChain系列】加速学习LangChain效率:源码环境安装 + 断点调试
【AI大模型应用开发】【LangChain系列】加速学习LangChain效率:源码环境安装 + 断点调试
20 0
|
8天前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例2:通过URL加载网页内容 - LangChain对爬虫功能的封装
【AI大模型应用开发】【LangChain系列】实战案例2:通过URL加载网页内容 - LangChain对爬虫功能的封装
17 0
|
8天前
|
存储 人工智能 数据库
【AI Agent系列】【MetaGPT多智能体学习】8. MetaGPT多智能体进阶练习 - 使用MetaGPT重构BabyAGI
【AI Agent系列】【MetaGPT多智能体学习】8. MetaGPT多智能体进阶练习 - 使用MetaGPT重构BabyAGI
12 0
|
8天前
|
存储 人工智能 API
【AI Agent系列】【MetaGPT多智能体学习】7. 剖析BabyAGI:原生多智能体案例一探究竟(附简化版可运行代码)
【AI Agent系列】【MetaGPT多智能体学习】7. 剖析BabyAGI:原生多智能体案例一探究竟(附简化版可运行代码)
29 0
|
8天前
|
人工智能 决策智能
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
30 0