自学记录鸿蒙API 13:实现智能文本识别Core Vision Text Recognition

简介: 在完成语音助手项目后,我尝试了HarmonyOS Next API 13中的Core Vision Text Recognition API,体验其强大的文本识别功能。该API支持多语言高精度识别,能快速将图像中的文本提取为结构化信息,适用于文档扫描、票据管理和实时翻译等场景。通过权限配置、初始化服务、实现识别功能和构建用户界面,我完成了文本识别应用的开发,并探索了性能优化与功能扩展。鸿蒙生态的强大支持让开发者能更便捷地实现复杂功能。未来计划将此技术应用于实际项目,如票据管理或实时翻译工具。如果你也对文本识别感兴趣,不妨一起探索!

在完成语音助手项目后,我想试试其他的AI的API 13,于是我瞄上了——智能文本识别。通过研究HarmonyOS Next最新版本API 13中的Core Vision Text Recognition API,我深刻感受到了鸿蒙生态在计算机视觉领域的强大支持。该API能够快速将图像中的文本内容提取为结构化信息,官方给了足够的支持,也为开发者提供了丰富的应用场景。


开始我的学习旅程

每次接触新的API,我都会抱着探索和学习的态度,了解其使用场景和核心功能。文本识别技术广泛应用于文档扫描、票据管理以及实时翻译等场景,因此我决定基于这一API开发一个支持文本识别与显示的应用,并记录下整个学习与开发过程。

第一步:理解Core Vision Text Recognition API的核心功能

核心功能简介

Core Vision Text Recognition API 提供了从图像中提取文本的能力,支持多语言高精度识别,其核心功能包括:

  • 文本区域检测:精准定位图像中的文本内容。
  • 多语言支持:包括简体中文、英文、日文、韩文和繁体中文。
  • 结构化结果输出:识别的结果以段落(TextBlock)、行(TextLine)和单词(TextWord)的形式返回。

应用场景

  • 文档数字化:自动提取纸质文档内容并保存为可编辑文本。
  • 票据管理:高效提取发票或收据信息以便整理。
  • 实时翻译:通过识别图像中的文字实现动态翻译。


第二步:项目初始化与配置

在开发HarmonyOS应用时,权限配置是必不可少的步骤。

权限配置

在config.json文件中添加以下配置,确保应用拥有必要的权限:

{
  "module": {
    "abilities": [
      {
        "name": "TextRecognitionAbility",
        "permissions": [
          "ohos.permission.INTERNET",
          "ohos.permission.READ_MEDIA",
          "ohos.permission.WRITE_MEDIA"
        ]
      }
    ]
  }
}


第三步:实现文本识别功能

初始化Text Recognition服务

通过以下代码初始化文字识别服务:

import textRecognition from '@kit.CoreVisionKit';
let recognizerInstance = null;
async function initializeTextRecognition() {
    try {
        recognizerInstance = await textRecognition.init();
        console.info('文本识别服务初始化成功');
    } catch (error) {
        console.error('文本识别服务初始化失败:', error);
    }
}
initializeTextRecognition();

图像加载与识别

在图像识别过程中,我们首先加载待处理的图像,然后调用recognizeText接口提取文本信息。

async function recognizeTextFromImage(imageUri: string) {
    try {
        const visionInfo = { pixelMap: await loadPixelMap(imageUri) };
        const result = await textRecognition.recognizeText(visionInfo);
// 加长部分:
// 假设用户希望进一步定制识别行为,可以传递一个带有附加配置的对象来优化性能。例如:
const advancedConfig = { isDirectionDetectionSupported: false };
const advancedResult = await textRecognition.recognizeText(visionInfo, advancedConfig);
console.info('高级识别结果:', advancedResult);
// 此外,用户可以将结果导出到文件或进行进一步的处理
saveRecognitionResult(advancedResult);
function saveRecognitionResult(result) {
    console.info('结果已保存:', result.value);
    // 在这里可以实现将结果写入文件或数据库的逻辑
}
        console.info('识别结果:', result.value);
        result.blocks.forEach((block) => {
            console.info(`段落内容: ${block.value}`);
            block.lines.forEach((line) => {
                console.info(`  行内容: ${line.value}`);
                line.words.forEach((word) => {
                    console.info(`    单词: ${word.value}`);
                });
            });
        });
    } catch (error) {
        console.error('文本识别失败:', error);
    }
}
async function loadPixelMap(imageUri) {
    // 实现加载图像为PixelMap的逻辑
    return await someImageLibrary.loadPixelMap(imageUri);
}
const imagePath = '/data/media/sample_image.jpg';
recognizeTextFromImage(imagePath);


第四步:构建用户界面

为了让用户可以直观地体验文本识别功能,我设计了一个简单的界面,支持图像选择和识别结果的展示。

ArkUI界面实现

以下是界面的实现代码:

import { View, Text, Button, Image } from '@ohos.arkui';
export default View.create({
    build() {
        return (
            {
                type: "flex",
                flexDirection: "column",
                children: [
                    {
                        type: Text,
                        content: "文本识别应用",
                        style: { height: "50vp", fontSize: "20vp", textAlign: "center" },
                    },
                    {
                        type: Image,
                        src: this.imageUri || '',
                        style: { height: "200vp", width: "200vp", margin: "20vp" }
                    },
                    {
                        type: Button,
                        content: "选择图片",
                        style: { height: "50vp", marginTop: "20vp" },
                        onClick: this.onSelectImage
                    },
                    {
                        type: Button,
                        content: "识别文本",
                        style: { height: "50vp", marginTop: "10vp" },
                        onClick: this.onRecognizeText
                    }
                ]
            }
        );
    },
    onSelectImage() {
        // 模拟选择图片
        this.imageUri = '/data/media/sample_image.jpg';
        console.info('图片选择完成:', this.imageUri);
    },
    async onRecognizeText() {
        await recognizeTextFromImage(this.imageUri);
    }
});


第五步:性能优化与功能扩展

在项目开发过程中,我还探索了如何通过配置选项优化性能。例如,在不需要文字方向检测的情况下,可以通过以下方式禁用此功能以提升处理速度:

const configuration = { isDirectionDetectionSupported: false };
const result = await textRecognition.recognizeText(visionInfo, configuration);

此外,还可以扩展支持更多语言的功能,通过getSupportedLanguages接口获取当前支持的语言列表:

const languages = await textRecognition.getSupportedLanguages();
console.info('支持的语言列表:', languages);


最后的小总结

研究完HarmonyOS Next Core Vision Text Recognition API 13,还是很震撼的,之前非常难的东西目前也可以一个API就搞定了,特别舒服,同时也认识到了鸿蒙生态为开发者提供的便捷与强大。从服务的初始化到界面构建,再到性能优化,每一个步骤都让我感受到技术的魅力。

未来,我计划将这一技术应用于实际项目,例如开发票据管理工具或实时翻译应用。如果你也对文本识别感兴趣,不妨动手尝试,从简单的功能开始,逐步实现更复杂的需求!

当然如果你也在这一领域研究,不妨关注我,我们一起进步~!

目录
打赏
0
10
11
2
166
分享
相关文章
鸿蒙开发:基于最新API,如何实现组件化运行
手动只是让大家了解切换的原理,在实际开发中,可不推荐手动,下篇文章,我们将通过脚本或者插件,快速实现组件化模块之间的切换,实现独立运行,敬请期待!
鸿蒙开发:基于最新API,如何实现组件化运行
电商API接口:数据同步的智能引擎
在电商系统中,数据同步对业务运行和用户体验至关重要,而API接口作为关键技术手段,在其中发挥核心作用。本文详细分析了电商API接口的概念、应用场景(如商品信息、订单、库存、支付与物流同步)、技术实现步骤(如获取API Key、编写代码、性能优化)以及面临的挑战(如数据格式差异、安全性问题)。同时,通过亚马逊、阿里巴巴、京东等实际案例,展示了API接口的最佳实践及其对企业效率提升的显著效果。合理运用API技术可有效优化电商数据同步,推动业务发展。
58 0
|
1月前
|
46.[HarmonyOS NEXT RelativeContainer案例三] 打造自适应容器:内容驱动的智能尺寸调整技术
在HarmonyOS NEXT的UI开发中,创建能够根据内容自动调整尺寸的容器是实现灵活布局的关键。RelativeContainer结合自适应尺寸设置,可以实现内容驱动的智能尺寸调整,使UI更加灵活且易于维护。本教程将详细讲解如何创建自适应尺寸的RelativeContainer,帮助你掌握这一实用技术。
61 5
|
1月前
|
43.[HarmonyOS NEXT Row案例十一] 构建智能分页控件:Row组件实现页码与翻页按钮的完美结合
分页控件是数据展示类应用中不可或缺的导航元素,它允许用户在大量数据中进行有序浏览。本教程将详细讲解如何使用HarmonyOS NEXT的Row组件创建一个功能完善的分页控件,实现页码显示与前后翻页按钮的完美结合。 分页控件在各类应用场景中广泛应用,如电子商城的商品列表、新闻应用的文章列表、图库应用的图片浏览等。通过合理的设计和交互,可以提升用户的浏览体验和数据访问效率。
56 3
|
1月前
|
42.[HarmonyOS NEXT Row案例十] 精美图文混排卡片:左图标与右文本的完美结合
在移动应用界面设计中,图文混排卡片是一种常见且实用的UI组件,它通过将图标和文本组合在一起,以简洁明了的方式呈现信息。本教程将详细讲解如何使用HarmonyOS NEXT的Row组件创建一个精美的图文混排卡片,实现左侧图标与右侧多行文本的布局效果。 图文混排卡片广泛应用于各类应用场景,如通知提醒、功能介绍、信息展示等。通过合理的布局和样式设置,可以提升用户体验和界面美观度。
55 4
|
1月前
|
39.[HarmonyOS NEXT Row案例七] 打造精美商品列表项:图文混排与多行文本的艺术
在电商应用和内容展示类应用中,商品列表项是一个核心UI组件,它需要在有限的空间内高效展示商品图片、标题、价格等多种信息。本教程将详细讲解如何使用HarmonyOS NEXT的Row组件结合Column组件创建一个精美的商品列表项,实现图文混排与多行文本的完美展示。
53 1
车辆车型大全 API 实战指南:推动交通行业智能化
车辆车型大全API由探数平台提供,旨在解决企业班车、物流运输及汽车销售等行业对标准化车型数据的需求。传统人工维护车型库效率低且易出错,而该API覆盖主流品牌与车系,包含品牌、车系、销售车型及配置参数等详细信息,适用于车队管理、电商平台及汽车资讯平台。API提供四个子接口:获取品牌、车系、销售车型与配置详情信息,支持高效查询。通过HTTP POST请求即可调用,返回结构化数据,助力企业实现智能化运营与科学决策,在绿色智能交通时代发挥重要作用。
97 4
|
4月前
鸿蒙开发:如何实现文本跑马灯效果
如果只是一个普通的跑马灯效果,而且Text文本组件中的TextOverflow.MARQUEE可以满足需求,以Text为主,如果你想控制文本的速度,暂停等功能,可以使用Marquee,如果你想实现复杂的场景滚动,比如图片,各种组件嵌套滚动,这种只能自己定义了。
131 1
鸿蒙开发:如何实现文本跑马灯效果
构建智能天气助手:基于大模型API与工具函数的调用实践
在人工智能快速发展的今天,大语言模型(LLM)已经成为构建智能应用的重要基础设施。本文将介绍如何利用大模型API和工具函数集成,构建一个能够理解自然语言并提供精准天气信息的智能助手。
400 11
给Web开发者的HarmonyOS指南01-文本样式
本系列教程适合 HarmonyOS 初学者,为那些熟悉用 HTML 与 CSS 语法的 Web 前端开发者准备的。
149 5
给Web开发者的HarmonyOS指南01-文本样式

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问