AI视觉第二天

简介: AI视觉第二天,身份证识别系统搭建笔记。

一:项目的文件结构:
它是通过 spring-boot-starter 创建的一个 spring-
boot 项目。
image.png
项目中主要文件:

1.Application:Spring-Boot 的一个启动类;

  1. MainController:控制器层,负责模版的渲染、路由等功能;
    3.OcrService:负责通过 SDK 调用视觉智能开放平台的 OCR 能力;
  2. index.html:基于 thymeleaf 的前端模版;
  3. application.properties:包含若干配置项的配置文件;
  4. pom.xml:pom 依赖。

二:获取视觉智能开放平台提供的 SDK
进入到视觉智能开放平台的官网 https://vision.aliyun.com/ 后往下拉选择如图:
image.png
可以通过 https://mvnreposito-ry.com/artifact/com.aliyun/ocr 来找到我们所需要的相应版本的 SDK。
三:项目实现逻辑
(一)前端
(二)控制层
定义的若干个私有成员;
MainCntroller;
saveFile;
index;
uploadFile。
(三)OcrService

打卡记录:image.png

相关文章
|
2天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
10天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
21 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
1月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
74 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
57 1
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
18 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
3月前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
3月前
|
存储 机器学习/深度学习 人工智能
视觉AI的公共云服务有哪些优势
视觉AI的公共云服务有哪些优势
|
3月前
|
人工智能 API 开发工具
视觉AI的公共云
视觉AI的公共云
|
9月前
|
机器学习/深度学习 存储 人工智能
|
9月前
|
人工智能 智能设计 达摩院

热门文章

最新文章