轻松上手-识图文字朗读-低调大师

轻松上手-识图文字朗读

2025-09-04 252

踏入鸿蒙世界的敲门砖，标志着您在技术征途上的全新起点，提升就业竞争力，获得行业认可，点亮职业成长先机，快人一步抢占未来应用开发赛道！
https://developer.huawei.com/consumer/cn/training/dev-cert-detail/101666948302721398?ha_source=hmosclass-juejin&ha_sourceId=89000434

介绍

本案例旨在介绍一种创新的图像识别与语音合成技术，专注于将图片中的文字内容精准识别并转化为可听的语音输出。通过集成先进的OCR（光学字符识别）技术和TTS（文本到语音）转换技术，本方案能够迅速捕捉图片中的文字信息，无论是文档扫描、书籍页面还是路标指示，都能实现高效准确的识别。随后，利用智能语音合成技术，将识别出的文字流畅地朗读出来，为视觉障碍人士、阅读不便者以及需要高效信息获取的用户提供极大便利。该技术不仅拓宽了信息获取的渠道，还极大地提升了信息处理的效率和用户体验，是现代智能科技助力生活品质提升的典型应用。

效果预览

知识点

1. Picker（选择器）

2. textRecognition（文字识别）

3. textToSpeech (文本转语音)

工程目录

具体实现

下面介绍一下如何实现识别图片文字，并朗读识别出来的文字，我习惯把逻辑功能放到单独的文件里，在界面上调用，这样UI和逻辑分开，从工程目录可以看出，Index.ets文件是负责UI的，ImageUtils.ets文件里包含两个funtion，一个是getChooseImage从图库选择图片并返回，一个是readImage2Text把参数图片里的文字识别出来并返回，Speaker.ets文件是文字转语音的逻辑，包含创建对象，调用播放、暂停接口。

1. 图片选择

选择器(Picker)是一个封装PhotoViewPicker、DocumentViewPicker、AudioViewPicker等API模块，具有选择与保存的能力。应用可以自行选择使用哪种API实现文件选择和文件保存的功能。该类接口，需要应用在界面UIAbility中调用，否则无法拉起photoPicker应用或FilePicker应用。

2. 识图文字

通用文字识别服务提供图像信息转换为字符信息的能力。通过拍照、扫描等光学输入方式，把各种票据、卡证、表格、报刊、书籍等印刷品文字转化为图像信息，再利用文字识别技术将图像信息转化为计算机等设备可以使用的字符信息，便于用户提取字符内容、屏幕坐标及外框。目前本服务支持识别的语言有：简体中文、英文、日文、韩文、繁体中文五种语言。

3. 朗读文字

文本转语音服务提供将文本信息转换为语音并进行播报的能力，便于用户与设备进行互动，实现实时语音交互，文本播报。

4. 界面布局

界面布局为垂直布局，最上面是两个按钮，水平布局，下来是选择图片后，预览图片，再下来是从图片识别出来的文字。

约束与限制

1.本示例仅支持标准系统上运行，支持设备：华为手机。

2.HarmonyOS系统：HarmonyOS NEXT Developer Beta1及以上。

3.DevEco Studio版本：DevEco Studio NEXT Developer Beta1及以上。

4.HarmonyOS SDK版本：HarmonyOS NEXT Developer Beta1 SDK及以上。

（转载自51CTO，作者：狼哥Army）

微信关注我们

原文链接：https://www.oschina.net/news/370199

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI 已向免费用户开放 ChatGPT Projects 功能

OpenAI宣布向免费版ChatGPT开放Projects（项目）功能。 Projects功能最早发布于2024年的12月14日，此前是付费用户的专属，现在终于免费开放了。 ChatGPT的Projects功能可以让你把各类相关内容集中管理，极大提升使用效率。例如，你正在筹备一场婚礼，事情繁杂，要考虑场地、宾客名单、婚礼流程、预算等诸多事项。这时，你就可以在ChatGPT里创建一个 “婚礼筹备” 项目。在这个项目中，你能把和婚礼策划师交流场地选择的对话放进来，上传不同场地的图片、报价单等文件，还能添加自定义指令等功能。例如，以婚礼策划专家的角度，给我提供专业建议。之后，不管你是询问婚宴菜单设计，还是婚礼当天流程安排，ChatGPT都会结合项目里的这些信息，给出贴合你需求的回答。简单来说，ChatGPT新增Projects功能后，已经从一个单一的AI对话，演变成一个高效率的协作万能工具箱，无论是开发代码、分析文件、搜索新闻都非常方便，成为提升工作效率的利器。也可以把ChatGPT项目，看成是个人版的ERP或CRM。 OpenAI表示，免费版Projects功能在原有基础上进行了更新，...

2025-09-04

289

踏入鸿蒙世界的敲门砖，标志着您在技术征途上的全新起点，提升就业竞争力，获得行业认可，点亮职业成长先机，快人一步抢占未来应用开发赛道！ https://developer.huawei.com/consumer/cn/training/dev-cert-detail/101666948302721398?ha_source=hmosclass-juejin&ha_sourceId=89000434 介绍在社交媒体日益繁荣的今天，九宫格切图以其独特的视觉呈现方式，成为了朋友圈中的一股清新之风。通过将一张完整图片精心切割为九个小方块，再依次排列发布，不仅让图片内容更加层次分明，还能激发观者的探索欲，引导他们逐格浏览，享受发现新细节的乐趣。九宫格图片的用处广泛而巧妙。它适用于旅行美景的展示，每一格都是一处风景的缩影，串联起一段完整的旅程记忆；也是美食分享的绝佳选择，从食材准备到成品呈现，步步精彩，让人垂涎欲滴；更可用于生活日常的创意记录，无论是温馨的家庭瞬间，还是个人的小确幸，都能在九宫格的框架下，被赋予更多故事性和观赏性。这种创意切图方式，让每一次分享都变得更加有趣和生动，是连接...

2025-09-04

303

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。