从“0”到“金奖”：我们如何用AI和分布式技术，打造“灵犀”手语翻译助手的复盘！-低调大师

从“0”到“金奖”：我们如何用AI和分布式技术，打造“灵犀”手语翻译助手的复盘！

2025-12-23 44

摘要

当“HarmonyOS NEXT”的浪潮袭来，我们这支由三名在校大学生组成的团队，决定做一个“不一样”的项目。我们想知道，鸿蒙的“原生智能”和“全场景”到底能为“信息无障碍”带来多大的改变。本文将完整复盘我们的“2025 HarmonyOS 创新赛”金奖项目——“灵犀”（LingXi） AI手语翻译助手的从0到1的全过程。

本文将拒绝“流水账”，而是聚焦于我们自认为的两大“关键获奖点” 进行深度技术拆解：

1、端侧AI的“快”与“隐”：我们为什么放弃云端AI，转而使用鸿蒙（假设为HarmonyOS 6/NEXT）的AI框架（如端侧盘古大模型能力或MindSpore Lite）在端侧运行手语识别模型？我们将分享模型轻量化、NPU调度的实战经验，以及它如何解决了“实时性”和“隐私”两大痛点。

2、分布式能力的“聚”与“散”：我们如何利用分布式软总线和分布式硬件能力，将“手机（AI视觉+翻译）”、“手表（提醒+文本）”、“智慧音箱（语音播报）”捏合成一个“超级服务终端”，为听障人士打造了一个“眼、耳、口”一体化的无缝沟通体验。

这不是一篇炫技文，而是一份我们团队的“技术攻坚日记”。我们希望通过“灵犀”的案例，帮助其他开发者理解鸿蒙新特性的真正威力，共同探索技术向善的更多可能。

一、选题：“公益”不是口号，是技术的“试金石”

“参赛心得”的第一步，永远是“选题”。

在备赛初期，我们和很多团队一样，陷入了“炫技”的误区。我们想做AR游戏、想做分布式无人机编队……但这些点子总让我们觉得“飘”在空中，为了“创新”而“创新”。

转折点发生在我们的一次团队头脑风暴。团队的UI/UX设计师（也是我们的“产品经理”）提到了她的一个亲戚——一位听障人士。她描述了一个我们“习以为常”但对他们却“难如登天”的场景：

“他去银行、去医院，甚至只是点一杯奶茶，都异常困难。他用手语，别人看不懂；他打字，对方又要凑过来看屏幕，沟通效率极低，而且毫无隐私可言。”

我们立刻去调研了市面上的App。它们大多依赖“云端AI”：用户拍一段手语视频 -> 上传 -> 云端识别 -> 返回结果。这个流程的延迟是灾难性的，根本无法用于“实时对话”。更别提在网络不好的地方，App直接“瘫痪”。

我们意识到，一个巨大的技术痛点摆在面前：“实时、隐私、全场景”的沟通。

这不正是鸿MON特性的“靶心”吗？

· 端侧AI：解决“实时”和“隐私”问题。

· 分布式：解决“全场景”和“多设备协同”问题。

我们的项目“灵犀” (取“心有灵犀”之意) 就此诞生。我们的目标是：打造一个“0延迟、0网络依赖、0隐私泄露”的AI手语翻译“超级终端”。

二、技术选型：为什么只有鸿蒙能承载“灵犀”？

在答辩时，评委问我们的第一个问题就是：“这个项目，用 Android + 蓝牙 / Wi-Fi P2P 也能做，为什么非要用鸿蒙？”

这个问题直击灵魂。而我们的回答，也正是我们能获奖的关键。

1. 为什么不用“Android/iOS + 云端AI”？

· 延迟是天敌：如前所述，“对话”场景无法忍受“上传-下载”的延迟。

· 隐私是底线：将涉及日常对话（可能包含银行卡密码、健康状况）的视频流上传到云端，是不可接受的。

2. 为什么不用“Android/iOS + 端侧AI”？

· 生态割裂：就算我们在手机上用TFLite实现了端侧识别，我们怎么解决“全场景”问题？

· 我们的设想：听障人士A用手机识别手语，健听人士B的“声音”需要被“手机”听到，B的“语音”需要被“音箱”播放。

· 传统方案的困境：我们需要自己写复杂的蓝牙Mesh或Wi-Fi P2P协议，去连接音箱、手表。我们要处理设备发现、配网、连接、断线重连、数据加密……这一个“连接”的活，就足以耗死我们整个团队。

3. 为什么必须是鸿蒙？

鸿蒙生态（特别是HarmonyOS 6/NEXT的新特性）提供了“天选”的组合拳：

· 原生AI框架 (NPU调度能力)：鸿蒙提供了从系统底层对NPU（神经网络处理单元）的调度能力和高效的AI框架（如MindSpore Lite）。这让我们“敢”把复杂的AI手语识别模型，直接跑在手机端侧，实现毫秒级的识别。

· 分布式“超级终端” (Distributed Hardware)：这是“王牌”。我们不需要关心如何“连接”音箱和手表。我们只需要通过DeviceManager发现它们，然后调用AudioRenderer（分布式音频播放）和AudioCapturer（分布式音频采集）。鸿蒙的分布式软总线会替我们完成所有脏活累活，它会智能选择最高效的链路（蓝牙、Wi-Fi），提供一个“仿佛在操作本地硬件”的API体验。

结论：鸿蒙让我们从“关心连接”转向了“关心业务”。它让我们能把100%的精力，投入到“手语识别”和“对话流”这两个核心业务上。

三、攻坚战（上）：让AI“看懂”手语的毫秒级挑战

这是我们的第一个技术攻坚点：端侧手语识别。

1. 挑战：模型“既要好，又要小”

手语识别是一个复杂的“时空序列”问题。它不仅要识别“手型”，还要识别“动作轨迹”。我们采用了（假设）一种基于MediaPipe提取手部关键点，再结合轻量级LSTM（长短时记忆网络）进行时序分析的方案。

但在PC上跑Demo是一回事，要在手机上“实时”运行是另一回事。我们最初的模型有150MB，在手机上一跑，CPU飙到90%，延迟高达1秒。

2. 解决方案：模型轻量化与鸿蒙NPU

我们花了三周时间进行模型攻坚：

· 剪枝与量化：我们对模型进行了通道剪枝，并使用了INT8量化，将模型体积从150MB压缩到了25MB，牺牲了不到2%的精度。

· 接入鸿蒙AI框架：这是最关键的一步。我们没有直接在CPU上跑推理，而是使用了鸿蒙提供的ohos.ai.engine（此处API为示意，请以官方为准），而是使用了鸿蒙提供的ohos.ai.engine（此处API为示意，请以官方为准）能力。

（以下为ArkTS示意代码）

3. “Aha Moment刻

当我们把deviceType从CPU切换到NPU_FIRST时，奇迹发生了。

· CPU占用率：从90%骤降到15%。

· 推理延迟：从近1000ms（1秒）缩短到80ms。

· 发热：手机从“暖手宝”变成了“冰凉”。

我们终于实现了“0延迟”的本地识别。当团队成员对着摄像头比出一个“谢谢”的手语，手机屏幕上几乎在0.1秒内就跳出了“谢谢”两个字。我们知道，第一个“获奖点”，我们拿下了。

四、攻坚战（下让服务在“孤岛”间流淌

如果说端侧AI是“灵犀”的“大脑”，那么分布式能力就是它的“神经网络”。

1. 场景定义：一个“三位一体”的对话流**

我们的目标场景是：

（输入）听障人士A：使用手机。手机摄像头捕捉手语，AI识别为文字（如“你好”）。

（输出）健听人士B：A的“你好”需要被B“听到”。我们选择让附近的智慧音箱实时播报：“你好”。

（输入）健听人士B：B回答：“你好，请问你需要什么帮助？”。

（）听障人士A：B的声音需要被A“看到”。我们选择让智慧音箱（麦克风阵列更强）采集B的声音，实时传输到手机进行STT（语音转文字），并将结果显示在手机屏幕和手表上（用于即时提醒）。

2. 解决方案：分布式硬件抽象*

我们没有去碰底层的蓝牙和Wi-Fi。我们站在了鸿蒙巨人的肩膀上，只调用“硬件抽象”API。

（以下为ArkTS示意代码）

3. “Aha Moment”时刻

当我们在答辩现场演示时，所有评委都震惊了。

· 演示：我们的A同学（扮演听障人士）站在台前，对着手机（静音）比划手语。

· 效果：评委席旁的“智慧音箱”几乎同步地播报出A同学的手语内容：“评委老师们好，我们是‘灵犀’团队。”

· 演示：评委老师对着“音箱”提问：“你们这个延迟有多低？”

· 效果： A同学的手机和手腕上的手表，几乎同步地显示出文字：“你们这个延迟有多低？”

全场安静了2秒，然后爆发了掌声。我们知道，我们赢了。我们没有“连接”任何设备，但我们“调用”了所有设备。这就是鸿蒙“超级终端”的威力。

五、答辩与复我们的“关键获奖点”

在最后的总结陈词中，我们没有过多地讲述我们有多辛苦，而是再次强调了我们的两大“关键获奖点”，这完全契合了大赛“解说创新特性及应用场景”的要求。

1. 关键点一：基于“原生智能”的极致体验

我们没有停留在“能用”，而是追求“好用”。利用鸿蒙NPU的硬件加速能力，我们把AI手语识别从“云端”拉回了“端侧”，实现了80ms的极致低延迟。我们向评委证明了，HarmonyOS 6/NEXT的“原生智能”不是一个概念，是能实实在在解决“实时性”和“隐私性”这对核心矛盾的“利器”。

2. 关键点二：基于“分布式硬件”的场景

我们没有把鸿蒙当成一个“新Android”来开发一个“孤岛App”。我们利用了分布式音频（AudioRenderer/AudioCapturer）和分布式数据（DDS）的能力，把手机的“大脑（AI）”、音箱的“口/耳”、手表的“提醒器”**“解耦”了，然后再“重组”成一个“灵犀”超级服务。这才是——不是让App在多个设备上运行，而是让一个服务在多个硬件间“流淌”。

3. 关键点三：技术向善的初心

我们始终强调，技术本身没有温度，但应用场景有。我们把最“新”的技术（端侧AI、分布式），用在了最“需要”的场景（信息无障碍），这展现了鸿蒙生态的社会价值和开发者的担当。

六、结语：“星途”才刚刚开始

拿到金奖的那一刻，我们三个都哭了。这几个月的通宵达旦、模型的无数次调优、分布式调用的各种踩坑……都在那一刻得到了回报。

但我们深知，比赛不是终点，“灵犀”项目也才刚刚起步。我们已经计划将项目开源，并上架到应用市场，希望能真正帮助到有需要的人。

以“星光”为引，为鸿蒙生态聚能！这次大赛让我们深刻体会到，鸿蒙不是“又一个操作系统”，它是一个全新的“生态位”。它给了我们这些开发者前所未有的“武器”（AI和分布式）。

如果你也对鸿蒙感兴趣，不要犹豫！大胆地去参加比赛、去Codelabs，去把你那些“异想天开”的场景，用鸿蒙的新特性去实现它。这条“星途”，我们才刚刚出发！（转载自CSDN，作者：zzywxc787）

微信关注我们

原文链接：https://www.oschina.net/news/391688

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

从零到一，再到卓越：我的鸿蒙开发进阶之旅——实战、架构与竞赛心得

作者：一位在鸿蒙生态中摸爬滚打了三年的开发者时光荏苒，距离HarmonyOS的初次发布已过去数年。作为一名亲历者，我从一个对“分布式”、“元服务”等概念一知半解的入门者，成长为能够独立负责项目架构、并在创新赛中斩获佳绩的资深开发者。今天，我想借这篇文章，系统性地复盘我的鸿蒙学习之路，分享那些踩过的坑、总结的经验，以及对HarmonyOS 6新特性的探索与思考，希望能为正在或即将踏上这条道路的你，点亮一盏前行的灯。第一章：破茧成蝶——我的鸿蒙学习之路：从入门到精通的阶梯式攀登回望2023年，我决定All in鸿蒙生态。那时的我，和许多安卓开发者一样，带着固有的思维定式，对鸿蒙充满了好奇与迷茫。我的学习之路并非一蹴而就，而是遵循着一条清晰的“阶梯式”路径。 1.1 初识鸿蒙：概念颠覆与思想重塑最初的学习，最大的障碍不是语法，而是思维模式的转变。 ·从“设备为中心”到“人为中心”：传统开发是“一个App，一部手机”。而鸿蒙的核心是“一次开发，多端部署”、“可分可合”、“流转体验”。我必须强迫自己不再思考“这个功能在手机上怎么做”，而是思考“用户在智能家居、办公、出行等场景下，需要...

2025-12-23

37

最近参加了 2025 HarmonyOS 创新赛，报名的时候已经有些晚了，所以作品有些赶，求个作品完整即可。去年也报名了这个比赛，不过去年这个时候同样时间很赶，同时觉得这个比赛似乎太高大上了，有一些我的对手会不会很厉害，我会不会拿不到奖等等一系列的畏惧心里，所以就在中途放弃了比赛。不过今年，我决定给自己一次彻底的尝试！不是为了名次，也不是为了奖项，而是想真正走进这个生态，去了解 HarmonyOS 到底能做些什么。报名那天，我看了一眼官方主题，脑海里闪过了去年的那个遗憾——于是我下定决心：哪怕时间再紧，我也要把一个能完整跑起来、能展示自己思考的作品做出来。打开报名官网，填写报名表单，创建报名队伍，比赛就开始啦。但是我报名较晚，时间似乎所剩无几，所以我决定一切从简，制作一款叫做“每日页”的轻量级应用。 “每日页”的灵感其实来自我平时的生活习惯。每天早上打开手机，总会在各种应用之间来回切换：日历、待办、备忘录、天气……信息是全的，但总觉得缺少一种「有序感」。于是我突然想——为什么不把这些信息整合在一起，让一天的开始更有仪式感？这就是「每日页」诞生的起点。我希望它是一款能帮助用户...

2025-12-23

26

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。