EMLL —— 高性能端侧机器学习计算库-低调大师

EMLL —— 高性能端侧机器学习计算库

2021-06-24 2105

EMLL(Edge ML Library)为加速终端侧设备上机器学习的推理而设计，提供基于端侧处理器的高性能机器学习计算函数库。EMLL支持fp32、fp16、int8等数据类型，已在有道词典笔、翻译王和超级词典等硬件产品的机器翻译和语音识别引擎中应用，大幅降低了推理延迟。

特点

高性能

EMLL实现的矩阵乘法函数，为端侧人工智能中常见的扁平矩阵作了专门的优化，为各常见ARM处理器作了特定的优化。对于cortex-A35/A53/A55处理器，本库针对它们的流水线特点，使用了汇编级别的优化。

下面是单精度矩阵乘法的测试结果：

矩阵乘法的通式为 C[MxN] = A[MxK] B[KxN]；所列数据为全行主序和全列主序的最好性能。

易用性

EMLL使用的函数接口在参数设计上力求简洁直接，矩阵乘法去掉了不常用的LD*参数，矩阵和向量的传递通过指针和整数维度分别传递。本库的构建和运行不依赖第三方计算库。

扩展性

对于矩阵乘法和量化函数，EMLL 库提取了它们和架构无关的代码作为通用的宏，这些宏可以在支持新的CPU架构时大大节省所需的代码量。

EMLL 应用接口

EMLL提供基于 C 的接口，详情请见 Usage_ZH.md。

函数类型	函数名称	函数参数
矩阵乘法	data_type + "gemm"	源矩阵排列顺序，各矩阵地址，M，N，K，beta，并行线程数
全连接层(单精度)	"fc"	src/weight/bias/output的地址，M，K，N，源矩阵排列顺序，(并行线程数)
量化	"quantize_" + "symmetric"/"asymmetric" + input_type + output_type	输入数组，输出数组，(输出零点值)，缩放值，数组大小，输入范围
重量化	"requantize_" + "symmetric/asymmetric" + "_XtoY"	输入数组，输出数组，(输出零点值)，输出缩放值，数组大小，输入范围
偏置	"bias" + data_type	被偏置的矩阵，标量偏置，平行于主方向的向量偏置，平行于次方向的向量偏置，矩阵大小

各函数支持的数据类型

处理器	矩阵乘法	偏置	量化	重量化
ARMv7a 32-bit	fp32，(u)int8	fp32，int32	fp32 -> (u)int16/(u)int8	int32 -> (u)int16/(u)int8，int16 -> (u)int8
ARMv8a 64-bit	fp32，fp16，(u)int8	fp32，int32	fp32 -> (u)int16/(u)int8	int32 -> (u)int16/(u)int8，int16 -> (u)int8

EMLL 支持在 Linux 和安卓系统上运行。

EMLL 支持用 GCC 和 Clang 编译。

微信关注我们

原文链接：https://www.oschina.net/p/emll

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

fast-poster 通用海报生成器 V1.3.3

v1.3.3 新特性增加图片b64格式返回更新最新客户使用人数 33W+ fixbug Java代码生成本地endpoint路径问题 fast-poster通用海报生成器简介快速：三步完成海报开发工作：启动服务>编辑海报>生成代码简单：组件丰富、支持拖拽、复制、所见即所得、下载等功能。动态：无需更改代码，直接在编辑器修改海报即可获得最新的海报。相关链接感兴趣的小伙伴，不妨给个star，⭐️⭐️。在线体验代码仓库-github 代码仓库-gitee 快速运行 docker run --name fast-poster -p 9001:9001 tangweixin/fast-poster 效果展示设计器代码生成至此，海报部分开发完成，将代码嵌入业务代码即可。

2021-06-25

644

代码拉取完成，页面将自动刷新

2021-06-25

581

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。