百度AI智能学习

2018-10-17 529

春色将阑，莺声渐老，红英落尽青梅小。画堂人静雨蒙蒙，屏山半掩余香袅。
密约沉沉，离情杳杳，菱花尘满慵将照。倚楼无语欲销魂，长空黯淡连芳草。

首先安装python包

pip3 install baidu-aip

再注册百度AI得到相关参数

https://ai.baidu.com/

一、语音合成

from aip import AipSpeech

APP_ID = '14446020'
API_KEY = 'GnaoLWrIiTKP10disiDHMiNZ'
SECRET_KEY = 'FYaMNBsH5NFsgWcRsyBfaHDV70MvvE6u'

#实例化AipSpeech对象
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

#调用方法语音合成
result = client.synthesis("欢迎来到王者荣耀",
                          options={
                              "per": 1,
                              "spd": 9,
                              "pit": 9,
                              "vol": 15,
                          })
if not isinstance(result, dict):
    with open('auido.mp3', 'wb') as f:
        f.write(result)

二、语音识别

from aip import AipSpeech
import os

APP_ID = '14446020'
API_KEY = 'GnaoLWrIiTKP10disiDHMiNZ'
SECRET_KEY = 'FYaMNBsH5NFsgWcRsyBfaHDV70MvvE6u'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

def get_file_content(filePath):
    cmd_str = f"ffmpeg -y -i {filePath} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filePath}.pcm"
    os.system(cmd_str)
    with open(f"{filePath}.pcm", 'rb') as fp:
        return fp.read()

res = client.asr(speech=get_file_content("auido.mp3"),options={
    "dev_pid":1536,
})

print(res["result"][0])

这里用到一个格式转换的软件，百度地址：
https://pan.baidu.com/s/1MadxSh-A0Pzo1Su_wKdktQ 提取码：x5xi
固定的格式转换命令：（需要将bin文件添加环境变量，在cmd中执行）
ffmpeg -y -i filePath -acodec pcm_s16le -f s16le -ac 1 -ar 16000 filePath.pcm

三、短文本相似度

from aip import AipNlp

APP_ID = '14446020'
API_KEY = 'GnaoLWrIiTKP10disiDHMiNZ'
SECRET_KEY = 'FYaMNBsH5NFsgWcRsyBfaHDV70MvvE6u'
client = AipNlp(APP_ID,API_KEY,SECRET_KEY)

ret = client.simnet("你今年几岁了？","多大年龄了？")
print(ret)

{'log_id': 4545309161914786697, 'texts': {'text_2': '多大年龄了？', 'text_1': '你今年几岁了？'}, 'score': 0.742316} score 是两个测试的短文本相似度，一般大于0.72的两个短文本的意思是相似的句子！

四、代码实现对接图灵

import requests

def tuling_test(question):
    url = "http://openapi.tuling123.com/openapi/api/v2"
    data = {
        "reqType":0,
        "perception": {
            "inputText": {
                "text": question
            },
            "inputImage": {
            },
        },
        "userInfo": {
            "apiKey": "2f4e809b8b3049ce82a6b4787bad65bb",
            "userId": "wangjifei"
        }
    }

    return requests.post(url=url,json=data).json()

ret = tuling_test("心情不好")
print(ret.get("results")[0]["values"]["text"])

五、简单实现人机交流

基本步骤：
用户录制音频---传入函数---格式转化---语音识别---匹配答案---语音合成---语音文件流写入文件---os执行文件---删除文件

from aip import AipSpeech
from aip import AipNlp
from uuid import uuid4
import os
import requests
import time

APP_ID = '14446007'
API_KEY = 'QrQWLLg5a8qld7Qty7avqCGC'
SECRET_KEY = 'O5mE31LSl17hm8NRYyf9PwlE5Byqm0nr'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
nlp_client = AipNlp(APP_ID, API_KEY, SECRET_KEY)


def tuling_test(question):
    """接入图灵，为问题匹配答案"""
    url = "http://openapi.tuling123.com/openapi/api/v2"
    data = {
        "reqType": 0,
        "perception": {
            "inputText": {
                "text": question
            },
            "inputImage": {
            },
        },
        "userInfo": {
            "apiKey": "2f4e809b8b3049ce82a6b4787bad65bb",
            "userId": "wangjifei"
        }
    }
    ret = requests.post(url=url, json=data).json()
    return ret.get("results")[0]["values"]["text"]


def get_file_content(filePath):
    """音频的格式转换"""
    cmd_str = f"ffmpeg -y -i {filePath} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filePath}.pcm"
    os.system(cmd_str)
    with open(f"{filePath}.pcm", 'rb') as fp:
        return fp.read()


def custom_reply(text):
    """根据问题得到相应的答案，可以通过短文本相似来自定义，也可以调用图灵问题库"""
    if nlp_client.simnet("你叫什么名字", text).get("score") >= 0.72:
        return "我不能告诉你"

    return tuling_test(text)


def learn_say(file_name):
    """机器人学说话"""

    # 语音识别成文字
    res = client.asr(speech=get_file_content(file_name), options={
        "dev_pid": 1536,
    })
    os.remove(f"{file_name}.pcm")
    text = res.get("result")[0]
    # 根据问题得到相关答案
    text1 = custom_reply(text)
    # 答案语音合成
    res_audio = client.synthesis(text1, options={
        "vol": 8,
        "pit": 8,
        "spd": 5,
        "per": 4
    })
    # 通过uuid 生成文件名
    ret_file_name = f"{uuid4()}.mp3"
    # 将生成的语音流写入文件中
    with open(ret_file_name, "wb") as f:
        f.write(res_audio)
    # 执行音频文件
    ret = os.system(ret_file_name)
    time.sleep(2)
    os.remove(ret_file_name)

if __name__ == '__main__':
    learn_say("auido.m4a")

六、网页版智能机器人对话

flask_ws.py

from flask import Flask, request, render_template
from uuid import uuid4
from geventwebsocket.websocket import WebSocket
from gevent.pywsgi import WSGIServer
from geventwebsocket.handler import WebSocketHandler
from learn_say import learn_say

app = Flask(__name__)  # type:Flask

@app.route("/ws")
def ws():
    user_socket = request.environ.get("wsgi.websocket")  # type:WebSocket

    while True:
        msg = user_socket.receive()
        q_file_name = f"{uuid4()}.wav"
        with open(q_file_name, "wb") as f:
            f.write(msg)

        ret_file_name = learn_say(q_file_name)

        user_socket.send(ret_file_name)

if __name__ == '__main__':
    http_serv = WSGIServer(("127.0.0.1", 8006), app, handler_class=WebSocketHandler)
    http_serv.serve_forever()

flask_app.py

from flask import Flask, request, render_template, send_file

app = Flask(__name__)  # type:Flask

@app.route("/index")
def index():
    return render_template("index.html")

@app.route("/get_audio/<audio_name>")
def get_audio(audio_name):
    return send_file(audio_name)

if __name__ == '__main__':
    app.run("127.0.0.1", 8008, debug=True)

learn_say.py

from aip import AipSpeech
from aip import AipNlp
from uuid import uuid4
import os
import requests
import time

APP_ID = '14446007'
API_KEY = 'QrQWLLg5a8qld7Qty7avqCGC'
SECRET_KEY = 'O5mE31LSl17hm8NRYyf9PwlE5Byqm0nr'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
nlp_client = AipNlp(APP_ID, API_KEY, SECRET_KEY)


def tuling_test(question):
    """接入图灵，为问题匹配答案"""
    url = "http://openapi.tuling123.com/openapi/api/v2"
    data = {
        "reqType": 0,
        "perception": {
            "inputText": {
                "text": question
            },
            "inputImage": {
            },
        },
        "userInfo": {
            "apiKey": "2f4e809b8b3049ce82a6b4787bad65bb",
            "userId": "wangjifei"
        }
    }
    ret = requests.post(url=url, json=data).json()
    return ret.get("results")[0]["values"]["text"]


def get_file_content(filePath):
    """音频的格式转换"""
    cmd_str = f"ffmpeg -y -i {filePath} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filePath}.pcm"
    os.system(cmd_str)
    with open(f"{filePath}.pcm", 'rb') as fp:
        return fp.read()



def custom_reply(text):
    """根据问题得到相应的答案，可以通过短文本相似来自定义，也可以调用图灵问题库"""
    if nlp_client.simnet("你叫什么名字", text).get("score") >= 0.72:
        return "我不能告诉你"

    return tuling_test(text)


def learn_say(file_name):
    """机器人学说话"""

    # 语音识别成文字
    res = client.asr(speech=get_file_content(file_name), options={
        "dev_pid": 1536,
    })
    os.remove(file_name)
    os.remove(f"{file_name}.pcm")
    text = res.get("result")[0]
    # 根据问题得到相关答案
    text1 = custom_reply(text)
    # 答案语音合成
    res_audio = client.synthesis(text1, options={
        "vol": 8,
        "pit": 8,
        "spd": 5,
        "per": 4
    })
    # 通过uuid 生成文件名
    ret_file_name = f"{uuid4()}.mp3"
    # 将生成的语音流写入文件中
    with open(ret_file_name, "wb") as f:
        f.write(res_audio)

    return ret_file_name

index.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>

</head>
<body>
<audio src="" autoplay controls id="player"></audio>

<button onclick="start_reco()">录制消息</button>
<br>
<button onclick="stop_reco()">发送语音消息</button>

</body>
<script src="/static/Recorder.js"></script>
<script type="application/javascript">
    var serv = "http://127.0.0.1:8008";
    var ws_serv = "ws://127.0.0.1:8006/ws";

    var get_music = serv + "/get_audio/";
    var ws = new WebSocket(ws_serv);
    ws.onmessage = function (data) {
        document.getElementById("player").src = get_music + data.data
    };


    var reco = null;
    var audio_context = new AudioContext();
    navigator.getUserMedia = (navigator.getUserMedia ||
        navigator.webkitGetUserMedia ||
        navigator.mozGetUserMedia ||
        navigator.msGetUserMedia);

    navigator.getUserMedia({audio: true}, create_stream, function (err) {
        console.log(err)
    });

    function create_stream(user_media) {
        var stream_input = audio_context.createMediaStreamSource(user_media);
        reco = new Recorder(stream_input);
    }

    //录制消息
    function start_reco() {
        reco.record();
    }
    //先停止录制，再获取音频
    function stop_reco() {
        reco.stop();
        get_audio();
        reco.clear();
    }
    //获取音频，发送音频
    function get_audio() {
        reco.exportWAV(function (wav_file) {
            // wav_file = Blob对象
            ws.send(wav_file);
        })
    }
</script>
</html>

微信关注我们

原文链接：https://yq.aliyun.com/articles/656917

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【云产品】内容安全服务

大家好，我们都知道最近直播短视频类可以说是非常火爆了，海量的流量随之而来的问题就是鉴别不合规的内容，单纯的依靠人工审核是远远不够的，今天给大家介绍由阿里云推出的内容安全这款产品。内容安全是一款多媒体内容智能识别服务，支持对图片、视频、文本、语音等对象进行多样化场景检测，有效帮助您降低内容违规风险。常用的检测场景包括：智能鉴黄、暴恐涉政识别、图文广告识别、logo识别、敏感人脸识别、二维码识别、OCR图文识别、文本反垃圾、语音反垃圾、文件内容反垃圾等。内容安全提供【站点检测】功能，可以定期自动检测您的网站上的风险和违规内容；【OSS违规检测】功能，对您指定的OSS空间中的图片和视频进行涉黄、涉政检测；您也可以直接调用【内容检测API】，提交指定场景的机器识别任务。开通内容安全流程图产品的优势内容安全支持对海量多媒体内容进行快速检测，接入便捷、成本低，且经历实战检验，有效帮助您节省90%以上的人工审核成本。1、性价比高在节省90%以上的人力成本的同时，支持秒级返回结果，达到99%以上的准确率。2、经历实战检验支撑阿里系淘宝、支付宝等核心业务，经历双11实战检验，拥有海量的特征样本及丰富的数...

2018-10-17

580

官宣了，这些阿里云产品统统都降价！即日起，共有20多款产品迎来降价，其中华北3地域的弹性计算、数据库、存储等核心云产品的平均降幅高达25%，自然语言处理、智能语音交互等AI产品等均有大幅下调，另有多款面向开发者的产品提供免费试用。说到降价的原因，主要因为技术大升级和规模效应的双重加持。自从2017年发布神龙技术架构实现了革命性突破：将虚拟机的性能损耗降为零。并且研发POLARDB数据库、ESSD云盘、函数计算等新品，从软件层面充分发挥发挥计算资源的效率，释放技术红利。另一方面，云计算是典型的规模效应行业，用户体量的增长进一步降低了云计算的边际成本。美国权威调研机构Gartner最新报告显示，阿里云已连续两年稳居全球公共云前三。越来越多的企业放弃自建机房转向云计算，除了表面的显性成本外，运维、开发环境的搭建、网络安全等“隐性成本”更

2018-10-18

554

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。