数据科学,为企业创造更大的数据价值
- 产品管理模块
- 数据工程模块
- 数据科学模块
- 机器学习工程和 MLOps 模块
- 数据收集阶段: 数据工程师通过直接或间接的方式去生产或收集数据。
- 数据处理与分析阶段: 在收集到数据集之后,数据工程师需要对这些数据进行清洗和格式的转换,并对这些数据进行处理。
- 数据描述与组织阶段: 在处理完数据之后,数据工程师需要对数据文件进行命名、格式标准化、版本控制以及元数据创建等。
- 数据储存阶段: 在数据储存阶段,主要的目标是使数据长期保存而不被丢失。一般可通过离线储存或在线储存两种方式保存数据。
- 数据发布或共享阶段: 在数据发布或共享阶段,数据工程师需要建立数据管道以方便数据科学家和商业分析师调用相关数据。
- 监督学习(Supervised Learning): 机器学习的一种方法,从有标记的训练数据中推导出预测函数,并以此函数预测新的实例。函数的输出值可以是一个连续的值,也可以是一个分类标签。
- 非监督学习(Unsupervised Learning): 机器学习的一种方法,从无标记的训练数据中推断内在结构,自动对输入的数据进行分类或分组。
- 强化学习(Reinforcement Learning): 一种通过试错学习决定下一步行动方案的学习任务,努力使回报最大化。
- 数据平台: AWS、GCP、Snowflake、Databricks、PieCloudDB 等。
- 分析计算工具: Excel、Python (Pandas、NumPy、Scikit-learn、Matplotlib、Seaborn、Tensorflow) 等。
- 商业智能工具: Excel、Power BI、Tableau、帆软等。
参考资料:
- Goal-Oriented Requirements Engineering for Machine Learning: http://www.cs.toronto.edu/~soroosh/gr4ml_language.html
- What is the Data Science Lifecycle for Data Science Projects?: https://www.dominodatalab.com/blog/what-is-the-data-science-lifecycle
- Managing Data Science Projects: https://www.dominodatalab.com/resources/field-guide/managing-data-science-projects/
- MIT-Reshaping Business with AI: https://web-assets.bcg.com/img-src/Reshaping%20Business%20with%20Artificial%20Intelligence_tcm9-177882.pdf
- The Practical Guide to Managing Data Science at Scale: https://f.hubspotusercontent40.net/hubfs/6816846/The%20Practical%20Guide%20to%20Managing%20Data%20Science%20at%20Scale.pdf?utm_medium=email&_hsmi=80623003&_hsenc=p2ANqtz-8yL9Ctbn7wAk-iuUNeKHhQn-KsmOK8qCD720npb9cZGI7lrilLahs51l8GjysEypNkg6MowYoePtkHeYf5rzZzSPzCFQ&utm_content=80623003&utm_source=hs_automation
- Machine Learning Operations Maturity Model: https://learn.microsoft.com/en-us/azure/architecture/example-scenario/mlops/mlops-maturity-model

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
2022年12月中国数据库排行榜:OceanBase立足创新登榜首,华为腾讯排名上升树雄心
不经一番寒彻骨,怎得梅花扑鼻香。2022年12月的墨天轮中国数据库流行度排行榜火热出炉,本月共有249个数据库参与排名,相比上月新增3个数据库。本月排行榜前十用一句话可以概括为:榜单前十一片红,TODO 格局重洗牌,TDSQL 排名上升,数据库行业以“动”迎冬。 2022年12月排行榜TOP10得分详情表 目 录 一、榜单前十格局生变 二、后来之秀势如破竹 三、搜索引擎数据库风口已至 四、结 语 一、榜单前十格局生变 本月排行榜中,排名前十较上月有所变动。相比上月榜单前十得分情况,本月八成数据库热度指数上升。榜单前四中“双O组合”势不可挡,TDSQL 助力海外银行排名上升。接下来将具体分析榜单前十各国产数据库的最新进展。 OceanBase 本月得分较上月上涨7.5%,反超累计霸榜34个月的 TiDB,摘得桂冠。这也是其自2019年12月位列榜首后,第二次重夺第一。近日,OceanBase 从257项各类申报成果中脱颖而出,第三次入选世界互联网领先科技成果。截至目前,其已经申请发明专利350多项,获得授权发明专利200多项,主导和参与国家/行业标准10多项。OceanBase 立足创新...
- 下一篇
如何设计一个高性能的图 Schema
本文整理自青藤云安全工程师——文洲在青藤云技术团队内部分享,分享视频参考:https://www.bilibili.com/video/BV1r64y1R72i 图数据库的性能和 schema 的设计息息相关,但是 NebulaGraph 官方本身对图 schema 的设计其实没有一个定论,唯一的共识就是是面向性能去做 schema 设计。 而 Neo4j 在它的书籍上则阐述希望用户能够尊重本身业务领域实体的关系进行设计,这次的分享主要是为了解答下面这些问题: 什么时候用图数据库,什么时候用图计算 什么时候建实体,什么时候建关系 什么时候建实体,什么时候添加属性 什么时候属性加索引 什么时候属性加到图 图数据库最佳实践 希望能从原理上能够解释一下,如果当中有任何不妥当的地方欢迎一起交流。 背景知识 先来讲解下存储背景,再讲 Schema 设计中会遇到的问题,最后讲下实践过程中我们能达成一致的最佳实践。 在使用图数据库之前,先了解下图数据库这个 NoSQL 数据库同关系型数据库不一样的地方。 关系型数据库存储结构 以上图为例,存一个 ID 作为一个主键,然后它有个特征 k,我们对 k 创...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境