一、平台概述
数据科学协同创新平台是一款集成大数据开发、数据挖掘、数据可视化等功能的综合性科研实训系统。平台将数据科学算法及数据分析图表等功能代码模块化,通过用鼠标拖拽的方式即可便捷的构建数据科学流程,实现数据科学应用开发。旨在为高校提供大数据应用开发可落地的实验实训及部署环境,提升学生对数据的实际应用能力。结合高校的数据科学理论教学,帮助学生成为拥有实践经验的应用者,让学生能够真正掌握大数据科研能力,提升学生的综合市场竞争力。
二、建设目标
数据科学协同创新平台通过提供各行业场景模板,内嵌的算法算子及强大的数据处理能力,结合系统提供的经过一线验证的数据科学行业案例,可供大数据、人工智能相关专业的师生在平台上完成大数据、人工智能实训工作。培养学生了解行业工程实践经验,具备相应的定量分析、科学预测和算法模型应用能力。
数据科学协同创新平台内嵌了结合各个行业的数据可视化、数据挖掘等方向的课件资料,包括基础技术知识、核心技术知识、模块化基本场景应用以及每个算法的详细介绍及应用资料,可以有效助力用户完成由初级教学到高阶实训的转化。
三、平台架构
数据科学协同创新平台采用B/S架构,支持自适应布局和任意终端的缩放;支持直接使用浏览器登录访问,实验开展不受空间限制,在网络联通情况下即可访问系统开展实验。
四、建设内容
1、项目管理系统
项目管理系统提供数据科学项目管理功能,用户通过创建项目,并在项目中创建工作流、可视化、在线编程文件,进行数据科学开发的相关工作。
- 支持用户进行对项目的增删改查操作;
- 项目内支持创建并使用pipeline、可视化、交互式编程等开发工具;
- 项目信息包括项目名称、项目创建人、创建时间、修改时间、项目简介;
- 内置项目网址,支持查看分享。
2、自动建模系统
数据科学协同创新平台内建有多种满足各行业场景的基础数据输入组件,支持主流的数据源接口及数据格式,满足用户个性化的数据挖掘需求。用户想从大数据中揭示什么样的趋势、 规律等决策知识,数据科学协同创新平台都可以实现。支持所有主流的大数据、人工智能算法,同时,数据科学协同创新平台具备可拓展性,可供用户开发新的算法算子。
- 支持运行、调试、结果预览、保存、另存为等基础功能;
- 算子数量超过100个,涵盖数据处理、特征工程、机器学习算法、模型评估等全流程的开发步骤;
- 实现算子运行可视化效果,并且支持搜索功能,可以快速查找算子 ;
- 操作区中用户可通过拖拽算子连接,构建AI开发流程,操作区可实现多算法、多分支、多算子流同时运行。
- 支持配置算子参数,算子参数直接影响模型结果;
- 支持实时查看算子的运行结果;
- 内置算子说明,说明介绍算子基本信息、应用场景、详细参数,帮助用户了解使用。
- 支持实时反馈运行日志,可以查看每个任务节点的状态、结果报告以及节点日志,清楚了解pipeline运行情况。
3、可视化大屏模块
可视化大屏模块提供web式的可视化快速开发功能,支持响应式开发,操作简单快捷,基于行业数据可以快速便捷的搭建商业智能模型。设计功能方面是一个精简版的可视化开发平台,拥有数据可视化(BI)常用的功能、交互和图形组件。
可视化大屏模块配置数据及设置可视化图形样式方式简便易上手;可以通过布局组件加点击移动按钮的形式来移动已经拖入设计区的图形组件。简便的操作只为快速实现BI数据可视化模型。
- 包含多种页面样式,用户可根据屏幕大小、颜色、主题自动切换大屏样式,制作酷炫的大屏;
- 用户可根据自己的需求构建可视化网站,支持网页间的跳转,可实现复杂的可视化大屏制作;
- 可视化大屏可自动的刷新内容,可根据用户需求设置定时任务;
- 支持对数据进行排序、条件运算、筛选等复杂统计运算操作;
- 支持将已制作好的大屏发布和共享;
- 组件接近80个,涵盖基本、表单、图形、地图、形状、组合等类型;
4、交互式编程模块
数据科学协同创新平台的交互式编程模块,支持用户对平台的二次开发和科研实训。编程平台界面简洁,功能齐全,容易上手操作。用户可以在编程平台上实现具体模型中的算法,尤其适合搞科研的用户,可以灵活切换拖拽组件和编程方式,提高科研效率。
- 支持支持笔记本、控制台、终端、文本文件、Python文件等编码形式;
- 支持Debug功能,可查看变量、调用堆栈、断点调试、查看源文件和内核源;
- 支持快捷展示正在打开的文件、启动的内核、运行的终端;
- 支持快捷显示笔记本目录,点击目录可快速定位;
5、自定义组件功能
自定义组件功能支持用户通过代码编写组件,拓展自动建模系统的功能,满足更多的定制化的大数据、人工智能开发需求;模块对用户编码内容没有限制,支持数据处理、特征工程、机器学习算法、模型评估等各个类型的算子编程,同时支持用户测试算子的可用性,测试通过的算子可在自动建模系统与内置标准的算子连接,构建数据挖掘流程,实现数据挖掘任务。
6、资源管理系统
资源管理系统是对开发流程中数据和模型的统一管理,科研资源包括本地数据、数据源、平台模型等,资源系统实现自动建模系统和可视化大屏模块的打通,用户可利用科研资源进行数据科学相关工作的开发。
- 本地数据支持txt、csv、excel等格式,具备数据预览的功能;
- 数据基本管理能力,支持本地数据和数据源增删改查功能;
- 用户可配置数据源接口;支持十多种数据源包括关系型数据库、非关系型数据库、时序数据库、云端数据库、分布式文件系统;
- 可将本地算法模型上传到系统,并应用于自动建模系统;
7、行业场景模块
行业场景模块的标准案例集成了涵盖十多个行业,数据挖掘、数据分析、AI开发等方向的科研实训案例,案例包含实验指导和可运行项目,用户可一键保存该案例到本地空间,进行实训学习。
案例模块还支持用户自己编写案例,支持Markdown,支持关联项目;同时用户也可以将案例共享出来,让所有的用户学习何使用,一方面教师可以凭此功能进行实训授课、作业练习,另一方面同学间可以进行学科交流,促进科研水平的提高。
8、管理端功能
管理端对平台的所有用户进行统一的管理,管理用户信息,支持对用户的项目、数据、模型、资源、回收站等文件进行删查操作;并统计用户平台的使用情况。
管理端支持回收站功能,支持恢复已删除的文件,如果占用平台空间过大导致系统无法正常工作,也可永久清除部分文件或者清空回收站。