天易数聚产品
天易数聚产品体系主要由五个部分组成,产品结构如下图所示:
产品结构图
(1)服务体系:
标准服务体系,针对不同行业数据特点,自上而下制定数据标准,形成以标准驱动的服务体系,最终实现数据质量的有效提升。
安全服务体系,产品提供统一的安全服务体系,权限管理灵活可配置,支持多角色、用户分组功能,适应复杂的组织机构管理。
(2)产品体系:
从数据服务全程出发,数据从采集、存储及管理层面,我们提供数据治理平台SDG,主要实现多源异构的大数据采集和清洗转换,形成数据资产目录、数据血缘关系,最终实现大数据汇集管理的资产化。
从数据应用层面出发,我们提供机器学习平台AIR,为数据的建模分析利用提供基础算力。
从对外服务能力出发,我们提供自助式可视化系统LOOKUP、指标综合分析系统SRS、智能知识图谱系统SKG,为深度挖掘大数据关联关系,提供高效、可靠数据分析服务,有力支撑各行各类业务开展和系统建设工作。
1)数据治理平台SDG
(1)治理活动全覆盖
涵盖数据源连接、多元异构数据采集、元数据采集、主数据管理、数据剖析、数据稽核等多种类型数据治理活动,支持数据血缘分析、数据资源目录和数据服务API,实现数据治理活动全覆盖。平台拥有完善的异常数据分析监控及处理机制,无论是数据质量问题还是元数据异动,均能实现动态监测,确保数据完整性。平台采用HTTPS协议及SSL数据加密算法,支持国密算法,保证数据流转过程中数据安全。
(2)流程处理及共享
基于Flowable工作流机制,实现数据治理活动的高度可定制化,满足不同业务类型的数据治理要求。同时在数据一体化服务平台框架内,可直接对接机器学习平台和自助式可视化系统,完成后续数据分析和应用。也可以输出为文件、DB、消息队列及数据服务API等多种方式,对接第三方系统,实现数据共享利用。
(3)血缘分析及管理
血缘分析是保证数据融合(聚合)的一个手段,通过血缘分析实现数据融合处理的可追溯。当部分数据异常告警时,可通过血缘图向下追踪分析数据异常的原因,通过影响图向上分析哪些数据实体中的数据会受到影响。平台支持基于元数据的血缘自动分析,也支持基于数据库日志的数据血缘分析,满足各类数据管理要求。
数据血缘管理
(4)数据资源目录
资源目录体系是整个信息资源共享和开发利用的基础设施。信息资源目录体系的主要作用是实现对信息资源的发现和定位。平台基于元数据和标签体系,实现对资源目录的综合管理,并结合数据目录的发布、访问和下载应用等不同类型的服务形式,形成服务目录综合分析。
数据资源目录
2)机器学习平台AIR
(1)内置丰富模型
平台提供了多种常见的机器学习算法,例如广义线性建模(线性回归,逻辑回归等),朴素贝叶斯,主成分分析,k均值聚类和word2vec。 同时还提供分布式随机森林,梯度提升和深度学习等高级算法。另外,通过堆栈集成方法,可实现使用堆栈过程找到预测算法集合的最佳组合。
内置丰富算法(右侧)及算法使用教程
(2)向导式模型设计
系统提供基于WEB的Flow设计界面,方面客户在浏览器终端快速开展建模工作。内置向导式建模助手,涵盖数据导入、数据帧处理、模型选择、网格搜索以及模型构建、预测结果、导出和部署模型全部过程。同时支持自动机器学习,让系统自动评估所有算法性能和结果,实现零编程建模。
建模助手
(3)多种建模方式和接口
系统提供多种建模和交付方式,除了基于WEB的Flow可视化建模,支持开放式实验环境AIR CMD,提供包括R、Python、Scala、Java、JSON和Coffee Script/JavaScript的接口;提供交互式建模AIR Notebook,使用类Jupyter笔记本的交付方式,方便专家型用户进行交互式建模。
3)自助式可视化系统LOOKUP
(1)多数据源支持
针对可视化分析场景,既可以从数据治理平台获取清洗完成的数据集,也可独立部署获取数据集,支持常规关系型数据库、Excel、CSV、文本、图像、影音文件。对于结构化数据支持在线编辑、拆分、合并、降维等处理,形成工作表,并可按照可视化数据及时性要求,实现全量数据同步和增量数据同步。
丰富的数据源接入
(2)拖拽式建模工具
基于数据接入后生成的工作表,进行拖拽式建模工作,通过定义数据集的维度和量度,并指定关联关系,系统可自动匹配数据格式,自动予以图形化呈现,提高建模的直观程度。内置丰富数据模型,为可视化分析提供参考依据。
(3)所见即所得设计器
提供所见即所得的实时数据可视化功能,通过自定义可视化设计器,提供上百种可视化图形组件,全面支持ECharts、D3等图形化框架,支持地图组件。能够结合业务系统实际情况,提供3D效果组件,实现探索式可视化呈现。
所见即所得设计工具
4)指标综合分析系统SRS
(1)指标管理
在用户完成业务指标梳理后,通过指标分析系统,可将不同的业务系统中的数据统一管理在指标库中,通过多样化的指标设计方式满足指标口径来源的多样化需求。在现有指标设计完成后,可在此基础上设计并合成新的指标,无需重新梳理业务系统。指标管理包括指标定义、指标建模、指标固化等主要功能。
指标多维度分析
(2)指标应用
通过指标展示、指标数据服务实现指标的落地应用。指标展示,可利用自主可视化系统LOOKUP,借助图表、图形和地图等可视化元素,将指标信息和数据进行可视化展示,可以直观、便捷、高效的了解业务相关情况;指标数据服务,将在指标库中管理的指标生成数据服务功能,通过数据接口向外提供指标数据服务,提升数据共享能力。
指标可视化
(3)数据填报和审批
数据填报,可通过指标填报模板录入指标相关业务数据。支持插入提交、删除提交、更新提交等方式,对录入的数据进行校验。数据审批,实现对填报数据的审批工作。根据工作流,由下级单位将数据填报后,经过系统校验(校验失败的数据不能上报),将数据上报至商机单位审批,上级单位可对不满足要求的数据进行退回处理,对满足要求的数据进行审批通过,在上级单位审批前,下级单位可对提交的数据进行撤回
5)智能知识图谱系统SKG
(1)自然语言分析
基于NLP技术,实现信息提取、分词、知识抽取,完成知识获取步骤,为最终的知识融合和利用提供基础。以应急预案为例,通过自然语言分析技术,解决预案记忆难、寻找难的痛点,解决预案相关专业知识从专业人员头脑中变为让机器掌握和智能学习的难点,实现预案文本变成预案知识,最终形成以知识图谱为核心,支撑多知识利用场景,应急知识图谱构建和持续学习更新。
(2)知识融合
知识融合,即合并两个知识图谱(本体),基本的问题都是怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。综合利用数据治理平台的数据处理能力,从数据预处理、分块、记录链接、结果评估到结果输出,其中涉及到各类相似度计算、实体相似度计算、采用算法平台提供的聚合、聚类、向量计算等算法实现。
(3)知识利用
识别挖掘提取概念和实体属性及关系等知识,形成超大规模低噪音高价值的知识图谱,可以推理发现和预测等决策支持。提供诸如语义搜索、智能问答、语义理解、媒体理解、推理引擎、决策引擎等知识利用场景。
基于知识图谱构建的公安情报研判系统