文章
· 六月 8, 2023 阅读大约需 2 分钟

使用InterSystems Integrated ML

数据分集 (测试数据可以在网上下载 https://catalog.data.gov/dataset/

1. 创建训练集,80%用于训练集。

CREATE TABLE DataMining.DiabetesTraining AS SELECT top 641 Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin,BMI, Age, Outcome from DataMining.DSTable order by ID

2. 创建测试集,20%用于测试集。

CREATE TABLE DataMining.DiabetesTest AS SELECT top 127 Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI,Age, Outcome from DataMining.DSTable order by ID DESC

 

Integrated ML

1. 创建ML配置

此步骤用来配置Provider 及不同Provider所使用的配置参数。

InterSystems IRIS提供三种Provider,AutoMLH2ODataRobot,本实验使用默认Provider - AutoML ,所以可以忽略创建ML配置步骤。如果想尝试开源工具H2O,可以在此实验完成后,按照扩展实验手册进行配置。

2. ML配置

SET ML CONFIGURATION %AutoML

此步骤是用来确定选用的Provider,AutoML是系统自带的Provider。

 

3. 建模

CREATE MODEL DiabetesModel PREDICTING (Outcome) FROM DataMining.DiabetesTraining

DiabetesModel 为模型名称 (模型名称可随意设置)。 DataMining.DiabetesTraining 为糖尿病患者预测模型的训练数据集。 Outcome 为要预测的结果的列名。

 

4. 训练模型

TRAIN MODEL DiabetesModel

DiabetesModel为模型名称。

 

5. 验证模型

VALIDATE MODEL DiabetesModel FROM DataMining.DiabetesTest

DataMining.DiabetesTest为糖尿病患者预测模型的测试集。

 

6. 查看模型信息

SELECT * FROM INFORMATION_SCHEMA.ML_TRAINED_MODELS

在返回的数据PROVIDER列中,可以或者 在返回的数据MODEL_INFO列中,可以获得ModelType 算法名称, Package 机器学习处理包, ProblemType 算法类型等结果。

6. 查看验证结果

SELECT * FROM INFORMATION_SCHEMA.ML_VALIDATION_METRICS

可以获得AccuracyPrecisionRecallF-Measure 计算结果。 现在,你可以通过Accuracy,Precision,Recall 和 F-Measure 来分析你的模型训练结果。如果训练模型准确率较低,可以重新训练数据集。

 

7. 查看测试集的预测结果和真实结果

SELECT PREDICT(DiabetesModel) AS PredictedDiabetes, Outcome AS ActualDiabetes FROM DataMining.DiabetesTest

 

8. 删除模型

DROP MODEL DiabetesModel
讨论 (0)1
登录或注册以继续