eis/py/dlearn/DataProcessing.py

#!/usr/bin/python3
#-*-coding: UTF-8 -*-

import Ice
import time
import logging as d
import faulthandler; faulthandler.enable()
from file.ConfigYaml import ConfigYaml
from EventNo import *
from mlearn.MLAnalyzer import MLAnalyzer
from mlearn.DataFrameCleaner import DataFrameCleaner
from mlearn.PandasDataIO import PandasDataIO
from db.DBOperator import DBOperator
from file.PathUtil import PathUtil
from sklearn.model_selection import train_test_split

class DataProcessing:
  def __init__(self):

      self.cfg = ConfigYaml()
      self.cfg.load('config.yaml')
      config = self.cfg.getProperties('db2')
      self.path = PathUtil().getEnv('HOME') + '/data/'
      d.info(config)

      self.db2_db = DBOperator(
              db_type="db2",
              host=config['host'],
              port=config['port'],
              database=config['database'],
              username=config['user'],
              password=config['password'],
              )

  def dispatch(self, eventNo, seq):
    if(eventNo == EventNo.PDI.value):
      d.info(EventNo.PDI)
      self.read(eventNo,seq)
    elif(eventNo == EventNo.PDO.value):
      d.info(EventNo.PDO)
    else:
      d.info("UNKNOWN EVENTNO")

  def read(self, eventNo, seq):
    d.info("eventNo:"+str(eventNo)+" read")
    #db2_results = self.db2_db.execute_query("T_SOM_PSTA", {"entId": {"$like":'test%'}}, as_dataframe=True)
    #db2_results = self.db2_db.execute_query("T_SOM_PDO",columns=['entId','steel_grade','thick','width','dthick','ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], as_dataframe=True)
    db2_results = self.db2_db.execute_query("T_SOM_PDO",filters={"fault_slow_down" : {"$lt":1},"steel_grade" : 'JU6310E6'},
    #db2_results = self.db2_db.execute_query("T_SOM_PDO",filters={"fault_slow_down" : {"$lt":1},"steel_grade" : 'DT0128D9'},
            columns=['steel_grade','thick','width', 'ent_speed_sv','ent_speed_pv'], as_dataframe=True)
            #columns=['steel_grade','thick','width','dthick','ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], as_dataframe=True)
    d.info("DataFrame (with limited rows):\n%s", db2_results.head().to_string())
    cleaned_df = (
            DataFrameCleaner(db2_results)
            # .normalize_strings('name', case='title', strip=True)
            # .normalize_headers(case='lower')
            .convert_types({'steel_grade': 'category'})    # 转换数据类型
            .convert_types({'thick': 'category'})    # 转换数据类型
            .convert_types({'width': 'category'})    # 转换数据类型
            #.encode_categorical(['STEELGRADE'], method='label', drop=True)
            ).get_cleaned_data()
    d.info("\n清洗后数据:")
    d.info(cleaned_df)
    d.info(cleaned_df.dtypes)
    train_df, test_df = train_test_split(cleaned_df, test_size=0.2, random_state=42)
    #X_train = train_df.drop(['steel_grade','thick','width','dthick','ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], axis=1)
    X_train = train_df.drop(['ent_speed_pv'], axis=1, errors="ignore")
    y_train = train_df[['ent_speed_pv']]


    X_test = test_df.drop(['ent_speed_pv'], axis=1, errors="ignore")
    y_test = test_df[['ent_speed_pv']]

    '''
    X_train = train_df.drop(['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], axis=1)
    y_train = train_df[['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv']]


    X_test = test_df.drop(['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], axis=1)
    y_test = test_df[['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv']]
    '''
    # 回归分析
    d.info("=== 回归分析 ===")
    analyzer_reg = MLAnalyzer('random_forest_reg')

    #analyzer_reg = MLAnalyzer('linear_regression', scaler_type='standard')
    # analyzer_reg = MLAnalyzer('xgboost_reg')
    # analyzer_reg = MLAnalyzer('mlp_regressor')
    #analyzer_reg = MLAnalyzer('logistic_regression')
    metrics = analyzer_reg.fit(X_train, y_train)
    d.info("模型性能:%s",metrics)
    d.info("特征重要性:\n%s",analyzer_reg.get_feature_importance().to_string())

    analyzer_reg.save_model(self.path + 'som_model.pkl')
    # analyzer_reg = MLAnalyzer.load_model('model.pkl')
    d.info("X_test (with limited rows):\n%s", X_test[10:12])
    # 模型预测
    predictions = analyzer_reg.predict(X_test)
    d.info("\n预测结果(前5个):")
    d.info("predictions (with limited rows):\n%s", predictions[:5])

    #analyzer_reg.save_prediction_results( X_test, y_test, path + 'prediction_results.csv')
    #analyzer_reg.plot_predictions(X_test, y_test, 60, save_path = path + 'prediction_results.png')

    # 模型评估
    d.info("\n=== 模型评估 ===")
    test_metrics = analyzer_reg.evaluate(X_test, y_test)
    d.info("测试集评估指标:")
    d.info(test_metrics)
Initial commit: EIS C++ project with multi-process code 2026-05-09 11:23:45 +08:00			`#!/usr/bin/python3`
			`#--coding: UTF-8 --`

			`import Ice`
			`import time`
			`import logging as d`
			`import faulthandler; faulthandler.enable()`
			`from file.ConfigYaml import ConfigYaml`
			`from EventNo import *`
			`from mlearn.MLAnalyzer import MLAnalyzer`
			`from mlearn.DataFrameCleaner import DataFrameCleaner`
			`from mlearn.PandasDataIO import PandasDataIO`
			`from db.DBOperator import DBOperator`
			`from file.PathUtil import PathUtil`
			`from sklearn.model_selection import train_test_split`

			`class DataProcessing:`
			`def __init__(self):`

			`self.cfg = ConfigYaml()`
			`self.cfg.load('config.yaml')`
			`config = self.cfg.getProperties('db2')`
			`self.path = PathUtil().getEnv('HOME') + '/data/'`
			`d.info(config)`

			`self.db2_db = DBOperator(`
			`db_type="db2",`
			`host=config['host'],`
			`port=config['port'],`
			`database=config['database'],`
			`username=config['user'],`
			`password=config['password'],`
			`)`

			`def dispatch(self, eventNo, seq):`
			`if(eventNo == EventNo.PDI.value):`
			`d.info(EventNo.PDI)`
			`self.read(eventNo,seq)`
			`elif(eventNo == EventNo.PDO.value):`
			`d.info(EventNo.PDO)`
			`else:`
			`d.info("UNKNOWN EVENTNO")`

			`def read(self, eventNo, seq):`
			`d.info("eventNo:"+str(eventNo)+" read")`
			`#db2_results = self.db2_db.execute_query("T_SOM_PSTA", {"entId": {"$like":'test%'}}, as_dataframe=True)`
			`#db2_results = self.db2_db.execute_query("T_SOM_PDO",columns=['entId','steel_grade','thick','width','dthick','ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], as_dataframe=True)`
			`db2_results = self.db2_db.execute_query("T_SOM_PDO",filters={"fault_slow_down" : {"$lt":1},"steel_grade" : 'JU6310E6'},`
			`#db2_results = self.db2_db.execute_query("T_SOM_PDO",filters={"fault_slow_down" : {"$lt":1},"steel_grade" : 'DT0128D9'},`
			`columns=['steel_grade','thick','width', 'ent_speed_sv','ent_speed_pv'], as_dataframe=True)`
			`#columns=['steel_grade','thick','width','dthick','ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], as_dataframe=True)`
			`d.info("DataFrame (with limited rows):\n%s", db2_results.head().to_string())`
			`cleaned_df = (`
			`DataFrameCleaner(db2_results)`
			`# .normalize_strings('name', case='title', strip=True)`
			`# .normalize_headers(case='lower')`
			`.convert_types({'steel_grade': 'category'}) # 转换数据类型`
			`.convert_types({'thick': 'category'}) # 转换数据类型`
			`.convert_types({'width': 'category'}) # 转换数据类型`
			`#.encode_categorical(['STEELGRADE'], method='label', drop=True)`
			`).get_cleaned_data()`
			`d.info("\n清洗后数据:")`
			`d.info(cleaned_df)`
			`d.info(cleaned_df.dtypes)`
			`train_df, test_df = train_test_split(cleaned_df, test_size=0.2, random_state=42)`
			`#X_train = train_df.drop(['steel_grade','thick','width','dthick','ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], axis=1)`
			`X_train = train_df.drop(['ent_speed_pv'], axis=1, errors="ignore")`
			`y_train = train_df[['ent_speed_pv']]`


			`X_test = test_df.drop(['ent_speed_pv'], axis=1, errors="ignore")`
			`y_test = test_df[['ent_speed_pv']]`

			`'''`
			`X_train = train_df.drop(['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], axis=1)`
			`y_train = train_df[['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv']]`


			`X_test = test_df.drop(['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv'], axis=1)`
			`y_test = test_df[['ent_speed_sv','ent_speed_pv','pro_speed_sv','pro_speed_pv','del_speed_sv','del_speed_pv']]`
			`'''`
			`# 回归分析`
			`d.info("=== 回归分析 ===")`
			`analyzer_reg = MLAnalyzer('random_forest_reg')`

			`#analyzer_reg = MLAnalyzer('linear_regression', scaler_type='standard')`
			`# analyzer_reg = MLAnalyzer('xgboost_reg')`
			`# analyzer_reg = MLAnalyzer('mlp_regressor')`
			`#analyzer_reg = MLAnalyzer('logistic_regression')`
			`metrics = analyzer_reg.fit(X_train, y_train)`
			`d.info("模型性能:%s",metrics)`
			`d.info("特征重要性:\n%s",analyzer_reg.get_feature_importance().to_string())`

			`analyzer_reg.save_model(self.path + 'som_model.pkl')`
			`# analyzer_reg = MLAnalyzer.load_model('model.pkl')`
			`d.info("X_test (with limited rows):\n%s", X_test[10:12])`
			`# 模型预测`
			`predictions = analyzer_reg.predict(X_test)`
			`d.info("\n预测结果(前5个):")`
			`d.info("predictions (with limited rows):\n%s", predictions[:5])`

			`#analyzer_reg.save_prediction_results( X_test, y_test, path + 'prediction_results.csv')`
			`#analyzer_reg.plot_predictions(X_test, y_test, 60, save_path = path + 'prediction_results.png')`

			`# 模型评估`
			`d.info("\n=== 模型评估 ===")`
			`test_metrics = analyzer_reg.evaluate(X_test, y_test)`
			`d.info("测试集评估指标:")`
			`d.info(test_metrics)`