我在使用scikit-learn和tensorflow实现一个简单的线性回归模型。
我的scikit-learn解决方案看起来没问题,但tensorflow的评估输出显示了一些异常的数字。
问题基本上是尝试根据工作经验年数预测薪水。
我不确定在tensorflow的代码中哪里出错了。
谢谢!
ScikitLearn解决方案
import pandas as pddata = pd.read_csv('Salary_Data.csv') X = data.iloc[:, :-1].valuesy = data.iloc[:, 1].valuesfrom sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)from sklearn.linear_model import LinearRegressionregressor = LinearRegression()regressor.fit(X_train, y_train)y_pred = regressor.predict(X_test)X_single_data = [[4.6]]y_single_pred = regressor.predict(X_single_data)print(f'Train score: {regressor.score(X_train, y_train)}')print(f'Test score: {regressor.score(X_test, y_test)}')
训练得分: 0.960775692121653
测试得分: 0.9248580247217076
Tensorflow解决方案
import tensorflow as tff_cols = [tf.feature_column.numeric_column(key='X', shape=[1])]estimator = tf.estimator.LinearRegressor(feature_columns=f_cols)train_input_fn = tf.estimator.inputs.numpy_input_fn(x={'X': X_train}, y=y_train,shuffle=False)test_input_fn = tf.estimator.inputs.numpy_input_fn(x={'X': X_test}, y=y_test,shuffle=False)train_spec = tf.estimator.TrainSpec(input_fn=train_input_fn)eval_spec = tf.estimator.EvalSpec(input_fn=test_input_fn)tf.estimator.train_and_evaluate(estimator, train_spec, eval_spec)
({‘average_loss’: 7675087400.0,
‘label/mean’: 84588.11,
‘loss’: 69075790000.0,
‘prediction/mean’: 5.0796494,
‘global_step’: 6},
[])
数据
YearsExperience,Salary1.1,39343.001.3,46205.001.5,37731.002.0,43525.002.2,39891.002.9,56642.003.0,60150.003.2,54445.003.2,64445.003.7,57189.003.9,63218.004.0,55794.004.0,56957.004.1,57081.004.5,61111.004.9,67938.005.1,66029.005.3,83088.005.9,81363.006.0,93940.006.8,91738.007.1,98273.007.9,101302.008.2,113812.008.7,109431.009.0,105582.009.5,116969.009.6,112635.0010.3,122391.0010.5,121872.00
回答:
根据您在评论中的代码请求:虽然我曾在我的在线曲线和曲面拟合网站zunzun.com上使用了这个方程http://zunzun.com/Equation/2/Sigmoidal/Sigmoid%20B/来进行建模工作,但这里是一个使用scipy的differential_evolution遗传算法模块来估计初始参数的图形源代码示例。scipy的Differential Evolution实现使用了Latin Hypercube算法来确保对参数空间进行彻底搜索,这需要在其中搜索的边界 – 在这个例子中,这些边界是从数据的最大和最小值中获取的,拟合统计数据和参数值与网站上的几乎相同。