Home IT技术 One-hot encoding in patsy

One-hot encoding in patsy

IT技术 xiaolong · 2025年4月14日 · 0 Comment

在进行回归分析时，我通常使用sklearn的OneHotEncoder来编码分类变量。

现在我在探索使用patsy，但似乎它并不提供One-hot编码：http://patsy.readthedocs.io/en/latest/categorical-coding.html

是否可以使用patsy指定One-hot编码？

回答：

这里有两点需要了解，可能对你有帮助：(1) patsy默认包含一个截距（每个公式开头有一个隐形的1 +），(2) 在编码分类值时，patsy会自动选择一种编码策略，以避免创建过参数化的模型。

如果你结合截距和完整秩的One-hot编码，那么你会得到一个过参数化的模型。因此，patsy会切换到处理编码（= 基本上是从你想到的One-hot编码中删除一列）。这可以避免在你的编码列和截距列之间产生线性依赖。

避免这种情况的一个简单方法是移除截距——这样patsy就不会担心线性依赖，并且会使用你期望的那种One-hot编码：y ~ -1 + a（-1抵消了隐形的1以移除截距）。

或者，如果你真的想要一个过参数化的模型，那么如果你在你链接的文档页面上继续向下滚动，它会告诉你如何定义任意自定义编码方案。


然后你可以像这样使用它：y ~ 1 + C(a, FullRankOneHot)。



相关文章：

python logistic回归（初学者）
Scikit SVM: 创建训练数据集
scikit-learn “处理文本数据教程”忽略了我的目标类别
如何在保持类别比例的情况下将数据集拆分为训练集和验证集？
如何在scikit-learn中获得有意义的kmeans结果
使用chi平方核进行多标签预测
如何在sklearn中使用自定义估计器与GridSearchCV？
如何在Scikit-Learn中绘制10折交叉验证的PR曲线
使用不在训练集中的一些词进行分类预测（朴素贝叶斯）
计算查询字符串在训练文档集上的TF-IDF



	

		 machine-learning patsy python scikit-learn





	
		
		
	





	
		
		
			xiaolong
			
		
					
	



		
			Related Posts
			
									
	

		

	
		IT技术 			

	使用LSTM在Python中预测未来值
	
	

	xiaolong
	·	
	2025年6月1日
	·
	0 Comment
	


	
		这段代码可以预测指定股票的当前日期之前的值，但不能预测… 
	



									
	

		

	
		IT技术 			

	如何在gensim的word2vec模型中查找双词组的相似性
	
	

	xiaolong
	·	
	2025年6月1日
	·
	0 Comment
	


	
		我有一个word2vec模型，假设我使用的是googl… 
	



									
	

		

	
		IT技术 			

	dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的
	
	

	xiaolong
	·	
	2025年6月1日
	·
	0 Comment
	


	
		我试图使用 XGBoost 创建模型。 看起来我成功地… 
	



									
	

		

	
		IT技术 			

	ML Tuning – Cross Validation in Spark
	
	

	xiaolong
	·	
	2025年6月1日
	·
	0 Comment
	


	
		我在https://spark.apache.org/… 
	



									
	

		

	
		IT技术 			

	如何在React JS中使用fetch从REST API获取预测
	
	

	xiaolong
	·	
	2025年6月1日
	·
	0 Comment
	


	
		我正在开发一个应用程序，其中Flask REST AP… 
	



									
	

		

	
		IT技术 			

	如何分析ML.NET中多类分类预测得分数组？
	
	

	xiaolong
	·	
	2025年6月1日
	·
	0 Comment
	


	
		我在ML.NET中创建了一个多类分类项目。该项目可以对… 
	



							

		


	


		
		发表回复 取消回复
您的邮箱地址不会被公开。 必填项已用 * 标注
评论 * 
显示名称 * 
邮箱 * 
网站 
 在此浏览器中保存我的显示名称、邮箱地址和网站地址，以便下次评论时使用。






	
	搜索


标签


2d-vector
a-star
algorithm
apache-spark
artificial-intelligence
auto-keras
bilstm
c#
c++
classification
cluster-analysis
computer-vision
conv-neural-network
cox-regression
cross-validation
data-mining
data-science
decision-tree
deep-learning
geopandas
gradient-descent
image-processing
java
keras
libsvm
linear-regression
logistic-regression
machine-learning
matlab
neural-network
nlp
numpy
openai-api
opencv
pandas
python
python-3.x
pytorch
random-forest
recurrent-neural-network
reinforcement-learning
scikit-learn
statistics
tensorflow
weka


近期文章


使用LSTM在Python中预测未来值
如何在gensim的word2vec模型中查找双词组的相似性
dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的
ML Tuning – Cross Validation in Spark
如何在React JS中使用fetch从REST API获取预测



分类


	IT技术


	
	

		
		

		

			

				
			
			
				
				© 2025 学技术
			京ICP备20017344号-7