📅  最后修改于: 2023-12-03 14:46:46.022000             🧑  作者: Mango
逻辑回归是一种经典的二分类模型。在训练模型之前,需要准备好数据。数据准备包括获取数据、数据预处理、数据清洗等步骤。
在Python中,我们可以使用pandas库来获取和处理数据。
获取数据可以通过读取本地文件或者通过网络请求的方式来获取。本文以读取本地文件为例。
CSV文件是一种常见的数据文件格式,适合存储结构化数据。在Python中,我们可以使用pandas库中的read_csv函数来读取CSV文件。
首先需要导入pandas库:
import pandas as pd
然后使用read_csv函数读取文件:
data = pd.read_csv('data.csv')
其中,'data.csv'是文件名,需要将其替换为实际的文件名。读取完成后,我们可以使用head函数来查看前几条数据:
print(data.head())
类似于读取CSV文件,我们可以使用pandas库中的read_excel函数来读取Excel文件:
data = pd.read_excel('data.xlsx')
其中,'data.xlsx'是文件名,需要将其替换为实际的文件名。读取完成后,同样可以使用head函数来查看前几条数据:
print(data.head())
如果数据存储在数据库中,我们可以使用pandas库中的read_sql函数来从数据库中获取数据。
首先需要导入pandas库和pyodbc库:
import pandas as pd
import pyodbc
在使用read_sql函数之前,需要建立数据库连接。连接需要数据库类型、服务器地址、数据库名称、用户名和密码等信息。假设我们要连接的数据库类型是SQL Server,服务器地址是localhost,数据库名称是mydatabase,用户名是myusername,密码是mypassword,则可以使用如下代码建立连接:
conn_string = 'Driver={SQL Server};' \
'Server=localhost;' \
'Database=mydatabase;' \
'UID=myusername;' \
'PWD=mypassword;'
conn = pyodbc.connect(conn_string)
连接建立成功后,我们可以使用read_sql函数来获取数据:
data = pd.read_sql('SELECT * FROM mytable', conn)
其中,'SELECT * FROM mytable'是SQL语句,表示从mytable表中获取所有数据。'''conn'''是连接对象。
读取完成后,同样可以使用head函数来查看前几条数据:
print(data.head())
读取CSV文件:
import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
读取Excel文件:
import pandas as pd
data = pd.read_excel('data.xlsx')
print(data.head())
从数据库获取数据:
import pandas as pd
import pyodbc
conn_string = 'Driver={SQL Server};' \
'Server=localhost;' \
'Database=mydatabase;' \
'UID=myusername;' \
'PWD=mypassword;'
conn = pyodbc.connect(conn_string)
data = pd.read_sql('SELECT * FROM mytable', conn)
print(data.head())