📅  最后修改于: 2023-12-03 14:47:58.704000             🧑  作者: Mango
为了帮助程序员准备数据分析师岗位的面试,我们分享一些Tiger Analytics数据分析师面试经验(校内)。
作为一名数据分析师,你需要能够:
在面试时,你需要证明你具有以下技能:
以下是一些可能会在Tiger Analytics数据分析师面试中遇到的问题。
我们有两个表,一个是订单表,另一个是客户表。请使用SQL查询,在2019年9月30日至2020年3月31日期间,消费金额在1000元以上的顾客人数是多少?
SELECT COUNT(DISTINCT order.customer_id)
FROM order JOIN customer ON order.customer_id = customer.customer_id
WHERE order.date >= '2019-9-30'
AND order.date <= '2020-3-31'
AND order.amount >= 1000;
我们有一批数据,其中存在缺失值和异常值,请介绍一下你的数据清洗流程。
首先,我们需要查看数据,了解存在哪些缺失值和异常值。然后我们可以采用一些方法来处理这些缺失值和异常值。例如:
import pandas as pd
import numpy as np
# 读取数据
df = pd.read_csv('data.csv')
# 查看缺失值
print(df.isnull().sum())
# 缺失值替换
df['col_name'].fillna(df['col_name'].mean(), inplace=True)
# 异常值处理
q_low = df["col_name"].quantile(0.01)
q_hi = df["col_name"].quantile(0.99)
df_filtered = df[(df["col_name"] < q_hi) & (df["col_name"] > q_low)]
请描述一下在数据分析项目中,你通常使用哪些算法来解决问题?
在数据分析项目中,我们通常使用以下算法:
其中,线性回归和逻辑回归适用于连续和离散数据,决策树和随机森林适用于分类和回归问题,支持向量机适用于二元分类问题,而神经网络适用于任何类型的问题。