简介: Twitter 是一个流行的社交网络,用户可以在其中共享称为推文的消息。 Twitter 允许我们使用 Twitter API 或 Tweepy 挖掘任何用户的数据。数据将是从用户提取的推文。首先要做的是从推特开发者那里获得消费者密钥、消费者秘密、访问密钥和访问秘密,每个用户都可以轻松获得这些信息。这些密钥将帮助 API 进行身份验证。
获取密钥的步骤:
– 登录 Twitter 开发者部分
– 转到“创建应用程序”
– 填写应用程序的详细信息。
– 单击创建您的 Twitter 应用程序
– 您的新应用程序的详细信息将与消费者密钥和消费者秘密一起显示。
– 对于访问令牌,单击“创建我的访问令牌”。该页面将刷新并生成访问令牌。
Tweepy 是应该使用 pip 安装的库之一。现在为了授权我们的应用代表我们访问 Twitter,我们需要使用 OAuth 接口。 Tweepy 提供了方便的 Cursor 接口来遍历不同类型的对象。 Twitter 最多允许提取 3200 条推文。
这些都是在获取用户的推文之前必须使用的先决条件。
代码(带解释):
import tweepy
# Fill the X's with the credentials obtained by
# following the above mentioned procedure.
consumer_key = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
consumer_secret = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
access_key = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
access_secret = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
# Function to extract tweets
def get_tweets(username):
# Authorization to consumer key and consumer secret
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
# Access to user's access key and access secret
auth.set_access_token(access_key, access_secret)
# Calling api
api = tweepy.API(auth)
# 200 tweets to be extracted
number_of_tweets=200
tweets = api.user_timeline(screen_name=username)
# Empty Array
tmp=[]
# create array of tweet information: username,
# tweet id, date/time, text
tweets_for_csv = [tweet.text for tweet in tweets] # CSV file created
for j in tweets_for_csv:
# Appending tweets to the empty array tmp
tmp.append(j)
# Printing the tweets
print(tmp)
# Driver code
if __name__ == '__main__':
# Here goes the twitter handle for the user
# whose tweets are to be extracted.
get_tweets("twitter-handle")
结论 :
上面的脚本将生成特定用户的所有推文,并将附加到空数组 tmp。此处介绍了 Tweepy 作为使用Python以相当简单的方式访问 Twitter 数据的工具。我们可以收集不同类型的数据,显然重点放在“推文”对象上。一旦我们收集了一些数据,分析应用程序的可能性是无穷无尽的。
提取推文的一种此类应用是情绪或情感分析。用户的情绪可以通过标记每个单词并在该数据上应用机器学习算法从推文中获得。这种情绪或情感检测在全球范围内使用,并将在未来广泛使用。