使用 GetOldTweets3 提取推文
对于大多数文本挖掘或分类项目,提取推文是最重要和最初始的步骤之一。众所周知的方法是使用 tweepy 提取推文并在 twitter 中创建开发者帐户。由于某些安全原因,Twitter 需要将近 15 天的时间来验证制作开发者帐户的过程。因此,使用这个Python库使这个过程变得简单。使用这个库的另一个优点是推文是最近的推文。人们可以获得前几个月甚至几周的推文。
让我们用代码更好地理解工作 -
- 安装库 GetOldTweets3 –以下命令可以安装在 Jupyter Notebook 或任何命令提示符中。
pip install GetOldTweets3
- 指定所需的主题标签 -安装库后,它将与另一个变量一起导入。使用内置方法TweetCriteria()可以在我们的推文数据集中提及所需的规范。方法setQuerySearch()允许获取与我们的主题标签相关的任何推文
import GetOldTweets3 as got
gettweet = got.manager.TweetCriteria().setQuerySearch(hashtag) \
#'\' is similar to ', in a sentence' i.e
used to separate
- 可以添加更多规格。有许多
.setSince("2020-01-01") \
.setUntil("2020-05-01") \
.setMaxTweets(100)\
.setLocation("Pune")\
.setUsername("Raj")\...etc.
让我们看看完整的代码
Python3
import GetOldTweets3 as got
def extract_tweets(hashtag):
gettweet= got.manager.TweetCriteria().setQuerySearch(hashtag) \
.setSince("2020-01-01") \
.setUntil("2020-05-01") \
.setMaxTweets(100)
# Creation of list that contains all tweets
tweets = got.manager.TweetManager.getTweets(gettweet)
# Creating list of chosen tweet data
text_tweets = [[tweet.text] for tweet in tweets]
print(text_tweets)
# calling the function
extract_tweets('COVID19')
输出:
一些推文使用不同的语言。可以使用Python的translate()函数将这些推文转换为一种不同的语言。