--Obtenir des Tweets avec l'API Twitter
J'ai utilisé le script ruby original.
# gem install twitter
require "twitter"
client = Twitter::REST::Client.new do |config|
  config.consumer_key        = ""
  config.consumer_secret     = ""
  config.access_token        = ""
  config.access_token_secret = ""
end
@result = client.search("Université des sciences").take(10000)
File.open("tus.csv", 'w') do |file|
  @result.each do |tweet|
    file.write(tweet.text.gsub(/(\s)/,""))
    file.write("\n")
  end
end
Vous aurez un fichier csv. Il existe de nombreux articles sur l'obtention de jetons, je vais donc l'omettre.
cd /usr/local/lib/mecab/dic
mkdir userdic
cd userdic
touch tus.csv
echo 'Université des sciences,,,1,nom,Général,*,*,*,*,Rikadai,Rikadai,Rikadai' >> tus.csv
#compiler
/usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/ipadic \
-u tus.dic \
-f utf-8 \
-t utf-8 tus.csv
#Appuyez sur Entrée pour compiler
reading tus.csv ... 1
emitting double-array: 100% |###########################################| 
done!
#traverser le chemin
vi /usr/local/etc/mecabrc
#Spécifiez où se trouve le dic généré
userdic = /usr/local/lib/mecab/dic/userdic/tus.dic
word2vec
# coding: UTF-8
import pandas as pd
import numpy as np
import MeCab
tweets = pd.read_csv('/Users/Hiroto/git/scripts/tus.csv').tweet
#Créer un fichier séparé
wakati = ""
for tweet in tweets:
    mt = MeCab.Tagger("-Owakati")
    wakati = wakati + mt.parse(tweet)
f = open('tus_wakati.txt', 'w')
f.write(wakati)
f.close()
# word2vec
from gensim.models import word2vec
data = word2vec.Text8Corpus('tus_wakati.txt')
model = word2vec.Word2Vec(data, size=100)
Similitude du sujet
out=model.most_similar(positive=[u'Université des sciences'],topn= 100)
for x in out:
    print(x[0],x[1])
| mot | Degré de similitude | 
|---|---|
| Hey | 0.9801737666130066 | 
| U | 0.9679325222969055 | 
| monde | 0.9637500643730164 | 
| inégalité | 0.9604602456092834 | 
| Ouais | 0.9603763818740845 | 
| Alors | 0.9602923393249512 | 
| est | 0.9574853181838989 | 
| Ce genre de | 0.9568058252334595 | 
| Lol | 0.9534944295883179 | 
| ténèbres | 0.9462004899978638 | 
| ! | 0.9435620307922363 | 
| ? | 0.9433774948120117 | 
| Brut | 0.942541241645813 | 
| De | 0.9420970678329468 | 
| Bien | 0.9348764419555664 | 
| Yo | 0.9348678588867188 | 
| 。 | 0.9291704893112183 | 
| Sentiment | 0.929074764251709 | 
| Moi | 0.9288586378097534 | 
| ensemble | 0.9273968935012817 | 
| 0.9265207052230835 | |
| Est | 0.9249017238616943 | 
| Rencontre secrète | 0.9227114915847778 | 
| Teru | 0.9216452836990356 | 
| Aller | 0.9207674264907837 | 
| Dieu | 0.9192628264427185 | 
| Bonne chance | 0.918117880821228 | 
| Ah ~ | 0.9180813431739807 | 
| Désagréable | 0.9164369106292725 | 
| raison | 0.9164099097251892 | 
| Waka | 0.9158462882041931 | 
| Compris | 0.915264368057251 | 
| ) | 0.913904070854187 | 
| Est | 0.9111155867576599 | 
| Délicieux | 0.9105844497680664 | 
| Nana | 0.9098367691040039 | 
| Homme | 0.909660816192627 | 
| Merde | 0.9095121622085571 | 
| alors | 0.907973051071167 | 
| Si | 0.906628429889679 | 
| sens | 0.9065468311309814 | 
| Sophia | 0.905195415019989 | 
| Ou | 0.9034873247146606 | 
| Gars | 0.9014643430709839 | 
| Aller | 0.8999437689781189 | 
| Quoi | 0.8993074893951416 | 
| Boisson | 0.8984052538871765 | 
| march | 0.8983776569366455 | 
| Dire | 0.8976813554763794 | 
| Ta | 0.8964160680770874 | 
| Souvent | 0.896243691444397 | 
| manger | 0.8960259556770325 | 
| vouloir voir | 0.8957585096359253 | 
| Enfant | 0.8946411609649658 | 
| Ravi de vous rencontrer | 0.8943185806274414 | 
| Vouloir | 0.8941484689712524 | 
| Étourdissant | 0.893967866897583 | 
| zèbre | 0.8935203552246094 | 
| Aussi | 0.8934850692749023 | 
| tu | 0.8934849500656128 | 
| éclairage | 0.8927890062332153 | 
| aller | 0.8927274942398071 | 
| Ichi | 0.8926646709442139 | 
| Est | 0.8919773697853088 | 
| arithmétique | 0.8915943503379822 | 
| ( | 0.8915064930915833 | 
| Pourquoi | 0.8907312154769897 | 
| Système littéraire | 0.8906354904174805 | 
| Hmm | 0.8897289037704468 | 
| - | 0.8896894454956055 | 
| Ouais | 0.8896220922470093 | 
| département | 0.8895649313926697 | 
| K | 0.8881763219833374 | 
| Pensées | 0.8881138563156128 | 
| Je ne sais pas | 0.8880779147148132 | 
| école | 0.8879990577697754 | 
| Mais | 0.8878818154335022 | 
| Incident | 0.8878498077392578 | 
| S'il vous plaît | 0.8875197172164917 | 
| Connaître | 0.8871732354164124 | 
| Iwa | 0.8870071172714233 | 
| Personnalité | 0.8869134187698364 | 
| Hey | 0.8867558240890503 | 
| Hayakei | 0.8866025805473328 | 
| J'adorerais | 0.8860080242156982 | 
| je me demande | 0.8857483267784119 | 
| Mais | 0.8853344321250916 | 
| Arrêtez | 0.8850265145301819 | 
| âge | 0.8849031925201416 | 
| k | 0.884624719619751 | 
| laquelle | 0.8840593695640564 | 
| Ou | 0.8840340971946716 | 
| Vivre | 0.883965253829956 | 
| Remise | 0.8836942911148071 | 
| Par tous les moyens | 0.8836302757263184 | 
| Pleurs | 0.8831743597984314 | 
| yumalaonvae | 0.883036196231842 | 
| o | 0.8830046653747559 | 
| Remarque | 0.8829131126403809 | 
| Pourquoi | 0.8827589154243469 | 
** Inégalité **, ** L'obscurité ** est comme la science Que sont les «réunions secrètes» et les «shimauma»?
――Ce n'est pas bien fait parce que vous n'avez pas enlevé la poussière du tweet (peut-être) --Le nombre de tweets acquis est faible (1696 tweets cette fois)
Recommended Posts