J'ai été impressionné de rencontrer SKK avant-hier. (Vie utilisateur 3ème jour w) Je ne veux pas utiliser CGI Server basé sur Google, j'ai donc choisi la vie de dictionnaire. Le dictionnaire Hatena semble bon.
--Il existe de nombreuses sources en ruby, mais il n'y a pas de python --Le code python a été terminé en moins de 10 minutes
Au fait, je ne l'ai jamais traité, mais la source
make_skk_dic.py
# coding=utf-8
import pandas as pd
import numpy as np
import codecs
import re
def furi_del_norm(txt):
    r = re.match(r"[UNE-Mois]", txt)
    if r:
        return np.Nan
    return txt
def main():
    df = pd.DataFrame()
    with codecs.open("keywordlist_furigana.csv", 'r', "euc_jp", "ignore") as file:
        df = pd.read_table(file, delimiter="\t")
    df.columns = ["furi", "word"]
    df = df.dropna()
    df["word"] = df["word"].replace('\r')
    df["furi"] = df["furi"].replace('\r')
    df["furi"] = df["furi"].apply(furi_del_norm)
    df = df.dropna()
    df = df.sort(columns=["furi"], ascending=True)
    # to_csv pas bon
    TMP_FILE_PATH = "SKK-JISHO.hatena"
    with codecs.open(TMP_FILE_PATH, 'w', "utf-8", "ignore") as file:
        #Avec Corvus SKK, activez les éléments suivants(Postscript:2017/03/03)
        # file.write(";; okuri-ari entries.")
        # file.write(";; okuri-nasi entries.")
        for i, row in df.iterrows():
            file.write("%s /%s/" % (str(row["furi"]), str(row["word"])))
            file.write("\n")
if __name__ == "__main__":
    main()
        Recommended Posts