新卒エンジニアがjanomeで形態素解析してみた!

★★★ Live配信告知 ★★★
◆◇世界一わかりみの深いクラウドネイティブ on Azure◆◇
6/22(金) 12:00~ 第14回:世界一わかりみの深いAzure Bot Service 〜AIによるFAQチャットボット構築〜
今回はAzure Cognitive Service for LanguageというAzureのAIサービスを用いて、FAQチャットボットの構築方法についてわかりみ深く説明します。
◆◇PS Live配信◆◇
5/20(金) 17:00~ アウトプットはイイぞ 〜人生折り返し地点からの情報発信で学びが楽しくなった話〜
2020年にMicrosoft MVP for Azure を受賞した武井が人生を変えたアウトプットについてそのノウハウをお伝えします。

初めまして。新卒です。

本日はjanomeを使い、「形態素解析を行い、文章中に使われている名詞の数を名詞ごとに数える」というプログラムの処理の流れを簡単に説明します。

janomeとはpythonのライブラリの1つで、文章を形態素ごとに分割し、品詞の判定を行うことができます(形態素解析)。

使用したpythonとjanomeのバージョンは以下の通りです。

python 3.7.8
janome 0.3.10

 

ライブラリのインストール

$ pip install janome

これでjanomeがインストールできます。

 

形態素解析

 

処理の流れのイメージ

今回はtest.txtの中に書かれた文章の形態素解析をします。

処理の流れは以下の通りです。

test.txt

1. 改行で分割する。

  

2. 上の行から順に辞書(janomeに内包)を元に形態素ごとに分割する(赤字は名詞)。

3. 出てきた名詞をdicに入れ、それぞれの名詞の数を数える(赤字は名詞)。

dic

 

4. 最後の行が終わるまで2, 3を繰り返す。

dic

5. 名詞の出てきた回数でソート(降順)する。

dic

まとめ

本日はjanomeを使用し、「形態素解析を行い、文章中に使われている名詞の数を名詞ごとに数える」というプログラムの処理の流れを簡単に説明しました。

janomeを使うことで、形態素解析を非常に簡単に行うことができ、自然言語処理の様々な場面に活躍することになると思います!

ただし注意点が1つあります。WindowsとMacでは文字コードの扱いに差異があるため、ソースコードの5,6行目をお使いのOSに合わせて変えてください。Macであればどちらでも問題ありません。





ご覧いただきありがとうございます。
ブログの最新情報はSNSでも発信しております。
ぜひTwitterのフォロー&Facebookページにいいねをお願い致します!



>> 雑誌等の執筆依頼を受付しております。
   ご希望の方はお気軽にお問い合わせください!


ご覧いただきありがとうございます! この投稿はお役に立ちましたか?

役に立った 役に立たなかった

0人がこの投稿は役に立ったと言っています。

1 Comment

  1. janomeは「くだ」が名詞になっちゃうあたり、ちょっと解析精度が低いんじゃないか、と思うのです。fugashiやsudachipyも、よければ試してみて下さいね。

Leave a Reply

Your email address will not be published.


*