dictの欠損キー対処の4つの方法

Effective Python 第2版――Pythonプログラムを改良する90項目が本当にすばらしいので泣きながら読み進めています。

その中に、dictの欠損キーに対する対処方法の項目があったため、詳細内容は本書を読んで頂きたいのですが、それぞれの処理時間が気になったため計測しました。

今回はかなり簡単ですが、ある文字列の出現文字をカウントする処理を書きます。
実行環境はGoogle Colabのデフォルトです。

まず必要なライブラリをインポートします。

importtime,defaultdict

適当な文字列を集計用の対象にします。

target='super_string_of_my_passages. but this does not make sense at all. because this is nothing'

なお最後に、出現数でsortしたkey-valueを出力しており、想定される結果は以下です。

[('s', 13),
 (' ', 12),
 ('e', 8),
 ('t', 7),
 ('a', 6),
 ('i', 5),
 ('n', 5),
 ('_', 4),
 ('o', 4),
 ('u', 3),
 ('g', 3),
 ('h', 3),
 ('p', 2),
 ('r', 2),
 ('m', 2),
 ('.', 2),
 ('b', 2),
 ('l', 2),
 ('f', 1),
 ('y', 1),
 ('d', 1),
 ('k', 1),
 ('c', 1)]

if文でinを使った場合

if文でキーが存在するかチェックし、Trueを返すin式を使うことで欠損キーに初期値を与える。おそらく最初に考えつくシンプルな方法。

%%timeranking={}forkeyintarget:ifkeyinranking.keys():count=ranking[key]else:count=0ranking[key]=count+1sorted(ranking.items(),key=lambdax:x[1],reverse=True)

CPU times: user 45 µs, sys: 9 µs, total: 54 µs Wall time: 56.3 µs

try文でKeyErrorを使った場合

try-except文を使って、エラーの原因であるKeyErrorを想定されるエラーとしてハンドリングする。

%%timeranking={}forkeyintarget:try:count=ranking[key]exceptKeyError:count=0ranking[key]=count+1sorted(ranking.items(),key=lambdax:x[1],reverse=True)

CPU times: user 59 µs, sys: 11 µs, total: 70 µs Wall time: 78.2 µs

getメソッドを使った場合

組み込み型dictに用意されているgetメソッドを使う。

%%timeranking={}forkeyintarget:count=ranking.get(key,0)ranking[key]=count+1sorted(ranking.items(),key=lambdax:x[1],reverse=True)

CPU times: user 43 µs, sys: 8 µs, total: 51 µs Wall time: 53.6 µs

defaultdictを使った場合

%%timeranking=defaultdict(int)forsintarget:ranking[s]+=1sorted(ranking.items(),key=lambdax:x[1],reverse=True)

CPU times: user 36 µs, sys: 8 µs,　total: 44 µs　 Wall time: 47.2 µs

結論

defaultdictがイイかも！(*^^)
*defaultdictは万能ではなく想定しないエラーの原因にもなり得るため注意して使う。
参考: (http://yoshidabenjiro.hatenablog.com/entry/2017/09/05/012828)

番外編

本書で扱われてる手法は以上ですが、
おいおいこんな処理ならあいつを使ってもええがな！忘れてまへんか〜？
と突っ込まれそうなので番外編として記します。
このような単純なケースではcollectionsライブラリのCounterクラスを使ってもいいと思います。
各要素における出現回数をカウントしてくれる便利なものです。
なお個数順にsortしてくれるmost_commonメソッドが用意されているのでそれを使います。

fromcollectionsimportCounter%%timeranking=Counter(target)ranking.most_common()

CPU times: user 53 µs, sys: 0 ns, total: 53 µs Wall time: 56.5 µs

ありがとうございました！

dictの欠損キー対処の4つの方法

if文でinを使った場合

try文でKeyErrorを使った場合

getメソッドを使った場合

defaultdictを使った場合

結論

番外編

Trending Articles

山口紅希の画像,現在職業,プロフィールや成田凌マドンナ同級生との恋の結末は

「羅生門」の下人が聖柄の太刀を売らない理由―日文協シンポジウム印象記（１）

ZOZOTOWN・・・　やっぱり・・・

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

氏家浩幸が女性を1時間尾行し逮捕!?顔画像や経歴は?

古文の現代語訳をお願いします。

第58回和道会全国空手道競技大会開催

【ドラえもん】鬼畜のび太がしずかちゃんをメス犬調教ｗｗｗ【エロ漫画同人誌】同人エロ漫画書庫同書庫(ドウショコ)

[Album] MISIA – Super Best Records -15th Celebration-[MP3]

あわねこ

天達武史が結婚した嫁画像は？出身高校や大学は？本名や年収って？

mikietsang: テレビ朝日「ミュージックステーション」に生出演いたしました！ 2度目の『無限未来』のパフォーマンス、ご覧...

串本の国道で３台絡む事故、１人死亡

【※詳細画像あり※】島田紳助のアイ人だった芸能人７人がテレビから完全に消えてしまった。。。←7人目は大物女優でビックリ！！既婚者おおいーｗ

バックドア開かない／ノート

いじめや携帯で意見交換　石垣市と北上市の中学生

平井諏訪神社例大祭（9月14日～17日）／江戸川区

JMX監視における「SSL peer shut down incorrectly service」エラーについて

【銃撃事件】吉田総業組員を一斉逮捕

生野が生んだスーパースター文政　現在、男道（刑務所）にて修行（服役）中㉙