IT、ガジェットネタまとめ速報

IT技術やガジェットネタに関するみんなの反応のまとめをチョイスしてお届け!

Web系関連記事: プログラミング、開発関連

機械学習を用いると匿名のソースコードから個人を識別可能であることが判明

投稿日:

1: 田杉山脈 ★ 2018/08/13(月) 17:24:20.61 _USER
sfddindex
プログラミング言語を用いて書かれた「ソースコード」はあらかじめ定められた規則に従って記述する必要があり、匿名で公開されたコードから個人を識別することは困難に思えるかもしれません。ところが、実際にはコードにも個人の特徴が色濃く表れており、機械学習を用いてコードのサンプルから個人を識別できることが判明しました。

ドレクセル大学のコンピューターサイエンス准教授であるレイチェル・グリーンシュタット氏と、ジョージ・ワシントン大学でコンピューターサイエンスの准教授を務めるアイリン・カルスキン氏は、プログラミング言語で書かれたコードは完全に匿名のものではなく、機械学習を用いて個人を識別可能だという研究結果を発表しました。

2人は機械学習のアルゴリズムにコードサンプルを分析させ、用いた言葉の選択やコードの長さ、コードのまとめ方といったあらゆる特徴を抽出しました。次に2人は抽出された特徴の中から、開発者個人を識別するのに役立つ特徴のみを選別し、コードから個人を特定する時に注目するべきリストを絞り込んだとのこと。コードの書き手は通常の文章と違い、一定の規則に従ってコードを書き進めなければならないという制約がありますが、それでもコードから個人を識別可能な特徴を抽出できるようです。

また、コードサンプルは非常に長いものである必要があるわけでもなく、グリーンシュタット氏らが発表した2017年の論文(PDF)によればGitHubに公開されたほんの短いコードの断片であっても、特定の開発者とそれ以外の開発者を識別できるとのこと。加えて、すでに0と1で表される機械語にコンパイルされたコードからでも、個人の識別が可能だとカルスキン氏は述べました。

カルスキン氏らの研究チームは、Googleが開催するプログラミングコンテストのGoogle Code Jamで書かれたコードをもとに、100人の開発者が書いたコードをアルゴリズムに識別させました。すると、実に96%の精度で個人を識別することができたとのこと。また、識別する開発者数を600人にまで拡大した場合でも、83%の精度で個人を識別できたとしています。

グリーンシュタット氏とカルスキン氏は、プログラミングを勉強する学生が他のコードを盗用したのかどうかを判断する場合や、マルウェアの開発者を特定する時などにコードから個人を識別するAIが役立つとしています。また、関係のない第三者を装って行われたサイバー犯罪に対しても、背後にいる人物の存在をあぶり出すことができるとのこと。

一方でオープンソースプロジェクトに匿名で参加しているプログラマーや、匿名でコードを公開しているプログラマーのプライバシーが脅かされる可能性もあります。「コード開発者の身元を100%隠すことは、一般的に考えて難しいと理解する必要があります」とグリーンシュタット氏は述べており、将来的にはコードから個人を識別不可能にするツールが開発されるかもしれないが、しばらくは匿名で公開したコードから個人を特定される危険性があるとしました。

また、グリーンシュタット氏らはプログラミングの初級者と上級者では、上級者のほうが個人を識別しやすいという事実も発見しました。これは、初心者がコードの一部をプログラミング練習サイトからコピーしてくる場合があって特徴が出にくいのに対し、上級者になればなるほどコーディングがこなれてきて、個人間に差異が出やすいためだそうです。他にも、2人はコードのサンプルが「簡単な問題を解決するために書かれたコード」である場合よりも、「複雑な問題を解決するために書かれたコード」である場合のほうが個人の識別精度が向上することも突き止めました。

グリーンシュタット氏らが行った予備調査では、カナダ人の書いたコードと中国人の書いたコードを90%以上の精度で判別できるなど、コードから得られる情報は予想以上に多いようです。記事作成時点では、コードによる個人の識別は指紋による個人識別のように100%に近い精度を持っているわけではありませんが、今後さらに識別精度が向上していくだろうと考えられています。
https://gigazine.net/news/20180813-machine-learning-identify-code-authors/

引用元: http://egg.5ch.net/test/read.cgi/bizplus/1534148660/

続きを読む

このまとめの続きはコチラ!

-Web系関連記事: プログラミング、開発関連

関連記事

AI人材の獲得に超本気 NECが新人事制度を9人に適用、富士通は最大年収3500万円へ

AI人材の獲得に超本気 NECが新人事制度を9人に適用、富士通は最大年収3500万円へ

1: 田杉山脈 ★ 2020/04/19(日) 19:52:52.59 ID:CAP_USER
NECと富士通がAI人材の獲得に本腰を入れ始めた。人工知能(AI)やセキュリティーなどの技術の重要性が増す中、それらの高度な技術に対応できる人材(以下、高度技術人材)の市場価値が急上昇している。企業は自社…

デジタルデータ競争力評価…「新GDP」日本は世界11位。米、英、中国、スイス、韓国がグローバル「5強」

1: 田杉山脈 ★ 2019/06/28(金) 15:29:38.79 _USER
韓国がデジタルデータの生産量を基準とした国力評価で5位を占めた。韓国はデータ接近便宜性とデータ生産量などでフランス、カナダ、日本などを抜いて上位入りを果たした。 27日、日本経済新聞によると、米トプツ…

自動運転半導体、「ドヤ顔」テスラと焦るエヌビディア

1: 田杉山脈 ★ 2019/05/10(金) 20:25:16.50 _USER
電気自動車(EV)メーカーの米テスラがアナリスト向けに2019年4月22日(現地時間)に開催した自動運転機能などに関する発表会で、同社CEOのイーロン・マスク氏は終始上機嫌だった。2日後の24日に赤字決算の発表を控えてい…

正念場の国産スパコン、21年稼働も世界で存在感乏しく

1: へっぽこ立て子@エリオット ★ 2018/08/22(水) 12:58:15.93 _USER
 国産スーパーコンピューターが正念場を迎えている。富士通は22日、次世代の国産スパコン、ポスト「京」に搭載するCPU(中央演算処理装置)の仕様を発表。2021年の稼働に技術的なメドがついたと強…

80~90年代のDOSゲームがプレイできるミニゲーム機「PC Classic」–30本以上搭載

1: へっぽこ立て子@エリオット ★ 2018/12/18(火) 15:37:56.15 _USER
 米国のゲーム開発会社Unit-e Technologiesは、テレビに接続して30本以上のMS-DOS用ゲームをプレイ可能な小型ゲーム機「PC Classic」を発表した。2019年春の終わりごろから初夏にかけて販売を始める計…