【IT】データサイエンティスト職に求められる言語のトップに「Python」–「R」を上回る

1: 田杉山脈 ★ 2019/01/12(土) 18:37:50.17 ID:CAP_USER

「Python」と「R」はデータサイエンティスト職の求人で最も多く要求されるスキルに数えられている。ところが、こうしたプロフェッショナルの仕事で最も頻繁に使用されているプログラミング言語について調査した複数の報告書によると、実際は評価が分かれるという。Cloud Academyの米国時間12月27日付の報告書で明らかになった。

まず、TIOBE Programming Community Indexによれば、2018年の検索エンジンのリクエスト数でみたRの順位は下降気味だったという。だが、データプロフェッショナル1万6000人を対象に実施したKaggleの調査では、全体で最も人気の高いプログラミング言語はPythonであるものの、統計およびデータサイエンティストは他のどの職務よりも業務でRを使用している割合が高いことが分かった。データサイエンティストの87%はPythonを、71%はRを業務で使用していると回答していると、同報告書に記
以下ソース
https://japan.techrepublic.com/article/35131060.htm

2: 名刺は切らしておりまして 2019/01/12(土) 18:38:58.81 ID:UT9z2lcu
データサイエンティストに求められるのは言語ではない
数字を読む能力なのに

4: 名刺は切らしておりまして 2019/01/12(土) 18:55:36.17 ID:K7woRKwy
Rは統計データを扱うのに特化した言語であって
システムを組むには不向きなだけだろ

6: 名刺は切らしておりまして 2019/01/12(土) 18:57:58.43 ID:dibLf/yi

Python 遅いけど、、

使いやすいし、便利なライブラリも多い。

104: 名刺は切らしておりまして 2019/01/13(日) 18:21:48.70 ID:ldWl6bNC
>>6
スピードかかる所は
Cのプラグイン化でええだろ

110: 名刺は切らしておりまして 2019/01/14(月) 02:56:00.78 ID:DWDpj2yF
>>6
R は Pythonに輪をかけて遅い。
Python自体はスクリプト言語だからメチャ速くはないけどCで書かれたnumpyやpandasをうまく活用してPythonはそういった外部ライブラリを繋ぐ糊だと考えればいい。

7: 名刺は切らしておりまして 2019/01/12(土) 19:05:32.54 ID:XHrLj9Fn
基本をC、ライブラリは都合のいいもの。今はたしかにPython。
Rは統計というかデータベース用だとおもう。

10: 名刺は切らしておりまして 2019/01/12(土) 19:15:41.63 ID:ephSBmTY
最近は機械学習系のライブラリがみんなPythonだからな
イヤでも使うしかない

11: sage 2019/01/12(土) 19:24:51.91 ID:OWQfCzk/
>>10
>最近は機械学習系のライブラリ
プログラマー全体の何パーセントが,「機械学習系のライブラリ」を
使用するのか? これがPythonの人気の主な理由とは思えない!

16: 名刺は切らしておりまして 2019/01/12(土) 19:41:12.41 ID:ephSBmTY

>>11
この記事はデータサイエンティスト限定の話だし
もちろん他の用途では事情は変わってくるだろうね
機械学習いらんってことなら、別の言語でも全然構わないだろう

ちなみにPythonでプログラム書いてWebサイトを立ち上げようとすると
素のApacheですぐに動かないから微妙に面倒くさい
Djangoとかのフレームワークを使う手もあるけど、
それぞれにクセがあって多少手間がかかる

最後は何を作りたいかで決まるでしょう

18: 名刺は切らしておりまして 2019/01/12(土) 19:46:01.58 ID:0Stlar/u
Rを使うのは昔の文系統計屋だけ
データサイエンティストはRなんて使わないわな

80: 名刺は切らしておりまして 2019/01/13(日) 10:18:03.32 ID:VSzeClV0

>>18
実務経験ないんだろうけど。
海外じゃ理系だの文系だのといった馬鹿な区分けはないんだよ。

PythonもだけどR使ったことない学生なんて
勉強してないって自分から言ってるようなもんだし
外資じゃ絶対雇わないよ。

24: 名刺は切らしておりまして 2019/01/12(土) 20:16:59.67 ID:sJf3fT7h
Rはデータ処理しやすいから好き
書き方も好き

25: 名刺は切らしておりまして 2019/01/12(土) 20:17:56.46 ID:7pg+voxm
これはおかしい
Pythonが言語として優れてるわけでなく、グーグルとか多数企業が
数値計算、AI関連のモジュールもあとから追加したからだろ。
Javascriptでもよかった

85: 名刺は切らしておりまして 2019/01/13(日) 12:57:35.18 ID:pSQYDZ7L

>>25
言語としても優れてるよ

実装したいアルゴリズムをコンパクトに記述できる
型定義や型変換など、アルゴリズムとは関係ない余計な記述が殆どいらない
インデントで構造が明確で、閉じカッコの様な余計な行が不要

pythonだと、人間はアルゴリズムに集中できる
他の言語ではコンパイラやインタープリターを支援する為に、どれだけ余計な記述を強いられているかがわかる
コードが読みやすいので、仕様書は要らず、数カ月前に書いたコードでも動作を思い出せ、改造が楽

職業プログラマーではない、サイエンティストにとって、最適な言語だ

86: 名刺は切らしておりまして 2019/01/13(日) 13:07:38.53 ID:4VcpaMum
>>85
そうかー,今MATLABで計算しているので,できるだけFORループを使わないように行列演算だけでなんとかならないかと苦戦してるんだけど,それもなくなるのか。
まあ,MATLABは関数の型宣言が全くいらず,いきなり行列を代入することができるのがむちゃくちゃ楽なんだけど。
でもアルゴリズムに集中できるというのはいいね。ちょっとインストールしてみようかな。

88: 名刺は切らしておりまして 2019/01/13(日) 13:26:16.43 ID:Ev0OzgOy

>>86
for loop使わずに行列計算したほうが早いのはpythonも同じ。
裏でどういう処理してるか考えれば分かると思うが。

pythonのnumpyっていう実質的な標準ライブラリを入れると、
MatlabやRと同じ行列演算ができるようになる。

matlab、R、python一通り使ってきたけど、
計算するだけならmatlabが一番楽だね。
環境が製品として閉じてるから。
pythonはプログラミングより環境構築が難しい。

26: 名刺は切らしておりまして 2019/01/12(土) 20:24:06.33 ID:7pg+voxm

なぜ機械学習にPythonが選ばれるのか

Google AppEngineの開始当初(2008年4月)にPythonをサポートしていた際には、なんでPythonなんだろうと軽く調べ、教育用として海外では普及しているという認識だった。
2012年~2013年頃にデータサイエンスがバズワードとなり機械学習する上でR言語と次点でPythonという感じだったと思う。

そして昨今はPython一色になってきている。
私としては何故このように科学計算分野のライブラリが作成され強化されるように至ったのかを知りたくなり歴史から調べてみました。

RubyがRailsにより注目されたように、Pythonでは当初数値コンピューティング用に設計されたものではなかったがリストの概念や関数型言語の基本機能を実装したこと、
Jim Fulton氏(元ZOPE社CTO)が多次元配列・行列ライブラリ「Matrix Object in Python」を開発したことで、
早い段階(Python 1.0から1年後)で科学/エンジニアリングコミュニティに注目され「Matrix-SIG」が設立、
後の「NumPy」が紆余曲折(Numeric(1995年)とNumArray(2001)を統合)を経て2005年にリリースされた。

また幾つかの科学計算用ライブラリをパッケージ化した「SciPy」が2001年にTravis Oliphant氏らによりリリースされた。
その後はEnthought社が2001年に米国で設立され、SciPyをベースにツールやパッケージやサポートを提供、また科学技術計算向けの「SciPy Conference」と呼ばれる会議の開催を支援して行く。

Pythonが、科学技術計算で使われるようになるであろう理由のもう一つに着目した。
オープンソースプロジェクトは開発リソースが限られ、開発の中心メンバーが何らかの理由で参加しなくなった場合、一気にそのプロジェクトが衰退する場合があるが、
特に科学技術計算関係のパッケージについては民間企業が本格的にサポートとしており、オープンソースソフトウェアとして公開する体制が整っている。

民間企業の代表的なのが、Enthought社とContinuum Analytics社である。
Enthought社は科学技術計算用パッケージ群「Scipy Stack」を提供し、科学技術計算向けの「SciPy Conference」と呼ばれる会議の開催を支援している。
Continuum Analytics社はPythonディストリビューション「Anaconda」を提供し、データ分析向けの「Py Data」と呼ばれる会議の開催を支援している。

また、GoogleもPython作者のGuido van Rossum氏を2005年に雇用したり、「Google Summer of Code」というオープンソースの開発に資金を提供するプロジェクトを2005年に作成し、
機械学習ライブラリの「scikit-learn」や多変量回帰分析・時系列分析ライブラリ「statsmodels」がリリースされています。
科学技術計算分野のキーマンは、「SciPy」と「NumPy」の作者でもあるTravis Oliphant氏であろう。
http://qiita.com/yaju/items/5502115d7e3d06e6bbdd

27: 名刺は切らしておりまして 2019/01/12(土) 20:27:33.19 ID:bz9KFmyJ
普段業務でR言語を利用するなんて日本なわけないと思ったらやっぱり日本じゃなかった

28: 名刺は切らしておりまして 2019/01/12(土) 20:33:18.62 ID:FyOIkd6T
>>27
別に日本でも使うだろ。
研究者やデータサイエンティストとかなら。
ITドカタだけが仕事でプログラミングしてるわけじゃねーんだぞ

33: 名刺は切らしておりまして 2019/01/12(土) 20:51:34.47 ID:RxXl9REQ
Rかじった程度の統計の人やプログラム未経験だけどとにかくクエリは自力でかけますみたいな人たちにとっては取っつきやすいみたいですね
純粋なプログラマーにはクソ言語にしか見えない

37: 名刺は切らしておりまして 2019/01/12(土) 21:44:28.59 ID:bl6GrAb2
Python簡単で便利だしな
情報工学の基礎を学んでない人でも扱える

133: 名刺は切らしておりまして 2019/01/14(月) 18:28:34.70 ID:M0b3RSoy
R言語はデータ整形に使ってるけど
エクセル以上Python未満で使い所よく分からないイメージ

148: 名刺は切らしておりまして 2019/01/15(火) 22:28:57.64 ID:1NZLSlBE
データサイエンティストに将来がないと思いますよ。
GAFAのような起業をできなければプログラマと同じような労働者としてこき使われる事になるでしょう。
システムやビジネスがわからないからこそデータサイエンティストでいるわけでしょう。

157: 名刺は切らしておりまして 2019/01/18(金) 04:10:15.01 ID:vMeDuAr6
言語としてはどちらもフリーだろ。
Sのフリー実装がRではなく進化してるんだろ。劣化もしてる部分あるかもしれないが詳しく知らない。

171: 名刺は切らしておりまして 2019/01/19(土) 18:02:02.02 ID:0/YJEt+5

データサイエンティストの世界の話ですからね
勘違いして一般的にソフト開発のスタンダードだと思わないようにw

目的がアプリなのにアセンブラ勉強してしまうようなもの
確かに同等の事は出来るけどね。
でもそれを言ってしまえば、どの言語だって同じw

175: 名刺は切らしておりまして 2019/01/20(日) 09:33:21.17 ID:M+ISAwcn

いわゆる”職業プログラマ”の使うものじゃない
科学者はPythonやFortranなどの超高級言語を使う
成果物アプリやソフトとして売るわけではない

(Pythonは多次元配列に事実上ライブラリ必要だけど)

178: 名刺は切らしておりまして 2019/01/20(日) 09:50:15.98 ID:M+ISAwcn
Pythonは小回りが効くのが買われている、速度や機能で踊るFortranとMatlabと張り合えるのは、これらが雑務をサポートしていないから
Pythonはスクリプトとして一般用途にも使えるから、科学者コミュニティ以外でも使われる
よって使う人の頭数が多くなる

181: 名刺は切らしておりまして 2019/01/20(日) 10:01:30.89 ID:M+ISAwcn
Pythonの高精度計算ライブラリの標準mpmathは任意精度が指定できるけど、
実装のネイティブコード割合が少ないので大規模にはちと辛い
SciPyコミュニティの活発さを少しだけ分けて欲しい

182: 名刺は切らしておりまして 2019/01/20(日) 10:08:22.74 ID:M+ISAwcn

Python+Sageも有望だと思うけど、Pythonをコアにした独自言語という色合いが濃い
正直取っ付きにくい

数値計算ではない部分、特に数論的扱いに関してはPythonに限らずあらゆるサイエンス向け言語の中でずば抜けてる(環などの代数系を定義できる)
Magmaなど著名な処理系を手当たり次第統合してるからだけど…

素のPythonから引けるようにライブラリとしてリリースしてほしい

155: 名刺は切らしておりまして 2019/01/17(木) 19:33:46.76 ID:0ujw0n2R
データサイエンティストって楽?

引用元

【IT】データサイエンティスト職に求められる言語のトップに「Python」--「R」を上回る

管理人からひと言

Rって使われてたんだ

[商品価格に関しましては、リンクが作成された時点と現時点で情報が変更されている場合がございます。]

R言語徹底解説 [ ハドリー・ウィッカム ]
価格:5832円(税込、送料無料) (2019/1/22時点)

スポンサーリンク
スポンサーリンク
スポンサーリンク

シェアする

フォローする

スポンサーリンク
スポンサーリンク