Ali so podatki o znanosti in velikih podatkih hadoop enaki? Ali obstaja razlika med njima ali obe pomenita isto?


Odgovor 1:

Ne, zagotovo ne.

O tej težavi razpravljamo v treh delih:

Data Science je specializacija za reševanje različnih problemov z uporabo različnih metod, kot so statistika, kombinacija, matematika in računalništvo itd.)

Veliki podatki: Veliki podatki v širšem pogledu so koncept ravnanja z ogromnimi podatki (Izraz ogromno je relativno) zunaj tradicionalnih metod.

Hadoop: Hadoop je okvir ali lahko rečemo okolje, ki ga lahko uporabimo za upravljanje in analizo ogromnih nizov podatkov z različnimi orodji (PIG, HIVE, Scoop, Fume itd.)

Reference:

Hadoop vadnica

Podatkovna znanost

Veliki podatki


Odgovor 2:

Predvidevam, da ste mislili, da sta "Data Science" in "Big Data Hadoop" dve različni stvari, vendar sta v resnici tri. Data Science, Big Data in Hadoop imajo različne pomene.

Predpostavimo, da ste učenec v 10. razredu. Dobili ste nalogo, da poiščete povprečje ocen pri vsakem predmetu, ki so ga dosegli vaši sošolci. V razredu imate 50 učencev, ki preučujejo 5 predmetov. Iskanje povprečja ni raketna znanost, zato vse to naredite v excel listu. Zdaj vaš učitelj od vas zahteva, da opravite enak izračun za vse oddelke A, B in C od približno 150 učencev. Excel list je spet dovolj. Zdaj želite vedeti, kakšne bi bile povprečne ocene za Science, ki so jih dobili učenci desetih razredov po vsej državi, to je približno 14,31,861 študentov v letu 2016. Toliko podatkov verjetno ne shranite v excel listu, tako da bi jih shranili v bazi podatkov, kot sta MySQL ali Oracle. Zaženete poizvedbo SQL in poiščete povprečje. Zdaj vas zanima, kako se je povprečje premikalo od zadnjih 20 let v znanosti za 10. razred, kar je približno 3000000 zapisov. Če bi našli povprečje vseh 5 predmetov in ne le naravoslovja, bi obdelovali 30000000 x 5 zapisov. Podatki so zdaj veliki, kar imenujemo tudi "veliki podatki".

Veliki podatki - izjemno veliki nabori podatkov, ki jih je mogoče računalniško analizirati, da bi razkrili vzorce, trende in povezave, zlasti v zvezi s človeškim vedenjem in interakcijami. - Iz Wikipedije

Verjetno ne bi smeli shraniti toliko podatkov v svoj MySQL ali Oracle in zagnati poizvedbo SQL na milijone zapisov. Nikoli nisem obravnaval toliko podatkov v bazi SQL, zato ne bi komentiral njegovih zmogljivosti, vendar sem uporabil Hadoop za obdelavo velike količine podatkovnih nizov, veliko večje od baze podatkov o študentih, o kateri govorimo. Hadoop je okvir, ki podatke razdeli v več sistemov, tako da lahko vsi sistemi vzporedno izvajajo račune in s tem povečajo skupno hitrost računanja, imenovano tudi porazdeljeno računalništvo. Hadoop ima svoj datotečni sistem, ki je sistem za shranjevanje podatkov za Big Data.

Znanost podatkov v laičnem smislu je veda o razumevanju, kaj storiti s podatki, velikimi ali majhnimi. Do zdaj smo le skušali najti povprečje ocen, vendar bi podatkovni znanstvenik presegel in iskal načine, kako najti, kaj lahko stori s povprečjem. Za organizacijo jim bo pomagal sprejemati poslovne odločitve in poiskati vzorce, ki bodo šefom pomagali do boljših odločitev in dodeljevali vire za povečanje dobička. Večina podatkovnih znanstvenikov morda niti ne uporablja Hadoopa, če se ne ukvarjajo z velikimi podatki, za izračune običajno uporabljajo R lang ali Python.

Big Data je koncept.Hadoop je orodje.Data Science je področje računalništva.


Odgovor 3:

Predvidevam, da ste mislili, da sta "Data Science" in "Big Data Hadoop" dve različni stvari, vendar sta v resnici tri. Data Science, Big Data in Hadoop imajo različne pomene.

Predpostavimo, da ste učenec v 10. razredu. Dobili ste nalogo, da poiščete povprečje ocen pri vsakem predmetu, ki so ga dosegli vaši sošolci. V razredu imate 50 učencev, ki preučujejo 5 predmetov. Iskanje povprečja ni raketna znanost, zato vse to naredite v excel listu. Zdaj vaš učitelj od vas zahteva, da opravite enak izračun za vse oddelke A, B in C od približno 150 učencev. Excel list je spet dovolj. Zdaj želite vedeti, kakšne bi bile povprečne ocene za Science, ki so jih dobili učenci desetih razredov po vsej državi, to je približno 14,31,861 študentov v letu 2016. Toliko podatkov verjetno ne shranite v excel listu, tako da bi jih shranili v bazi podatkov, kot sta MySQL ali Oracle. Zaženete poizvedbo SQL in poiščete povprečje. Zdaj vas zanima, kako se je povprečje premikalo od zadnjih 20 let v znanosti za 10. razred, kar je približno 3000000 zapisov. Če bi našli povprečje vseh 5 predmetov in ne le naravoslovja, bi obdelovali 30000000 x 5 zapisov. Podatki so zdaj veliki, kar imenujemo tudi "veliki podatki".

Veliki podatki - izjemno veliki nabori podatkov, ki jih je mogoče računalniško analizirati, da bi razkrili vzorce, trende in povezave, zlasti v zvezi s človeškim vedenjem in interakcijami. - Iz Wikipedije

Verjetno ne bi smeli shraniti toliko podatkov v svoj MySQL ali Oracle in zagnati poizvedbo SQL na milijone zapisov. Nikoli nisem obravnaval toliko podatkov v bazi SQL, zato ne bi komentiral njegovih zmogljivosti, vendar sem uporabil Hadoop za obdelavo velike količine podatkovnih nizov, veliko večje od baze podatkov o študentih, o kateri govorimo. Hadoop je okvir, ki podatke razdeli v več sistemov, tako da lahko vsi sistemi vzporedno izvajajo račune in s tem povečajo skupno hitrost računanja, imenovano tudi porazdeljeno računalništvo. Hadoop ima svoj datotečni sistem, ki je sistem za shranjevanje podatkov za Big Data.

Znanost podatkov v laičnem smislu je veda o razumevanju, kaj storiti s podatki, velikimi ali majhnimi. Do zdaj smo le skušali najti povprečje ocen, vendar bi podatkovni znanstvenik presegel in iskal načine, kako najti, kaj lahko stori s povprečjem. Za organizacijo jim bo pomagal sprejemati poslovne odločitve in poiskati vzorce, ki bodo šefom pomagali do boljših odločitev in dodeljevali vire za povečanje dobička. Večina podatkovnih znanstvenikov morda niti ne uporablja Hadoopa, če se ne ukvarjajo z velikimi podatki, za izračune običajno uporabljajo R lang ali Python.

Big Data je koncept.Hadoop je orodje.Data Science je področje računalništva.