All Articles

Hadoop Platform and applications course(Coursera)

μ˜ˆμ „λΆ€ν„° λΉ…λ°μ΄ν„°λž€ 것이 λ„λŒ€μ²΄ 무엇인가 λ§‰μ—°ν•œ ꢁ금증이 μžˆμ–΄μ™€μ„œ κ²¨μšΈλ°©ν•™μ„ ν‹ˆνƒ€ Coursera μ—μ„œ Hadoop Platform and applications courseλΌλŠ” μž…λ¬Έ κ°•μ˜λ₯Ό λ“€μ—ˆλ‹€. κ°•μ’ŒλŠ” 총 5 주에 κ±Έμ³μ„œ μ§„ν–‰λ˜λ©° 각 주의 λ‚΄μš©μ€ λ‹€μŒκ³Ό κ°™μ•˜λ‹€.

  • Week1: ν•˜λ‘‘κ³Ό κ·Έ μœ„μ—μ„œ λŒμ•„κ°€λŠ” λ‹€μ–‘ν•œ 것듀(Yarn, Hive, Pig, Spark)에 λŒ€ν•œ μ†Œκ°œ. μ‹€μŠ΅μ΄ μ΄λ£¨μ–΄μ§ˆ Cloudera VM μ„€μΉ˜
  • Week2: ν•˜λ‘‘κ³Ό κ·Έ μœ„μ—μ„œ λŒμ•„κ°€λŠ” λ‹€μ–‘ν•œ 것듀에 λŒ€ν•œ μ†Œκ°œλ₯Ό 쑰금 더 μžμ„Ένžˆ ν•˜κ³ , Pig 와 Hive 쿼리λ₯Ό λ‚ λ €λ³Έλ‹€
  • Week3: HDFS 에 λŒ€ν•œ 더 κΉŠμ€ μ†Œκ°œ
  • Week4: Map reduce 에 λŒ€ν•œ μ†Œκ°œ. μˆ™μ œλ‘œ κ°„λ‹¨ν•œ join 쿼리λ₯Ό μ§œλ³Έλ‹€
  • Week5: Spark 에 λŒ€ν•œ μ†Œκ°œ. μˆ™μ œλ‘œ κ°„λ‹¨ν•œ join 쿼리λ₯Ό μ§œλ³Έλ‹€

λ­”κ°€ λ‹€ λ“£κΈ°λŠ” λ“€μ—ˆλŠ”λ°, μ• μ΄ˆμ— λŒ€μƒμ΄ ν”„λ‘œκ·Έλž˜λ¨Έλ“€μ„ λŒ€μƒμœΌλ‘œ ν•œ 것이 μ•„λ‹ˆλΌ 데이터λ₯Ό 뢄석해야 ν•˜λŠ” μΌλ°˜μΈμ„ λŒ€μƒμœΌλ‘œ ν•œ κ²ƒμ΄μ–΄μ„œ ν”„λ‘œκ·Έλž˜λ° μˆ™μ œκ°€ λͺΉμ‹œ 쉽고, κ°•μ˜λ„ λ‚΄μš©μ΄ κ·Έλ ‡κ²Œ κΉŠμ§€κ°€ λͺ»ν•˜λ‹€. λ‚˜λ¦„λŒ€λ‘œ μ—°μŠ΅μ„ 해보렀고 μˆ™μ œλ“€μ€ ClouderaVM λŒ€μ‹  AWS 둜 μ•„μ£Ό μž‘μ€ EMR ν΄λŸ¬μŠ€ν„°λ₯Ό λ„μ›Œμ„œ ν•΄λ³΄μ•˜λŠ”λ°, 두 ν™˜κ²½ λͺ¨λ‘ μ„ΈνŒ…μ΄ λ„ˆλ¬΄λ‚˜λ„ 잘 λ˜μžˆμ–΄μ„œ νŽΈλ¦¬ν–ˆλ‹€. λ‚΄κ°€ μ‚¬μš©ν–ˆλ˜ ν΄λŸ¬μŠ€ν„°μ˜ μš”κΈˆμ΄ μ‹œκ°„ λ‹Ή 1000 원 κΌ΄μ΄μ—ˆμœΌλ‹ˆ ν•œ 달이면 72 λ§Œμ›μ΄λΌμ„œ κ½€λ‚˜ λΉ„μ‹ΈκΈ΄ν•˜μ§€λ§Œ, μ–΄λŠ μˆ˜μ€€κΉŒμ§€λŠ” μ „λ¬Έκ°€λ₯Ό κ³ μš©ν•˜λŠ” 것보닀 κ²½μ œμ μ΄κ² λ‹€λŠ” 생각이 λ“€μ—ˆλ‹€. μ–΄μ¨Œλ“ , κ°•μ’Œλ₯Ό λ“£κ²Œ ν–ˆλ˜ μ›λž˜ 물음인 β€˜λΉ…λ°μ΄ν„°κ°€ λ¬΄μ—‡μΌκΉŒβ€™μ— λŒ€ν•œ 닡이 λ‚˜λ¦„λŒ€λ‘œ 생기긴 ν–ˆλ‹€. μ§€κΈˆμœΌλ‘œμ¨λŠ”

큰 데이터λ₯Ό 마치 μž‘μ€ λ°μ΄ν„°μ²˜λŸΌ, κ·Έλƒ₯ MySQL μ΄λ‚˜ R μ—μ„œ 닀루듯이 μ‰½κ²Œ λ‹€λ£¨κ²Œ ν•΄μ£ΌλŠ” 것

이 빅데이터 κΈ°μˆ λ“€μ΄ μ•„λ‹κΉŒ? μ •λ„μ˜ 닡변이 λ‚΄κ°€ ν•  수 μžˆλŠ” μ΅œμ„ μ˜ λ‹΅λ³€ κ°™λ‹€. 점점 쒋은 ν”„λ ˆμž„μ›Œν¬λ“€μ΄ λ‚˜μ˜¬ν…Œλ‹ˆ κ²°κ΅­ μ•Œκ³ λ¦¬μ¦˜μ„ 잘 μ§œλŠ” 것이 μ€‘μš”ν•  것 같은데…곡뢀할 것도 많고, 곡뢀할 κΈ°νšŒλ„ λ§Žμ€ μ„Έμƒμ΄λ‹€γ…Žγ…Ž

p.s1) 이 κ°•μ’Œμ˜ 수료증 가격은 무렀 $79. 아무리 λΆ€λͺ¨λ‹˜ μΉ΄λ“œλ‘œ κΈλŠ”λ‹€μ§€λ§Œ 속이 μ“°λ €μ„œ 긁지λ₯Ό λͺ»ν•˜κ² λ‹€γ…œγ…œ. μ˜ˆμ „μ— 정말 λΉ‘μ„Έκ²Œ 듀은 κ°•μ˜λ“€μ€ 무료둜 μˆ˜λ£Œμ¦μ„ μ€¬λŠ”λ°, 이 κ°•μ’ŒλŠ” λ„λŸ΄ν•˜λ©΄μ„œλ„ 가격이 λΉ„μ‹Έλ‹€. 직μž₯인듀이 이런 κ±°λ₯Ό λ“€μœΌλ©΄ 정말 컀리어에 도움이 λ˜λŠ” κ²ƒμΌκΉŒ. μ–΄μ¨Œλ“  μˆ˜λ£ŒλŠ” ν–ˆλ‹€ certificate p.s2) μ΅œκ·Όμ— 읽은 μ±…μ—μ„œ ν•¨μˆ˜ν˜• ν”„λ‘œκ·Έλž˜λ°μ΄ λ‹¨μˆœνžˆ ν”„λ‘œκ·Έλž˜λ¨Έμ˜ 였λ₯˜λ₯Ό μž‘μ•„μ€˜μ„œ μ’‹μ€κ²Œ μ•„λ‹ˆλΌ 병렬화 λ“±μ˜ μž‘μ—…μ„ μžλ™μœΌλ‘œ μˆ˜ν–‰ν•˜κΈ° 더 μ ν•©ν•˜λ―€λ‘œ μ•žμœΌλ‘œ 점점 μ€‘μš”ν•΄μ§„λ‹€κ³  ν–ˆλŠ”λ° μ§„μ§œλ‘œ(!) Spark μ—μ„œ 그런 λŠλ‚Œμ„ 받을 수 μžˆμ—ˆλ‹€.

Published 10 Feb 2016

If I keep marking the dots, someday they will πŸ”—πŸ”—
Hyeungshik Jung on Twitter