'IT/Hadoop'에 해당되는 글 1건

  1. 2013.08.05 The History of Hadoop
posted by dalnimbest 2013. 8. 5. 12:20



Hadoop은 200년 시작된 웹 검색엔진인 Nutch Project(By Apache)에서 시작되었다. 검색엔진 기술은 일부 회사(야후, 구글등)만 가지고 있어서 오픈소스로 개발하면 좋겠다고 생각한 Doug Cutting과 Mike Cafarella가 오픈소스를 개발하였다. 10억 페이지규모의 색인을 유지하기 위해서 매달 3만달러의 운영비와 연간 50만 달러의 비용으로 검색엔진을 구축할수 있는 기술을 2004년도 ACM Queue 에서 Building Nutch:Open Source Search로 발표하였다.


<Doug Cutting>

   



<Mike Cafarella>

                                                 


사실 Nutch Project이전에는 1999년도에 Lucene Project가 있었다. 웹이 폭발적으로 성장하던 시기로 웹페이지에서 텍스트를 추출하는것이 중요한 기술로 이를 빠르게 찾기 위해서 Doug Cutting은 Lucene을 개발하였고 오픈 소스화 하였다.


Nutch는 10억 페이지 규모의 색인을 유지할수 있었지만 이걸로는 방대한 웹페이지를 핸들링하기가 어려웠는데 2003년 구글이 The Google File System을 발표하였는데 Doug Cutting은 여기서 아이디어를 가져와 Nutch Distributed File System을 만들었는데 이는 웹 크롤링과 색인 과정에서 생성되는 엄청나게 큰 파일드을 생성하기에 알맞은 구조를 가지고 있는 파일시스템이다.


또한 구글은 2004년 Google File System위에서 대용량 데이터를 간단하게 처리할수 있는 MapReduce를 발표하였고 Nutch Project는 MapReduce까지 프로젝트에 포함하였다.


2006년 Nutch Project로 부터  Nutch Distributed File System과 MapReduct를 독립시켜서 대용량의 데이터를 처리할수 있는 Hadoop프로젝트를 시작하였고 이때 Doug Cutting은 야후에 입사하여 2008년에 Hadoop을 야후에 적용시켰고 그해 2월에 Apache 재단에 Hadoop을 최고의 프로젝트에 등극하게 된다.


참고로 Hadoop을 사용하지 않았을때 1TB의 데이타를 읽기위해서 초당 100MB씩 읽어들이면 약 3시간정도 걸리는것이 Hadoop를 사용했을때 2007년도에는 297초에 읽어들였다. 나중에 2009년 5월에는 62초만에 1TB의 데이터를 읽을만큼 기술이 발달하였다.


2011년 12월 27일에 드디어 정식버전인 1.0을 발표하였다.





Reference

http://hadoop.apache.org/

http://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/