понеділок, 27 червня 2011 р.

CrunchBase. Аналіз в R.


 З бази стартапів http://www.crunchbase.com/  за допомогою скриптів, які доступні тут можна отримати дані для подальшого аналізу. Сьогодні аналізуватимемо проекти залежно від країни.
Передмова та аналіз засобами SQL від Андрія Корнілова  тут.
Маємо інформацію про трохи більше як 60 000 проектів. Якщо вибрати серед них ті, які отримали кошти- цифра стає значно скромнішою -  біля 10 тис.
Розглянемо розподіл коштів, для кращого сприйняття результатів будемо представляти результати в  тисячах $.



summary(companydatapos$raised_amount)
Min. 1st Qu. Median Mean 3rd Qu. Max.  1 1320 5650 17410 16350 5620000
 sd(companydatapos$raised_amount)
[1] 73466.3

Отже, мінімальна сума коштів, які отримав проект - 1000 $,  максимальна - 5620000000 $. Медіана (тобто типова сума, яку отримала більшість компаній) - 5,6 млн, а середнє значення 17 млн,  яке до того ж більше 3 квартилі, яка відмежовує 25% найбільших значень.  Іншими словами, на середнє мають сильний вплив суми, отримані компаніями, які залучили найбільші   інвестиції.  Дуже велике значення стандартного відхилення - 73 млн.

Шукаємо інформацію, про проект, який отримав найбільшу суму:

name founded_year country_code state_code zip_code city
Clearwire 2003 USA WA 98033 Kirkland
А ось і сайт цього проекту: http://www.clearwire.com/

Більше 1 млрд отримало 7 проектів:


row.namesnamecountry_coderaised_amount
11926AOLUSA1003000
26922ClearwireUSA5620000
312133FacebookUSA2335700
412708Fisker AutomotiveUSA1033000
514989GrouponUSA1137000
624776O3b NetworksGBR1275000
734587Terra-Gen PowerUSA1200000

 Яка ж ситуація в Україні?

row.namesnamecountry_coderaised_amount
13445Bartermill.comUKR40
214024Gera-ITUKR50
328487RailswareUKR500
    
Відкинемо дані, які більше 1 млрд
 summary(companydatapos$raised_amount)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1    1320    5641   16180   16300  813000 
 sd(companydatapos$raised_amount)

[1] 38225.12
Відхилення зменшилось вдвічі, але далі досить великий розкид даних.  Крім того, 6 із 7 знаходяться в США, тобто на інші країни впливу не здійснюють. Тому в подальшому - розлядаємо всі дані.

Для кожної країни рахуємо мінімальне, медіану, середнє та максимальне значення, суму коштів отриманих країною, а також кількість проектів, які отримали фінансування.
 summary(sumcountry$countst)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0     2.0     5.0   134.8    33.0  7930.0 

Медіана кількості проектів, які отримали фінансування  - 5. 

Переглянемо, в яких країнах є хоча б 50 проектів, які отримали гроші:
row.namesminstmedianstmeanstmaxstsumstcountst
1USA1.06972.519046.9855620000151156875.47936
2GBR10.03035.014108.52412750007421083.4526
3CAN1.25000.011472.4623500003957999.4345
4FRA50.02935.06446.4671490001972619.0306
5ISR20.04300.09630.2231150002715722.9282
6CHN7.012000.029960.0424780004853526.8162
7IND6.06555.015369.1733000002489806.0162
8DEU15.03185.09063.4941587001395778.0154
9SWE35.02595.05629.93079960585512.7104
10ESP15.01930.07566.904218400628053.083
11CHE10.05600.027193.8055150002093923.077
12AUS7.01800.06539.23190000438128.567
13IRL70.03900.06832.03150250437250.064
14DNK10.03865.010191.793160400591124.058

Побудуємо коробчасту діаграму отриманих коштів для кожної з цих країн:
Присутність даних  про проекти з мільярдними інвестиціями, а також велика, порівняно з іншими країнами, кількість успішних проектів у США не дозволяє побачити картинку для інших країн. Усунемо з діаграми США та Великобританію:
Для всіх країн (зараз розглядаємо ті, у яких більше 50 проектів, які отримали фінансування) характерні значні відхилення від середнього значення.  

Розглянемо ще відсоток  проектів з фінансуванням до всіх, які зареєстровані в цій країні.  Країни, де зареєстрований 1 проект, який і спрацював, тому спрацювало 100 % - відкидаємо.

 summary(merged$percent)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   3.85   11.18   16.67   19.52   23.75   51.18 
 sd(merged$percent)
[1] 12.11956
Найбільш успішні в цьому плані Ізраїль - 51% з 551 проекту та Китай 41% з  388.  Найбільша кількість спрацювавших проектів в США, але відсоткове співвідношення тут 31 %.  В середньому ж  отримує фінансування 1 з 6 проектів.
 
Найближчими днями  будемо досліджувати розподіл залежно від галузі. Переглянути в які стартапи як інвестують можна тут 
http://energyfirefox.blogspot.com/2011/07/cruncbase.html

1 коментар:

  1. треба розширити базу датою отримання першого фінансування того чи іншого типу (посів, ангельське тощо) і проаналізувати залежності фінансування від часу життя, галузі тощо. відкинути фірми, які створені більше ніж н років від отримання коштів - це, швидше за все, не стартапи. н напевно буде різне для різних галузей

    ВідповістиВидалити