분류 전체보기 156

머신러닝1 필기 (7)

추론통계 (분산의 분포 - ANOVA) F-distribution F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율 (분산분포, F-분포) X축은 두 분산의 비율, Y축은 지정된 F값에 대해어떠한 유사 속성이 비슷한 두 집단 → 비율로 비교한다.  분산분석(F-test) F-분포(Fisher–Snedecor distribution) : F-value는 분산의 비율▶ 따라서 분산분석이라 부름전체 평균으로부터 각 집단의 평균 까지의 분산(Between Variance) → 집단 간의 차이 ▶ 전체 평균으로부터 각 집단의 평균값이 멀리 떨어져 있음 → 적어도 하나의 집단은 한 개는 다른 집단과 평균이 다를 수 있음전체 ~ 각각 : 평균각각의 집단의 한 지점이 해당 ..

머신러닝1 필기 (6)

기말고사 범위  분산의 분포 분산 분포는 확률 변수의 분산(또는 동등하게 표준 편차의 제곱)을 설명하는 통계적 분포를 나타냄 ➔ 변동성통계적 추론에서, 특히 작은 표본을 다룰 때 분산 분포를 아는 것은 가설 검정과 모집단 분산에 대한 신뢰 구간 구성에 중요하다! 임상 시험 : 두 가지 치료법의 효과를 비교하는 경우 어떤 치료법이 더 나은 평균 결과를 나타내는지 뿐만 아니라 어떤 치료법 이 더 일관된(더 낮은 분산) 결과를 나타내는지 알고 싶음 ➔ 더 안정적이고 효과적인 걸로!교육 : 서로 다른 두 가지 교육 중재 간의 시험 점수를 비교할 때 일관된 차이를 이해하면 해당 중재가 학생 전체에 걸쳐 얼마나 잘 작동하는지 나타낼 수 있음제조 : 품질 관리에서는 단순히 높은 평균 품질이 아닌 일관되게 높은 품질의..

비즈니스 커뮤니케이션1 중간고사 준비

Q. Do you agree or disagree with the following statement?In order for business leaders to be successful, they need to be skilled at negotiating.Give specific reasons or examples to support your opinion. A. I agree that in order for business leaders to be successful, they need to be skilled at negotiating.The reason is simple. First of all, negotiation is necessary when hiring employees.Also, bei..

비즈니스 커뮤니케이션1 필기 (7)

※ Tip : taken in a lab : 연구실에서 찍은, reaching for a box : 상자를 향해 손을 뻗은[ 상황 설명 ] A. I think this picture was taken in a lab. In the front of the picture, a man who is wearing green coat is looking at a computer screen. I think he is studying something. In the background of the picture, a woman who is wearing white coat is reaching for a box. It seems like they are scientists.  A. I think this pictu..

비즈니스 커뮤니케이션1 필기 (6)

Hi, I heard about your rafting trips, and I'd like to get some information.Q8. Where are you located, and in what months do you have rafting trips?A. We are located on 230 River Road and we have rafting trips from May through September.A. We are locate on 230 River Road and we have rafting trips from May to September.  ※ Tip : 번지수 앞에는 on이나 at을 사용하자.  Q9. I don't own any rafting equipment. Do I n..

빅데이터분석 필기 (8)

회귀분석 선형회귀식(linear regression equation)을 도출하여 변수(독립변수 및 종속변수) 간의 연관성을 분석하는 통계기법 단순회귀분석(simple regression analysis) : 독립변수가 한 개인 경우 다중회귀분석(multiple regression analysis) : 독립변수가 두 개 이상인 경우 최소자승법(least-squares method) : 산점도상의 관측된 각 좌표점과 임의의 직선 사이의 수직거리를 제곱하여 합한 값이 가장 작게 되는 직선을 찾는 방법 도출된 회귀선이 두 변수 간의 관계를 얼마나 잘 설명하는지 혹은 한 변수를 통해 다른 변수를 얼마나 정확히 예측하는지는 그 직선과 데이터와의 적합도(goodness of fit) 수준을 이용하여 평가 R을 제곱한..

빅데이터분석 필기 (7)

1. 기존 데이터(확률표본)로 예측 확률 계산 → 왜 계산 ? 서버의 참값과 비교하기 위하여 (모형의 타당성과 정확도) 2. 실제 데이터 (New Data) → P값을 구한다. Z-분포 : 한 집단 검정할 때 쓰인다. T-분포 : 두 집단 검정할 때 쓰인다. → 계수(를 찾기 위해) F-분포 : 모형검정 카이제곱 분포 : 문자형들에 대한 적합도를 구하기 위해 ANOVA : 세 집단 이상의 비교를 할 때, 분산분석 (아노바) 을 한다. [ 중간고사 출제 가능성 Top ] 1. 빅데이터분석의 정의 및 개요 (4V, 정형데이터, 비정형데이터 엮어서) 2. 하둡의 정의와 구성요소 3. 맵리듀스 과정 풀어쓰시오. 4. 그림 표주고 유의한지 안한지 해석하시고 표에서 알 수 있는 것들 적으시오. 5. 오즈비 6. 검..

빅데이터분석 필기 (6)

[ 복습 ] 산점도 두 변수의 관계를 알 수 있다. 상관관계를 알고 상관분석을 할 수 있다. 관계를 숫자로 나타낸 것이 상관계수이다. (상관계수 : r) 빅데이터 분석 : 표본의 상관계수로 전체를 분석 및 미래를 예측하는 것 회귀분석 : 참값에 유사한 근삿값을 갖는 직선 (회귀직선) 을 그리도록 모형화하는 것 상관관계 두 변수 간 인과관계를 알려주지는 않는다. 인과관계 두 변수 간의 상관이 존재한다. 원인이 되는 변수가 결과가 되는 변수에 시간적으로 선행한다. 원인 변수 외에 영향을 미치는 제 3의 변수가 제거되어야 한다. 회귀분석 상관분석 지도학습 : 종속변수, 독립변수 비지도학습 : 변수의 구분이 없다. 모집단에서 랜덤 샘플링해서 표본의 상관계수로 모집단의 상관계수 추정 및 검정하는 것 회귀분석 지도..

빅데이터분석 필기 (5)

우선, 분석에는 기술통계와 추론통계가 있으며 이걸 통하여 추정과 검정을 한다. 상관분석 : 상관계수를 계산해야 한다. 확률변수 X와 Y의 변수 구분이 없다. 똑같은 입장에서 연관성을 찾는 분석이다. 회귀분석 :회귀분석은 회귀모형의 계수를 찾는 분석이다. 이 때 X는 독립변수, Y는 종속변수로 구분을 하며, 수많은 데이터 X를 가지고 Y에 근접하게 나오는 식을 구하는 것이다. 이것을 모델링이라 하며, 계수를 찾는 방법을 최소자승법이라고 한다. 수많은 데이터 X에 거의 근접하게 나오는 Y를 구하는 식을 구했다면, New Data를 넣음으로 상수, 계수가 올바른지, 신뢰성이 있는지 평가를 해야 한다. 이것을 검정이라고 한다. 검정은 계수의 검정이 있고, 모형 전체의 검정이 있다. 회귀분석에는 식 모형에 따라,..