선형 모델과 유사한 대부분의 예측 메서드에는 예측에 사용할 설명 변수를 찾는 첫 번째 위치를 지정하는 인수 newdata가 있습니다. newdata의 열을 피팅에 사용되는 열과 일치시키려는 몇 가지 상당한 시도가 있습니다(예: 유사한 형식이고 모든 요인이 동일한 순서로 설정된 수준(또는 변환될 수 있음). 적합이 순위가 부족한 경우 설계 행렬의 일부 열이 삭제됩니다. newdata가 원래 데이터와 동일한 하위 공간에 포함되어 있는 경우에만 이러한 맞춤의 예측이 의미가 있습니다. 이를 정확하게 확인할 수 없으므로 경고가 표시됩니다. 예를 들어, 세 가지 새로운 속도 값을 포함하는 새 데이터 프레임을 생성하여 시작합니다: 예를 들어, 19의 속도와 연관된 95% 신뢰 구간은 (51.83, 62.44)입니다. 즉, 모델에 따르면 19mph의 속도를 가진 자동차는 평균 51.83피트에서 62.44ft. d. 혼란 매트릭스의 결과를 얻고 성능 키를 개선하기 위해 노력합니다.

예를 들어 모델에 새 피처를 추가하고 모델이 더 나은지 확인한 다음 변수를 추가할 때 증가 없이 가장 높은 정확도를 제공하는 모델을 선택하는 방법을 예로 들 수 있습니다. newdata에서 누락된 값으로 수행할 작업을 결정하는 함수입니다. 기본값은 NA를 예측하는 것입니다. 요인 및 연속 변수 플롯의 경우 상자 플롯은 일반적으로 매우 적합합니다. “#creates x축(크기) 및 y축(가격) 크기 <-c(2104, 1416, 1534, 852) 가격 <- c (460, 232, 315, 178) data1 <- data.frame (크기, 가격) 플롯 (크기, 가격, 콜 = 2, pch = 16, xlab = "피트² 크기", ylab = "가격 ($)에 1000", 기본 크기 #makes 데이터 lm_price의 회귀 근처 <- lm (가격 ~ 크기, 데이터 = 데이터1) #uses lm_price` coef를 #uses 최고의 라인 abline (coef (lm_price), lwd = 1) 라인 (크기 [크기]]), 가격 [주문 (가격)], 콜 = "파란색") 120피트 크기 <120_에 대한 가격을 #predic. data.frame(크기 = 1200) 예측(lm_price, size_1200) “` 브루스, 피터, 앤드류 브루스. 2017. 데이터 과학자를위한 실용적인 통계. 오라일리 미디어. 예측에 대한 분산 가중치입니다. 숫자 벡터 또는 단면 모델 수식일 수 있습니다.

후자의 경우 newdata에서 평가된 표현식으로 해석됩니다. newdata가 생략된 경우 예측은 피팅에 사용되는 데이터를 기반으로 합니다.