Munnell et al.(1996)은 미국 주택 모기지 대출에 있어서 흑인과 히스패닉 신청자들의 대출 기각률이 더 높은 것이 인종차별 때문인지, 아니면 이들 계층의 신용상태가 더 취약해서인지 불분명하다는 점을 지적하고, 1990년 HMDA 데이터에 추가적으로 FRB 보스턴이 자체 수집한 신용관련 정보 등을 보완하여 새로이 분석을 시도했다. 하지만 그럼에도 불구하고 여전히 대출 결정에 있어서 인종적 차별이 존재하는 것으로 나타났다. 본 연구는 기존의 실증분석에서 나타난 모기지 대출의 인종차별성을 머신러닝 기법을 사용하여 검증하였다. 지금까지의 실증분석 결과는 대개 전통적인 회귀분석 방법론인 로짓(logit) 모형을 사용하여 인종이라는 설명변수의 추정계수가 통계적으로 유의한지를 따지는 방식을 취해왔는데, 본 연구는 이러한 전통적 회귀분석 방법이 인종 변수의 통계적 유의성을 검증하는 것일 뿐, 대출 결정에서 인종이 어느 정도 중요한 역할을 하는지를 검증하는 것은 아니라는 문제점을 제기한다. 이에 따라 본 연구는 Munnell et al.(1996)과 동일한 데이터를 그대로 사용하되, 머신러닝의 핵심 방법론 중의 하나인 랜덤 포리스트(random forest) 기법에서 설명변수의 중요성을 평가하는 방법을 사용하여 과연 인종이라는 설명변수가 대출의 성공 여부를 나누는 데 중요한 변수인지 평가하고 이를 전통적 회귀분석 결과와 비교한다. 추정결과를 보면, 1990년 FRB 보스턴 데이터에 대한 로짓 모형 추정에서는 Munnell et al.과 마찬가지로 인종 변수가 0.1% 수준에서 유의한 것으로 나타났지만, 랜덤 포리스트의 중요성 평가에서는 중간 이하의 중요도를 가진 것으로 나왔다. 이러한 결과가 1990년 FRB 보스턴 데이터뿐만 아니라 다른 데이터에서도 발견되는지 살펴보기 위해 2000년대 HMDA 데이터 중 2007년, 2011년, 2016년 데이터를 사용하여 동일한 방식으로 분석을 시도했다. HMDA 데이터의 경우, 1990년 FRB 보스턴 데이터에 비해 변수의 개수는 더 많지만 부도위험이나 부도비용을 반영하는 변수가 훨씬 적다. 따라서 HMDA 데이터를 사용하여 대출의 인종차별성을 추가적으로 평가하는 것이 1990년 FRB 보스턴 데이터를 사용했을 때에 비해 대출 신청자의 부도위험이나 비용을 통제하지 않은 상태로 인종 변수를 평가하는 것이기 때문에 대출 승인에 있어서 인종 변수의 중요성이 높게 나올 가능성이 크다고 할 수 있다. 따라서 만약 HMDA 데이터를 사용해서도 대출 승인에 있어서 인종 변수의 중요성이 별로 높지 않다면 대출에 있어서 인종차별성이 존재한다는 주장을 반박하는 증거가 될 수 있다. 추정 결과를 보면, HMDA 데이터에서도 1990년 FRB 보스턴 데이터 분석과 비슷한 결과가 다시 한 번 확인되었다. 즉, 로짓 분석에서는 인종 변수가 0.1% 수준에서 유의하게 나타났지만, 랜덤 포리스트의 중요성 평가에서는 대체적으로 중간 이하의 중요도를 지닌 것으로 추정되었다. 결국 본 연구는 전통적 회귀분석에 의해 인종 변수의 통계적 유의성이 확인되었다고 해서 그것을 곧바로 대출에 있어서의 인종차별성으로 결론지을 수 없다는 결과를 얻었다. 즉, 통계적으로 매우 유의한 변수이더라도 해당 변수의 상대적 중요성은 매우 낮을 수 있다는 점을 보인 것이다.
Munnell et al. (1996) pointed out that it was unclear why black and Hispanic applicants'' loans were more frequently rejected in US home mortgage lending due to racial discrimination or because their credit standing was weaker. Accordingly, they attempted a new analysis by supplementing the HMDA data in 1990 with additional credit-related information collected by FRB Boston itself. Nonetheless, it still appeared that racial discrimination existed in lending decisions. This study examines the racial discrimination of US mortgage lending in the previous empirical analysis by using machine learning technique. Previous studies up to now have estimated mortgage loan data using the logit model, and then examined whether the estimated coefficients of the racial explanatory variables are statistically significant. This study poses the question that this traditional regression analysis methodology only tests the statistical significance of racial variables and does not verify the role of racial issues in financial institution lending decisions. This study uses the same data as Munnell et al. (1996), but uses a method to evaluate the significance of explanatory variables in random forest technique, which is one of the core methodologies of machine learning. We evaluate whether the explanatory variable of race is an important variable affecting banks'' loan approval and compare it with the results of traditional regression analysis. Estimation results show that in the logit estimation of 1990 FRB Boston data, race variable is statistically significant at the 0.1% level as in Munnell et al. However, in the variable importance measures by the random forest technique, it is found that the importance of race variable is not even in the middle. To see if these results are found in other dataset, we try to do the same analysis using the HMDA (Home Mortgage Disclosure Act) data for 2007, 2011, and 2016. For HMDA data, the number of variables is larger than the 1990 FRB Boston data, but there are far fewer variables reflecting default risk and default costs. Therefore, the use of HMDA data to assess racial discrimination in lending is likely to increase the importance of race variable in loan approval, as it assesses the importance of race without controlling the applicant''s default risk and default costs. Therefore, if the analysis of HMDA data shows that the importance of race variable to loan approval is not high, it can be an evidence against the claim that racial discrimination exists in lending. The analysis of HMDA data shows similar results to the analysis of 1990 FRB Boston data. In the logit analysis, the race variable is significant at the 0.1% level, but in the importance evaluation of the random forest, it is found that the race variable has relatively low importance. In conclusion, we can not claim that racial discrimination exists in lending by finding the statistical significance of race variable in traditional regression analysis. This study shows that even though it is a statistically significant variable, the economic significance of the variable may be very low.