환경에 노출된 수많은 화학물질은 인간이나 야생 동물의 정상적인 호르몬 과정을 방해할 수 있다. 이러한 화학물질을 내분비계 장애물질이라고 하며, 이들은 의약품, 다이옥신, PCBs, DDT를 포함하고 있다. 현재에도 신규화학물질들은 계속해서 생산되고 있으며, 이러한 물질 중에서 잠재적으로 내분비계 장애를 일으킬 가능성이 있는 화학물질들의 AR, ER, PR의 상대적인 결합 친화력에 대한 테스트가 시행되고 있다. 그러나 결합 친화도에 대한 실험은 비용과 시간이 많이 소요되기 때문에 보다 효율적이고 경제적인 alternative 모델링 방법을 개발 할 필요가 있다. 본 연구에서, 우리는 biological 데이터의 질, molecular descriptor의 중요성, 세워진 모델에 사용된 통계적인 방법의 타당성에 초점을 맞추었다. endocrine disruptor knowledge base database와 문헌에서 얻은 데이터 셋은 예측 모델을 구축하기 위해 사용되었다. 데이터 셋은 다양한 유기화합물의 AR(145), ER(131), PR(60)을 포함하고 있다. Feature selection과 기계학습방법을 동시에 수행할 수 있는 wrapper방법을 사용하여서 모델에 적합한 descriptor를 선택하고, 예측모델을 생성하였다. 그리고 예측모델을 해석하기 위해서 pharmacophoric feature와 Radial distribution function을 기반으로 한 3D pharm-RDF라는 새로운 descriptor를 개발하였다. 3D pharm-RDF는 효율적으로 화합물의 feature의 거리정보를 표현하며 AR, ER, PR의 결합 모드를 확인하는데 매우 유용하다. 2D와 3D pharm-RDF를 포함한 네 가지 descriptor셋은 QSAR모델을 개발하기 위해 사용되었다. 모델의 예측 능력은 5-fold cross-validation, Y-scrambling test, applicability domain과 같은 다양한 검증 방법에 의해서 평가되었다. 개발한 모델의 best 결과는 다음과 같다. AR model (ANN, Q2=0.757, RMSECV=0.594, MAECV=0.449), ER model (ANN, Q2=0.805, RMSECV=0.782, MAECV=0.613), PR model (SVM, Q2=0.742, RMSECV=0.336, MAECV=0.251). 추가적으로, CoMFA는 각 endpoint의 결합모드를 확인하기 위해서 적용되었다. 세워진 QSAR 모델은 잠재적인 EDCs를 확인하는데 유용한 지침을 제공할 것이다.
A number of chemicals released into the environment can interfere with normal hormonal processes in human and wildlife. These chemicals are called endocrine disrupting chemicals (EDCs), including pharmaceuticals, dioxins, PCBs and DDT. New and existing chemicals have been tested for relative binding affinity (expressed as logRBA) of the androgen, estrogen and progesterone receptor (AR, ER and PR). As the experimental measurement for binding affinity is expensive and time-consuming, it is a need to develop more efficient and economical alternative modeling approaches. One of the modeling methods is quantitative structure activity relationship (QSAR). In this study, QSAR model was developed to predict for binding affinity of potential EDCs. we’re focused on the quality of the biological data, the significance of the molecular descriptors and the validity of the statistical tools used for building the models. The data set, which was obtained from endocrine disruptor knowledge base database and literatures, was used to build predictive models. The overall data set used in this study includes 145 AR, 131 ER and 60 PR binding compounds. The combination of forward feature selection method and three machine learning method were applied to select the descriptor and generate the models. We have developed a new descriptor, named 3D pharm-RDF, based on pharmacophoric feature and radial distribution function. As 3D pharm-RDF represents distance information of essential chemical features, it is useful to identify binding mode of AR, ER and PR. Four descriptor sets, including 2D and 3D pharm-RDF descriptor were used to develop QSAR model. The predictive power of the model was evaluated by various validation methods such 5-fold cross-validation, Y-scrambling test and applicability domain. The best results obtained from three models showed that the AR model (SVM, R2cv=0.773, RMSECV=0.576, MAECV=0.430), ER model (ANN,R2cv=0.820, RMSECV=0.751, MAECV=0.584) and PR model (SVM, R2cv=0.742, RMSECV=0.336, MAECV=0.251). In addition, comparative molecular field analysis (CoMFA) was applied to identify the binding mode of each endpoint. The QSAR model can be widely used for useful tool in the prediction of relative binding affinity potentially environmental chemicals of disrupt the endocrine system.
I. Introduction 1II. Material and methods 32.1 Experimental data set 32.2 Molecular descriptors 32.3 Data-processing 42.4 Descriptor selection 42.5 Modeling method 132.5.1 MLR (multiple linear regression) 132.5.2 SVM (support vector machine): γ-SVM 132.5.3 ANN (artificial neural network) 132.6 Applicability domain (AD) 14III. Results and discussion 153.1 QSAR models based on linear model 203.1.1 AR model 223.1.2 ER model 233.1.3 PR model 243.2 QSAR models based on nonlinear model 243.3 Consensus modeling 253.4 Y-randomization test 273.5 Applicability domain 28IV. Conclusion 30References 31