1Centre for Statistics in Medicine, UK EQUATOR Centre, Nuffield Department of Orthopaedics, Rheumatology, and Musculoskeletal Sciences, University of Oxford, Oxford OX3 7LD, UK
2Julius Centre for Health Sciences and Primary Care, University Medical Centre Utrecht, Utrecht University, Utrecht, Netherlands
3Institute of Applied Health Research, College of Medical and Dental Sciences, University of Birmingham, Birmingham, UK
4National Institute for Health and Care Research (NIHR) Birmingham Biomedical Research Centre, Birmingham, UK
5Department of Epidemiology, Harvard T H Chan School of Public Health, Boston, MA, USA
6Department of Development and Regeneration, KU Leuven, Leuven, Belgium
7Department of Biomedical Data Science, Leiden University Medical Centre, Leiden, Netherlands
8Department of Electrical Engineering and Computer Science, Institute for Medical Engineering and Science, Massachusetts Institute of Technology, Cambridge, MA, USA
9Institute of Inflammation and Ageing, College of Medical and Dental Sciences, University of Birmingham, Birmingham, UK
10University Hospitals Birmingham NHS Foundation Trust, Birmingham, UK
11Department of Medical Information Processing, Biometry and Epidemiology, Ludwig-Maximilians-University of Munich, Munich, Germany
12Patient representative, Health Data Research UK patient and public involvement and engagement group
13Patient representative, University of East Anglia, Faculty of Health Sciences, Norwich Research Park, Norwich, UK
14Beth Israel Deaconess Medical Center, Boston, MA, USA
15Laboratory for Computational Physiology, Massachusetts Institute of Technology, Cambridge, MA, USA
16Department of Biostatistics, Harvard T H Chan School of Public Health, Boston, MA, USA
17Institute of Health Informatics, University College London, London, UK
18British Heart Foundation Data Science Centre, London, UK
19Department of Computing, Imperial College London, London, UK
20Northwestern University Feinberg School of Medicine, Chicago, IL, USA
21Hardian Health, Haywards Heath, UK
22Section for Clinical Biometrics, Centre for Medical Data Science, Medical University of Vienna, Vienna, Austria
23Princess Margaret Cancer Centre, University Health Network, Toronto, ON, Canada
24Department of Medical Biophysics, University of Toronto, Toronto, ON, Canada
25Department of Computer Science, University of Toronto, Toronto, ON, Canada
26Vector Institute for Artificial Intelligence, Toronto, ON, Canada
27Department of Medicine, University of Cape Town, Cape Town, South Africa
28National Institute for Health and Care Excellence, London, UK
29The BMJ, London, UK
30Department of Neurology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, USA
31Department of Intelligent Medical Systems, German Cancer Research Centre, Heidelberg, Germany
32Wellcome Trust, London, UK
33Alan Turing Institute, London, UK
34Department of Bioethics, Hospital for Sick Children Toronto, ON, Canada
35Genetics and Genome Biology, SickKids Research Institute, Toronto, ON, Canada
36Australian Institute for Machine Learning, University of Adelaide, Adelaide, SA, Australia
37Medicines and Healthcare products Regulatory Agency, London, UK
38Department of Health Policy and Center for Health Policy, Stanford University, Stanford, CA, USA
39Department of Learning Health Sciences, University of Michigan Medical School, Ann Arbor, MI, USA
40Department of Epidemiology, CAPHRI Care and Public Health Research Institute, Maastricht University, Maastricht, Netherlands
It is a Korean translation of the Collins GS. et al. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ 2024;385:e078378.
© 2025 The authors
This is an open-access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc/4.0), which permits noncommerical use, distribution, and reproduction in any medium, provided the original work is properly cited.
TRIPOD+AI working group/consensus meeting participants
Gary Collins (University of Oxford, UK), Karel Moons (UMC Utrecht, Netherlands), Johannes Reitsma (UMC Utrecht, Netherlands), Andrew Beam (Harvard School of Public Health, USA), Ben Van Calster (KU Leuven, Belgium), Paula Dhiman (University of Oxford, UK), Richard Riley (University of Birmingham, UK), Marzyeh Ghassemi (Massachusetts Institute of Technology, USA), Patricia Logullo (University of Oxford, UK), Maarten van Smeden (UMC Utrecht, Netherlands), Jennifer Catherine Camaradou (Health Data Research [HDR] UK public and patient involvement group, NHS England Accelerated Access Collaborative evaluation advisory group member, National Institute for Health and Care Excellence covid-19 expert panel), Richard Parnell (HDR UK public and patient involvement group), Elizabeth Loder (The BMJ), Robert Golub (Northwestern University Feinberg School of Medicine, USA [JAMA, at the time of the consensus meeting]), Naomi Lee (National Institute for Health and Clinical Excellence, UK; The Lancet, at the time of consensus meeting), Johan Ordish (Roche, UK; Medicine and Healthcare products Regulatory Agency, UK at the time of consensus meeting), Laure Wynants (KU Leuven, Belgium), Leo Celi (Massachusetts Institute of Technology, USA), Bilal Mateen (Wellcome Trust, UK), Alastair Denniston (University of Birmingham, UK), Karandeep Singh (University of Michigan, USA), Georg Heinze (Medical University of Vienna, Austria), Lauren Oaken-Rayner (University of Adelaide, Australia), Melissa McCradden (Hospital for Sick Children, Canada), Hugh Harvey (Hardian Health, UK), Andre Pascal Kengne (University of Cape Town, South Africa), Viknesh Sounderajah (Imperial College London, UK), Lena Maier-Hein (German Cancer Research Centre, Germany), Anne-Laure Boulesteix (University of Munich, Germany), Xiaoxuan Liu (University of Birmingham, UK), Emily Lam (HDR UK public and patient involvement group), Ben Glocker (Imperial College London, UK), Sherri Rose (Stanford University, US), Michael Hoffman (University of Toronto, Canada), and Spiros Denaxas (University College London, UK). The last seven participants in this list did not attend the virtual consensus meeting.
Authors’ contributions
GSC and KGMM conceived the study and this paper and are joint first authors. GSC, PL, PD, RDR, ALB, BVC, XL, JBR, MvS, and KGMM designed the surveys carried out to inform the guideline content. PL analysed the survey results and free text comments from the surveys. GSC designed the materials for the consensus meeting with input from KGMM. All authors except SR, MMH, XL, SD, BG, and ALB attended the consensus meeting. PL took consolidated notes from the consensus meeting. GSC drafted the manuscript with input and edits from KGMM. All authors were involved in revising the article critically for important intellectual content and approved the final version of the article. GSC is the guarantor of this work. The corresponding author attests that all listed authors meet authorship criteria and that no others meeting the criteria have been omitted.
Conflict of interest
All authors have completed the ICMJE uniform disclosure form at https://www.icmje.org/disclosure-of-interest/ and declare: support from the funding bodies listed above for the submitted work; no financial relationships with any organizations that might have an interest in the submitted work in the previous three years; no other relationships or activities that could appear to have influenced the submitted work. GSC is a National Institute for Health and Care Research (NIHR) senior investigator, the director of the UK EQUATOR Centre, editor-in-chief of BMC Diagnostic and Prognostic Research, and a statistics editor for The BMJ. KGMM is director of Health Innovation Netherlands and editor-in-chief of BMC Diagnostic and Prognostic Research. RDR is an NIHR senior investigator, a statistics editor for The BMJ, and receives royalties from textbooks Prognosis Research in Healthcare and Individual Participant Data Meta-Analysis. AKD is an NIHR senior investigator. EWL is the head of research at The BMJ. BG is a part time employee of HeartFlow and Kheiron Medical Technologies and holds stock options with both as part of the standard compensation package. SR receives royalties from Springer for the textbooks Targeted Learning: Causal Inference for Observational and Experimental Data and Targeted Learning: Causal Inference for Complex Longitudinal Studies. JCC receives honorariums as a current lay member on the UK NICE COVID-19 expert panel and a citizen partner on the COVID-END COVID-19 Evidence Network to support decision making; was a lay member on the UK NIHR AI AWARD panel in 2020-22 and is a current lay member on the UK NHS England AAC Accelerated Access Collaborative NHS AI Laboratory Evaluation Advisory Group; is a patient fellow of the European Patients’ Academy on Therapeutic Innovation and a EURORDIS rare disease alumni; reports grants from the UK National Institute for Health and Care Research, European Commission, UK Cell Gene Catapult, University College London, and University of East Anglia; reports patient speaker fees from MEDABLE, Reuters Pharma events, Patients as Partners Europe, and EIT Health Scandinavia; reports consultancy fees from Roche Global, Smith, the Future Science Group and Springer Healthcare (scientific publishing), outside of the scope of the present work; and is a strategic board member of the UK Medical Research Council IASB Advanced Pain Discovery Platform initiative, Plymouth Institute of Health, and EU project Digipredict Edge AI-deployed Digital Twins for COVID-19 Cardiovascular Disease. ALB is a paid consultant for Generate Biomedicines, Flagship Pioneering, Porter Health, FL97, Tessera, FL85; has an equity stake in Generate Biomedicines; and receives research funding support from Smith, National Heart, Lung, and Blood Institute, and National Institute of Diabetes and Digestive and Kidney Diseases. No other conflicts of interests with this specific work are declared.
Funding
This research was supported by Cancer Research UK programme grant (C49297/A27294), which supports GSC and PL; Health Data Research UK, an initiative funded by UK Research and Innovation, Department of Health and Social Care (England) and the devolved administrations, and leading medical research charities, which supports GSC; an Engineering and Physical Sciences Research Council grant for “Artificial intelligence innovation to accelerate health research” (EP/Y018516/1), which supports GSC, PD, and RDR; Netherlands Organisation for Scientific Research (which supports KGMM); and University Hospitals Leuven (COPREDICT grant), Internal Funds KU Leuven (grant C24M/20/064), and Research Foundation– Flanders (grant G097322N), which supports BVC and LW. The funders had no role in considering the study design or in the collection, analysis, interpretation of data, writing of the report, or decision to submit the article for publication.
Data availability
Aggregated Delphi survey responses are available on the Open Science Framework TRIPOD+AI repository https://osf.io/zyacb/.
Acknowledgments
We thank the TRIPOD+AI Delphi panel members for their time and valuable contribution in helping to develop TRIPOD+AI statement. Full list of Delphi participants are as follows (in alphabetical order of first name): Abhishek Gupta, Adrian Barnett, Adrian Jonas, Agathe Truchot, Aiden Doherty, Alan Fraser, Alex Fowler, Alex Garaiman, Alistair Denniston, Amin Adibi, André Carrington, Andre Esteva, Andrew Althouse, Andrew Beam, Andrew Soltan, Ane Appelt, Anne-Laure Boulesteix, Ari Ercole, Armando Bedoya, Baptiste Vasey, Bapu Desiraju, Barbara Seeliger, Bart Geerts, Beatrice Panico, Ben Glocker, Ben Van Calster, Benjamin Fine, Benjamin Goldstein, Benjamin Gravesteijn, Benjamin Wissel, Bilal Mateen, Bjoern Holzhauer, Boris Janssen, Boyi Guo, Brooke Levis, Catey Bunce, Charles Kahn, Chris Tomlinson, Christopher Kelly, Christopher Lovejoy, Clare McGenity, Conrad Harrison, Constanza Andaur Navarro, Daan Nieboer, Dan Adler, Danial Bahudin, Daniel Stahl, Daniel Yoo, Danilo Bzdok, Darren Dahly, Darren Treanor, David Higgins, David McClernon, David Pasquier, David Taylor, Declan O’Regan, Emily Bebbington, Erik Ranschaert, Evangelos Kanoulas, Facundo Diaz, Felipe Kitamura, Flavio Clesio, Floor van Leeuwen, Frank Harrell, Frank Rademakers, Gael Varoquaux, Garrett Bullock, Gary Collins, Gary Weissman, Georg Heinze, George Fowler, George Kostopoulos, Georgios Lyratzaopoulos, Gianluca Di Tanna, Gianluca Pellino, Girish Kulkarni, Giuseppe Biondi Zoccai, Glen Martin, Gregg Gascon, Harlan Krumholz, Herdiantri Sufriyana, Hongqiu Gu, Hrvoje Bogunovic, Hui Jin, Ian Scott, Ijeoma Uchegbu, Indra Joshi, Irene Stratton, James Glasbey, Jamie Miles, Jamie Sergeant, Jan Roth, Jared Wohlgemut, Javier Carmona Sanz, Jean-Emmanuel Bibault, Jeremy Cohen, Ji Eun Park, Jie Ma, Joel Amoussou, Johan Ordish, Johannes Reitsma, John Pickering, Joie Ensor, Jose L Flores-Guerrero, Joseph LeMoine, Joshua Bridge, Josip Car, Junfeng Wang, Karel Moons, Keegan Korthauer, Kelly Reeve, Laura Ación, Laura Bonnett, Laure Wynants, Lena Maier-Hein, Leo Anthony Celi, Lief Pagalan, Ljubomir Buturovic, Lotty Hook, Luke Farrow, Maarten Van Smeden, Marianne Aznar, Mario Doria, Mark Gilthorpe, Mark Sendak, Martin Fabregate, Marzyeh, Ghassemi, Matthew Sperrin, Matthew Strother, Mattia Prosperi, Melissa McCradden, Menelaos Konstantinidis, Merel Huisman, Michael Harhay, Michael Hoffman, Miguel Angel Luque, Mohammad Mansournia, Munya Dimairo, Musa Abdulkareem, Myura Nagendran, Niels Peek, Nigam Shah, Nikolas Pontikos, Nurulamin Noor, Oilivier Groot, Pall Jonsson, Patricia Logullo, Patrick Bossuyt, Patrick Lyons, Patrick Omoumi, Paul Tiffin, Paula Dhiman, Peter Austin, Quentin Noirhomme, Rachel Kuo, Ram Bajpal, Ravi Aggarwal, Richard Riley, Richiardi Jonas, Robert Golub, Robert Platt, Rohit Singla, Roi Anteby, Rupa Sakar, Safoora Masoumi, Sara Khalid, Saskia Haitjema, Seong Park, Shravya Shetty, Spiros Denaxas, Stacey Fisher, Stephanie Hicks, Susan Shelmerdine, Tammy Clifford, Tatyana Shamliyan, Teus Kappen, Tim Leiner, Tim Liu, Tim Ramsay, Toni Martinez, Uri Shalit, Valentijn de Jong, Valentyn, Bezshapkin, Veronika Cheplygina, Victor Castro, Viknesh Sounderajah, Vineet Kamal, Vinyas Harish, Wim Weber, Wouter Amsterdam, Xioaxuan Liu, Zachary Cohen, Zakia Salod, and Zane Perkins.
We thank Sophie Staniszewska (University of Warwick, UK) for chairing the HDR UK patient and public involvement and engagement meeting, where the TRIPOD+AI study and drak (pre-consensus meeting) checklist was presented and discussed; and Jennifer de Beyer for proofreading the manuscript (University of Oxford, UK).
보고 지침(reporting guideline) | 적용 범위(scope) |
---|---|
STARD-AI | 인공지능 기반 진단 정확도 평가 연구(작성 중)[67] |
TRIPOD+AI | 인공지능(머신러닝 방법 포함)을 이용한 예측 모델 개발 또는 성능 평가 연구 |
CLAIM | 인공지능을 활용한 의료영상 연구[68] |
DECIDE-AI | 인공지능 기반 의사결정 지원시스템의 초기 임상 평가(안전성, 인간 요인 평가 포함)[69] |
CHEERS-AI | 인공지능 중재의 비용 효과성 등 건강경제학적 평가 연구[70] |
SPIRIT-AI | 인공지능 요소가 포함된 중재의 임상시험 연구 프로토콜[71] |
CONSORT-AI | 인공지능 요소가 포함된 중재의 임상시험 보고서[72] |
PRISMA-AI | 인공지능 중재에 관한 체계적 문헌고찰 및 메타분석(작성 중)[73] |
STARD, 진단 정확도 보고 기준(Standards for Reporting of Diagnostic Accuracy); TRIPOD, 개인 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis); AI, 인공지능(artificial intelligence); CLAIM, 의료영상 인공지능 연구 체크리스트(Checklist for Artificial Intelligence in Medical Imaging); DECIDE, 근거 기반 혁신의 도입 및 확산을 위한 보건의료 의사결정(Decisions in health Care to Introduce or Diffuse innovations using Evidence); CHEERS, 건강경제학적 평가 통합 보고 기준(Consolidated Health Economic Evaluation Reporting Standards); SPIRIT, 중재 임상시험 프로토콜 권고(Standard Protocol Items: Recommendations for Interventional Trials); CONSORT, 임상시험 보고 통합 기준(Consolidated Standards of Reporting Trials); PRISMA, 체계적 문헌고찰 및 메타분석 보고 권고(Preferred Reporting Items for Systematic Reviews and Meta-Analyses).
섹션/주제 | 하부 주제 | 항목 | 개발/평가a) | 체크리스트 항목 |
---|---|---|---|---|
제목 | 제목 | 1 | D;E | 연구가 다변량 예측모델의 개발 또는 성능 평가임을, 대상 집단 및 예측할 결과와 함께 명시한다. |
초록 | 초록 | 2 | D;E | TRIPOD+AI 초록 체크리스트 참조 |
서론 | 배경 | 3a | D;E | 보건의료 맥락(진단 또는 예후 등) 및 예측모델 개발/평가의 근거를 설명하고, 기존 모델에 대한 참고문헌을 포함한다. |
3b | D;E | 대상 집단과 예측모델의 진료 경로 내 의도된 목적 및 사용자를 기술한다(예: 의료인, 환자, 일반인 등). | ||
3c | D;E | 사회인구학적 집단 간 알려진 건강불평등을 기술한다. | ||
목적 | 4 | D;E | 연구의 목적을 구체적으로 명시하며, 예측모델의 개발 또는 검증 중 어떤 연구인지(또는 둘 다인지) 기술한다. | |
방법 | 데이터 | 5a | D;E | 개발 및 평가 데이터의 출처를 각각 기술하고(예: 무작위 임상시험, 코호트, 진료정보, 레지스트리 등), 데이터 활용의 근거와 대표성을 설명한다. |
5b | D;E | 참가자 데이터의 수집 기간(시작 및 종료), 그리고 해당 시기 종료 여부(추적 종료 등)를 명확히 한다. | ||
참가자 | 6a | D;E | 연구환경의 주요 요소(예: 1차 진료, 2차 진료, 일반 인구), 기관 수와 위치를 명시한다. | |
6b | D;E | 연구 참가자의 선정기준을 기술한다. | ||
6c | D;E | 적용된 치료(있는 경우)와 개발/평가과정에서의 처리방법을 설명한다. | ||
데이터 준비 | 7 | D;E | 데이터 전처리 및 품질 관리방법, 그리고 이 과정이 사회인구학적 집단 간 유사했는지 여부를 설명한다. | |
결과 | 8a | D;E | 예측하는 결과 및 평가 시점, 결과 선정의 근거, 결과 평가방법이 사회인구학적 집단에서 일관되게 적용됐는지 명확히 기술한다. | |
8b | D;E | 결과 평가에 주관적 해석이 필요한 경우, 평가자의 자격 및 인구통계적 특성을 설명한다. | ||
8c | D;E | 예측결과 평가의 눈가림 수행 여부 및 방법을 보고한다. | ||
예측변수 | 9a | D | 초기 예측변수의 선정 근거(문헌, 기존 모델, 가용 변수 등) 및 모델 구축 전 사전 선정과정을 설명한다. | |
9b | D;E | 모든 예측변수를 명확히 정의하고, 측정 시점과 방법(및 결과/다른 예측변수의 눈가림 여부 포함)을 기술한다. | ||
9c | D;E | 예측변수의 측정에 주관적 해석이 필요한 경우, 평가자의 자격 및 인구통계적 특성을 설명한다. | ||
표본크기 | 10 | D;E | 연구 규모 산출근거를(개발/평가별로) 설명하고, 연구질문에 충분한 규모였음을 정당화하며, 표본 크기 산출 세부 내용을 포함한다. | |
결측 데이터 | 11 | D;E | 결측 데이터 처리 방법 및 누락 사유를 기술한다. | |
분석방법 | 12a | D | 데이터 사용(개발/성능 평가 목적 등) 및 분석방법, 데이터 분할 여부와 표본크기 요건 고려사항을 명시한다. | |
12b | D | 모델 유형에 따라 예측변수의 분석 처리(함수형, 재조정, 변환, 표준화 등)를 설명한다. | ||
12c | D | 모델 유형, 근거b), 모든 모델 구축 단계(하이퍼파라미터 튜닝 등), 내부 검증방법을 명시한다. | ||
12d | D;E | 집단 간(병원, 국가 등) 모델 파라미터 및 성능 추정치의 이질성 처리 및 정량화 방법을 기술한다. 추가사항은 TRIPOD-Cluster 참조.c) | ||
12e | D;E | 모델 성능 평가에 사용된 모든 지표 및 그래프(근거 포함)를 명시하고, 필요한 경우 여러 모델 간 비교방법도 기술한다. | ||
12f | E | 모델 평가에서 파생된 모델 수정(재보정 등)을 전체 또는 특정 집단/환경별로 기술한다. | ||
12g | E | 모델 평가 시, 예측값 산출방식(수식, 코드, 오브젝트, API 등)을 설명한다. | ||
클래스 불균형 | 13 | D;E | 클래스 불균형 처리방법, 적용 이유, 사후 재보정 방법을 기술한다. | |
공정성 | 14 | D;E | 모델 공정성 향상을 위한 방법 및 근거를 설명한다. | |
모델 산출값 | 15 | D | 예측모델의 산출값(확률, 분류 등)을 명확히 하고, 분류기준 및 임계값 선정방법을 상세히 설명한다. | |
개발-평가 차이 | 16 | D;E | 개발 데이터와 평가 데이터 간 환경, 선정기준, 결과, 예측변수의 차이를 기술한다. | |
윤리 승인 | 17 | D;E | 연구를 승인한 기관윤리위원회 또는 윤리위원회의 명칭과, 연구 참가자의 동의(또는 윤리위원회의 동의 면제) 절차를 명시한다. | |
오픈 사이언스 | 연구비 | 18a | D;E | 본 연구의 연구비 출처 및 후원자 역할을 기술한다. |
이해관계 | 18b | D;E | 모든 저자의 이해관계 및 재정적 공시를 명시한다. | |
프로토콜 | 18c | D;E | 연구 프로토콜의 접근 가능 위치를 알리고, 프로토콜 미작성 시에는 해당 사실을 명시한다. | |
등록 | 18d | D;E | 연구 등록정보(등록기관, 등록번호 포함)를 제공하고, 미등록 시에는 해당 사실을 명시한다. | |
데이터 공유 | 18e | D;E | 연구 데이터의 접근 가능성 및 공유방식을 기술한다. | |
코드 공유 | 18f | D;E | 분석코드의 접근 가능성 및 공유방식을 기술한다.d) | |
환자 및 공공 참여 | 환자 및 공공 참여 | 19 | D;E | 연구설계, 수행, 보고, 해석, 확산 중 어느 단계에서든 환자/공공 참여 내역을 상세히 기술하거나, 참여가 없음을 명시한다. |
결과 | 참가자 | 20a | D;E | 연구 내 참가자 흐름(결과 발생 유무별 참가자 수, 추적관찰 요약 포함)을 기술하고, 필요 시 도식화한다. |
20b | D;E | 전체 및 환경별 주요 특성(날짜, 주요 예측변수, 치료내역, 표본 수, 결과 발생 수, 추적기간, 결측 데이터 등)을 보고하고, 인구집단별 차이도 명시한다. | ||
20c | E | 모델 평가에서 주요 예측변수(인구통계, 예측변수, 결과 등)의 개발 데이터와의 분포 비교를 제시한다. | ||
모델 개발 | 21 | D;E | 각 분석(모델 개발, 하이퍼파라미터 튜닝, 평가 등)별 참가자 수 및 결과 사건 수를 명시한다. | |
모델 명세 | 22 | D | 예측모델(수식, 코드, 오브젝트, API 등) 상세 내역을 제공하고, 새로운 개인 예측 또는 제3자 평가ㆍ구현에 필요한 접근 제한 여부(무료, 독점 등)를 명확히 기술한다.e) | |
모델 성능 | 23a | D;E | 신뢰구간을 포함한 모델 성능 추정치, 주요 하위집단(예: 사회인구학적)별 성능, 시각화 자료(그래프 등) 제시를 고려한다. | |
23b | D;E | 집단 간 모델 성능의 이질성이 평가된 경우 결과를 보고한다. 추가 내용은 TRIPOD-Cluster 참고c) | ||
모델 수정 | 24 | E | 모델 수정(예: 업데이트, 재보정) 및 수정 후 성능 결과를 보고한다. | |
논의 | 해석 | 25 | D;E | 주요 결과에 대한 종합적 해석을 제시하고, 목적 및 기존 연구 맥락에서 공정성 문제를 논의한다. |
한계 | 26 | D;E | 비대표성 표본, 표본크기, 과적합, 결측 데이터 등 연구의 한계 및 이로 인한 편향, 통계적 불확실성, 일반화 가능성에 미치는 영향을 논의한다. | |
활용성 | 27a | D | 입력 데이터(예측변수 등) 품질이 낮거나 제공 불가할 때의 평가 및 처리방식을 설명한다. | |
27b | D | 모델 적용 및 입력 데이터 활용 시 사용자의 상호작용 필요성, 요구되는 전문성 수준을 명확히 한다. | ||
27c | D;E | 모델의 적용성과 일반화 가능성에 초점을 두고, 향후 연구과제를 논의한다. |
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis); AI, 인공지능(artificial intelligence).
a)D: 예측모델 개발에만 해당, E: 예측모델 평가에만 해당, D;E: 개발과 평가 모두에 해당.
b)모든 모델 구축 접근법에 대해 별도로 기술.
c)TRIPOD-Cluster는 클러스터(예: 병원, 센터 등)를 명시적으로 고려하거나 성능 이질성을 탐색하는 연구 보고 체크리스트.
d)데이터 정제, 특성 엔지니어링, 모델 구축 및 평가 등 분석코드에 해당.
e)신규 예측 위험 추정을 위한 모델 구현 코드에 해당.
섹션 및 항목 | 체크리스트 항목 |
---|---|
제목 | 1. 연구가 다변량 예측모델의 개발 또는 성능 평가임을, 대상 집단 및 예측할 결과와 함께 명시한다. |
배경 | 2. 보건의료 맥락 및 모든 모델의 개발/성능 평가근거를 간략하게 설명한다. |
목적 | 3. 연구목적을 구체적으로 명시하며, 모델 개발, 평가 또는 둘 다에 해당하는지 포함한다. |
방법 | 4. 데이터 출처를 설명한다. |
5. 데이터 수집 시 적용된 선정기준과 환경을 설명한다. | |
6. 예측모델이 예측하고자 하는 결과(예후모델의 경우 예측기간 포함)를 명시한다. | |
7. 모델 유형, 모델 구축 단계 요약, 내부 검증방법b)을 명시한다. | |
8. 모델 성능 평가에 사용된 지표(예: 변별도, 보정, 임상적 유용성 등)를 명확히 기술한다. | |
결과 | 9. 참가자 수 및 결과 사건 수를 보고한다. |
10. 최종 모델의 예측변수를 요약한다†. | |
11. 신뢰구간을 포함한 모델 성능 추정치를 보고한다. | |
고찰 | 12. 주요 결과에 대한 종합적 해석을 제시한다. |
등록 | 13. 등록번호 및 등록기관(또는 저장소) 명칭을 명시한다. |
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis); AI, 인공지능(artificial intelligence).
a)이 체크리스트는 2020년에 발표된 TRIPOD for Abstracts statement [17]를 기반으로 하였으며, TRIPOD+AI statement와의 일관성을 위해 개정ㆍ업데이트되었음.
b)예측모델 개발 연구에만 해당되는 항목임.
아래 정의 및 설명은 TRIPOD+AI* 가이드라인의 맥락에 한정된 것이며, 다른 연구 분야에는 반드시 적용되지 않을 수 있다. |
인공지능(artificial intelligence): 통상적으로 인간의 지능이 필요한 과업을 수행할 수 있는 모델 및 알고리즘을 개발하는 컴퓨터 과학 분야. |
보정(calibration): 관찰된 결과와 모델에서 추정된 값 간의 일치 정도. 보정은 일반적으로 추정값(x축)과 관찰값(y축)을 그래프로 나타내고, 개별 데이터의 유연한 보정 곡선을 함께 제시하여 평가하는 것이 가장 바람직하다. |
진료 경로(care pathway): 특정 건강 문제 관리 또는 환자의 진료 전 과정을 포괄하는 구조적ㆍ조정된 진료계획. |
클래스 불균형(class imbalance): 결과 사건이 발생한 집단과 발생하지 않은 집단의 빈도가 불균등한 현상. |
변별력(discrimination): 모델의 예측이 결과 발생 집단과 미발생 집단을 얼마나 잘 구분하는지의 정도. 변별력은 이항 결과의 경우 c-통계량(또는 곡선하면적[area under the curve], 수신자조작특성곡선하영역[area under the receiver operating characteristic curve])으로, 시점-사건(time-to-event) 결과는 c-지수로 정량화된다. |
평가 또는 테스트 데이터(evaluation or test data): 예측모델의 성능을 추정하는 데 사용되는 데이터. ‘테스트 데이터’ 또는 ‘검증 데이터’로도 불린다.a) 평가 데이터는 모델 훈련, 하이퍼파라미터 튜닝, 모델 선택 등에 사용된 데이터와 구분되어야 하며, 두 데이터 세트 간 참가자의 중복이 없어야 한다. 평가 데이터는 모델이 실제로 사용될 대상 인구를 대표해야 한다. |
공정성(fairness): 예측모델이 연령, 인종/민족, 성별/젠더, 사회경제적 지위 등과 같은 특성을 바탕으로 개인 또는 집단을 차별하지 않는 특성. |
하이퍼파라미터(hyperparameters): 모델 개발 또는 학습과정을 제어하는 값. |
하이퍼파라미터 튜닝(hyperparameter tuning): 특정 모델 구축 전략에 가장 적합한 (하이퍼)파라미터 설정을 찾는 과정. |
내부 검증(internal validation): 모델이 개발된 동일한 집단을 대상으로 예측모델의 성능을 평가하는 것(예: 훈련-테스트 분할, 교차검증, 부트스트래핑[bottstrapping] 등). |
머신러닝(machine learning): 데이터로부터 명시적으로 프로그래밍하지 않고 학습하고 예측이나 의사결정을 내릴 수 있는 모델을 개발하는 인공지능의 한 분야. |
모델 평가(model evaluation): c-통계량 등으로 모델의 변별력, 보정도(보정도 그래프, 보정 기울기 등), 임상적 유용성(의사결정 곡선 분석 등)을 추정하여 모델의 예측 정확도를 평가하는 과정. 이 과정을 예측모델의 평가라 부른다[74,75]. |
결과(outcome): 예측하고자 하는 진단 또는 예후 사건. 머신러닝에서는 이를 목표값(target value), 반응변수(response variable), 또는 레이블(label)이라고 지칭하기도 한다. |
예측 변수(predictor): 개인 수준(예: 나이, 수축기 혈압, 성별, 질병 단계, 라디오믹스 특성) 또는 집단 수준(예: 국가)에서 측정되거나 할당될 수 있는 특성. 입력값, 특성(feature), 독립변수, 공변량 등으로도 불린다. |
훈련 또는 개발 데이터(training or development data): 예측모델의 훈련 또는 개발에 사용되는 데이터. 이상적으로는, 훈련 데이터가 모델 실제 사용 인구를 대표해야 한다. |
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis); AI, 인공지능(artificial intelligence). |
• 새로운 체크리스트: 랜덤 포레스트, 딥러닝 등 어떠한 회귀 또는 머신러닝 방법을 사용한 예측모델 연구도 포함할 수 있도록 보고 권고사항을 새롭게 마련하였고, 회귀 및 머신러닝 커뮤니티 간 용어를 통합하였음. |
• TRIPOD+AI 체크리스트 도입: TRIPOD+AI 체크리스트가 기존 TRIPOD 2015 체크리스트를 대체하므로, 더 이상 TRIPOD 2015는 사용하지 않아야 함. |
• 공정성에 대한 강조: 공정성(Box 1)을 특별히 강조하여, 보고서에서 공정성 문제를 다루기 위해 어떤 방법이 사용되었는지 반드시 언급하도록 하였고, 체크리스트 전반에 공정성 요소를 포함함. |
• 초록 보고 지침 추가: 초록 작성 시 참고할 수 있도록 TRIPOD+AI for Abstracts를 별도 포함함. |
• 모델 성능 항목 수정: 저자가 주요 하위집단(예: 사회인구학적 집단)에서 모델 성능을 평가할 것을 권고하도록 해당 항목을 수정함. |
• 환자 및 공공 참여 항목 신설: 연구의 설계, 수행, 보고(및 해석), 확산과정에서 환자 및 공공의 참여에 대해 상세히 기술하도록 저자에게 요청하는 항목을 새롭게 추가함. |
• 오픈 사이언스 섹션 신설: 연구 프로토콜, 등록, 데이터 공유, 코드 공유 등에 관한 하위항목을 포함한 오픈 사이언스 섹션을 도입함. |
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis); AI, 인공지능(artificial intelligence). |
보고 지침(reporting guideline) | 적용 범위(scope) |
---|---|
STARD-AI | 인공지능 기반 진단 정확도 평가 연구(작성 중)[67] |
TRIPOD+AI | 인공지능(머신러닝 방법 포함)을 이용한 예측 모델 개발 또는 성능 평가 연구 |
CLAIM | 인공지능을 활용한 의료영상 연구[68] |
DECIDE-AI | 인공지능 기반 의사결정 지원시스템의 초기 임상 평가(안전성, 인간 요인 평가 포함)[69] |
CHEERS-AI | 인공지능 중재의 비용 효과성 등 건강경제학적 평가 연구[70] |
SPIRIT-AI | 인공지능 요소가 포함된 중재의 임상시험 연구 프로토콜[71] |
CONSORT-AI | 인공지능 요소가 포함된 중재의 임상시험 보고서[72] |
PRISMA-AI | 인공지능 중재에 관한 체계적 문헌고찰 및 메타분석(작성 중)[73] |
섹션/주제 | 하부 주제 | 항목 | 개발/평가 |
체크리스트 항목 |
---|---|---|---|---|
제목 | 제목 | 1 | D;E | 연구가 다변량 예측모델의 개발 또는 성능 평가임을, 대상 집단 및 예측할 결과와 함께 명시한다. |
초록 | 초록 | 2 | D;E | TRIPOD+AI 초록 체크리스트 참조 |
서론 | 배경 | 3a | D;E | 보건의료 맥락(진단 또는 예후 등) 및 예측모델 개발/평가의 근거를 설명하고, 기존 모델에 대한 참고문헌을 포함한다. |
3b | D;E | 대상 집단과 예측모델의 진료 경로 내 의도된 목적 및 사용자를 기술한다(예: 의료인, 환자, 일반인 등). | ||
3c | D;E | 사회인구학적 집단 간 알려진 건강불평등을 기술한다. | ||
목적 | 4 | D;E | 연구의 목적을 구체적으로 명시하며, 예측모델의 개발 또는 검증 중 어떤 연구인지(또는 둘 다인지) 기술한다. | |
방법 | 데이터 | 5a | D;E | 개발 및 평가 데이터의 출처를 각각 기술하고(예: 무작위 임상시험, 코호트, 진료정보, 레지스트리 등), 데이터 활용의 근거와 대표성을 설명한다. |
5b | D;E | 참가자 데이터의 수집 기간(시작 및 종료), 그리고 해당 시기 종료 여부(추적 종료 등)를 명확히 한다. | ||
참가자 | 6a | D;E | 연구환경의 주요 요소(예: 1차 진료, 2차 진료, 일반 인구), 기관 수와 위치를 명시한다. | |
6b | D;E | 연구 참가자의 선정기준을 기술한다. | ||
6c | D;E | 적용된 치료(있는 경우)와 개발/평가과정에서의 처리방법을 설명한다. | ||
데이터 준비 | 7 | D;E | 데이터 전처리 및 품질 관리방법, 그리고 이 과정이 사회인구학적 집단 간 유사했는지 여부를 설명한다. | |
결과 | 8a | D;E | 예측하는 결과 및 평가 시점, 결과 선정의 근거, 결과 평가방법이 사회인구학적 집단에서 일관되게 적용됐는지 명확히 기술한다. | |
8b | D;E | 결과 평가에 주관적 해석이 필요한 경우, 평가자의 자격 및 인구통계적 특성을 설명한다. | ||
8c | D;E | 예측결과 평가의 눈가림 수행 여부 및 방법을 보고한다. | ||
예측변수 | 9a | D | 초기 예측변수의 선정 근거(문헌, 기존 모델, 가용 변수 등) 및 모델 구축 전 사전 선정과정을 설명한다. | |
9b | D;E | 모든 예측변수를 명확히 정의하고, 측정 시점과 방법(및 결과/다른 예측변수의 눈가림 여부 포함)을 기술한다. | ||
9c | D;E | 예측변수의 측정에 주관적 해석이 필요한 경우, 평가자의 자격 및 인구통계적 특성을 설명한다. | ||
표본크기 | 10 | D;E | 연구 규모 산출근거를(개발/평가별로) 설명하고, 연구질문에 충분한 규모였음을 정당화하며, 표본 크기 산출 세부 내용을 포함한다. | |
결측 데이터 | 11 | D;E | 결측 데이터 처리 방법 및 누락 사유를 기술한다. | |
분석방법 | 12a | D | 데이터 사용(개발/성능 평가 목적 등) 및 분석방법, 데이터 분할 여부와 표본크기 요건 고려사항을 명시한다. | |
12b | D | 모델 유형에 따라 예측변수의 분석 처리(함수형, 재조정, 변환, 표준화 등)를 설명한다. | ||
12c | D | 모델 유형, 근거 |
||
12d | D;E | 집단 간(병원, 국가 등) 모델 파라미터 및 성능 추정치의 이질성 처리 및 정량화 방법을 기술한다. 추가사항은 TRIPOD-Cluster 참조. |
||
12e | D;E | 모델 성능 평가에 사용된 모든 지표 및 그래프(근거 포함)를 명시하고, 필요한 경우 여러 모델 간 비교방법도 기술한다. | ||
12f | E | 모델 평가에서 파생된 모델 수정(재보정 등)을 전체 또는 특정 집단/환경별로 기술한다. | ||
12g | E | 모델 평가 시, 예측값 산출방식(수식, 코드, 오브젝트, API 등)을 설명한다. | ||
클래스 불균형 | 13 | D;E | 클래스 불균형 처리방법, 적용 이유, 사후 재보정 방법을 기술한다. | |
공정성 | 14 | D;E | 모델 공정성 향상을 위한 방법 및 근거를 설명한다. | |
모델 산출값 | 15 | D | 예측모델의 산출값(확률, 분류 등)을 명확히 하고, 분류기준 및 임계값 선정방법을 상세히 설명한다. | |
개발-평가 차이 | 16 | D;E | 개발 데이터와 평가 데이터 간 환경, 선정기준, 결과, 예측변수의 차이를 기술한다. | |
윤리 승인 | 17 | D;E | 연구를 승인한 기관윤리위원회 또는 윤리위원회의 명칭과, 연구 참가자의 동의(또는 윤리위원회의 동의 면제) 절차를 명시한다. | |
오픈 사이언스 | 연구비 | 18a | D;E | 본 연구의 연구비 출처 및 후원자 역할을 기술한다. |
이해관계 | 18b | D;E | 모든 저자의 이해관계 및 재정적 공시를 명시한다. | |
프로토콜 | 18c | D;E | 연구 프로토콜의 접근 가능 위치를 알리고, 프로토콜 미작성 시에는 해당 사실을 명시한다. | |
등록 | 18d | D;E | 연구 등록정보(등록기관, 등록번호 포함)를 제공하고, 미등록 시에는 해당 사실을 명시한다. | |
데이터 공유 | 18e | D;E | 연구 데이터의 접근 가능성 및 공유방식을 기술한다. | |
코드 공유 | 18f | D;E | 분석코드의 접근 가능성 및 공유방식을 기술한다. |
|
환자 및 공공 참여 | 환자 및 공공 참여 | 19 | D;E | 연구설계, 수행, 보고, 해석, 확산 중 어느 단계에서든 환자/공공 참여 내역을 상세히 기술하거나, 참여가 없음을 명시한다. |
결과 | 참가자 | 20a | D;E | 연구 내 참가자 흐름(결과 발생 유무별 참가자 수, 추적관찰 요약 포함)을 기술하고, 필요 시 도식화한다. |
20b | D;E | 전체 및 환경별 주요 특성(날짜, 주요 예측변수, 치료내역, 표본 수, 결과 발생 수, 추적기간, 결측 데이터 등)을 보고하고, 인구집단별 차이도 명시한다. | ||
20c | E | 모델 평가에서 주요 예측변수(인구통계, 예측변수, 결과 등)의 개발 데이터와의 분포 비교를 제시한다. | ||
모델 개발 | 21 | D;E | 각 분석(모델 개발, 하이퍼파라미터 튜닝, 평가 등)별 참가자 수 및 결과 사건 수를 명시한다. | |
모델 명세 | 22 | D | 예측모델(수식, 코드, 오브젝트, API 등) 상세 내역을 제공하고, 새로운 개인 예측 또는 제3자 평가ㆍ구현에 필요한 접근 제한 여부(무료, 독점 등)를 명확히 기술한다. |
|
모델 성능 | 23a | D;E | 신뢰구간을 포함한 모델 성능 추정치, 주요 하위집단(예: 사회인구학적)별 성능, 시각화 자료(그래프 등) 제시를 고려한다. | |
23b | D;E | 집단 간 모델 성능의 이질성이 평가된 경우 결과를 보고한다. 추가 내용은 TRIPOD-Cluster 참고 |
||
모델 수정 | 24 | E | 모델 수정(예: 업데이트, 재보정) 및 수정 후 성능 결과를 보고한다. | |
논의 | 해석 | 25 | D;E | 주요 결과에 대한 종합적 해석을 제시하고, 목적 및 기존 연구 맥락에서 공정성 문제를 논의한다. |
한계 | 26 | D;E | 비대표성 표본, 표본크기, 과적합, 결측 데이터 등 연구의 한계 및 이로 인한 편향, 통계적 불확실성, 일반화 가능성에 미치는 영향을 논의한다. | |
활용성 | 27a | D | 입력 데이터(예측변수 등) 품질이 낮거나 제공 불가할 때의 평가 및 처리방식을 설명한다. | |
27b | D | 모델 적용 및 입력 데이터 활용 시 사용자의 상호작용 필요성, 요구되는 전문성 수준을 명확히 한다. | ||
27c | D;E | 모델의 적용성과 일반화 가능성에 초점을 두고, 향후 연구과제를 논의한다. |
섹션 및 항목 | 체크리스트 항목 |
---|---|
제목 | 1. 연구가 다변량 예측모델의 개발 또는 성능 평가임을, 대상 집단 및 예측할 결과와 함께 명시한다. |
배경 | 2. 보건의료 맥락 및 모든 모델의 개발/성능 평가근거를 간략하게 설명한다. |
목적 | 3. 연구목적을 구체적으로 명시하며, 모델 개발, 평가 또는 둘 다에 해당하는지 포함한다. |
방법 | 4. 데이터 출처를 설명한다. |
5. 데이터 수집 시 적용된 선정기준과 환경을 설명한다. | |
6. 예측모델이 예측하고자 하는 결과(예후모델의 경우 예측기간 포함)를 명시한다. | |
7. 모델 유형, 모델 구축 단계 요약, 내부 검증방법 |
|
8. 모델 성능 평가에 사용된 지표(예: 변별도, 보정, 임상적 유용성 등)를 명확히 기술한다. | |
결과 | 9. 참가자 수 및 결과 사건 수를 보고한다. |
10. 최종 모델의 예측변수를 요약한다†. | |
11. 신뢰구간을 포함한 모델 성능 추정치를 보고한다. | |
고찰 | 12. 주요 결과에 대한 종합적 해석을 제시한다. |
등록 | 13. 등록번호 및 등록기관(또는 저장소) 명칭을 명시한다. |
사용자/이해관계자 | 권장 조치 | 잠재적 이익 |
---|---|---|
학술기관 | 연구자에게 예측모델 개발, 평가, 적용 시 TRIPOD+AI 준수 권장 또는 의무화 | 예측모델 연구의 설계, 분석, 보고의 투명성 문화 증진 |
초기 경력 연구자를 대상으로 투명하고 완전한 보고의 중요성과 이점을 교육, TRIPOD+AI 지침에 맞는 논문ㆍ학위 논문 작성 권장 | 산출 연구의 질, 책임성, 재현성, 복제 가능성, 유용성 향상 | |
연구자 | 논문 작성 시 TRIPOD+AI 준수 | 보고의 완결성과 질 향상 |
예측모델 논문에 요구되는 최소한의 세부 정보에 대한 인식 증가 | ||
산출 연구의 질, 책임성, 재현성, 복제 가능성, 유용성 향상 | ||
모델의 독립적 평가를 용이하게 하는 세부 정보 보고 증가 | ||
학술지 편집자 | 논문 제출 시 저자에게 TRIPOD+AI 및 체크리스트 작성 요구 또는 의무화 | 예측모델 논문에 대한 학술지 요구사항과 기대치에 대한 이해도 향상 |
심사자에게 TRIPOD+AI 활용 권장 | 저자의 이해도 향상에 따른 심사 효율성 증가 | |
출판 논문의 질, 책임성, 재현성, 복제 가능성, 유용성 향상 | ||
심사위원 | 보고의 완결성 평가에 TRIPOD+AI 사용 | 심사 효율성과 질 향상 |
누락된 중요 정보에 대한 구체적 피드백 제공 용이 | ||
연구비 지원기관 | 연구자가 연구비 신청 시 TRIPOD+AI 사용 권장 또는 의무화 | 연구결과의 활용성 증대, 불충분한 보고로 인한 연구 낭비 감소 |
연구비 수혜 연구가 타인에게도 활용될 수 있도록 보장 | ||
환자, 공공, 연구 참여자 | 저자, 심사자, 학술지, 연구비 지원기관의 TRIPOD+AI 준수 옹호 | 연구결과에 대한 신뢰도 향상 |
예측모델 연구에 대한 이해도 증진, 연구 내 건강형평성 고려 촉진 | ||
정밀의료 및 맞춤형 질환 관리에서 환자 보고 결과와 임상연구 결과 정렬 | ||
체계적 문헌고찰자/메타연구자 | TRIPOD+AI로 보고 완결성 평가 | 위험도 평가도구와 병행 시 연구의 질 평가 향상(예: PROBAST) |
질 및 편향 평가 시 TRIPOD+AI 참고 | 메타분석에 필요한 데이터 확보 용이 | |
정책 결정자 | 연구의 투명하고 완전한 보고를 위해 TRIPOD+AI 활용 권장 또는 의무화 | 예측모델 평가 또는 적용 결정이 완전하고 투명하게 보고된 정보에 근거하도록 보장 |
근거 기반 정책 권고의 신뢰성 제고 | ||
규제 기관 | 임상 심사자가 의료기기 소프트웨어 등 예측모델 기반 제품 규제 심사 시 TRIPOD+AI로 임상시험 보고 완결성 평가 | 보고된 사용 목적과 규제상 의도 일치 확인 |
의료기기 규제 심사 및 주요 임상시험 보고에서 모범사례와 일치 유도 | ||
공통 표준 도입 유도로 제조사의 임상시험 보고 공개 장려 | ||
기술/의료기기 제조사 | 기술/기기 개발ㆍ제조에 필요한 모델 정보의 충분성 검증 | 공통 표준 도입 유도로 제조사의 임상시험 보고 공개 장려 |
의료인 | ||
구매ㆍ임상 활용 전 충분한 모델 정보 확인 | 모델 적용 대상군 및 지원 임상적 결정에 대한 이해도 향상 | |
예측결과에 대한 이해도와 한계 인식 증가 | ||
연구결과에 대한 신뢰도 향상 |
아래 정의 및 설명은 TRIPOD+AI* 가이드라인의 맥락에 한정된 것이며, 다른 연구 분야에는 반드시 적용되지 않을 수 있다. |
인공지능(artificial intelligence): 통상적으로 인간의 지능이 필요한 과업을 수행할 수 있는 모델 및 알고리즘을 개발하는 컴퓨터 과학 분야. |
보정(calibration): 관찰된 결과와 모델에서 추정된 값 간의 일치 정도. 보정은 일반적으로 추정값(x축)과 관찰값(y축)을 그래프로 나타내고, 개별 데이터의 유연한 보정 곡선을 함께 제시하여 평가하는 것이 가장 바람직하다. |
진료 경로(care pathway): 특정 건강 문제 관리 또는 환자의 진료 전 과정을 포괄하는 구조적ㆍ조정된 진료계획. |
클래스 불균형(class imbalance): 결과 사건이 발생한 집단과 발생하지 않은 집단의 빈도가 불균등한 현상. |
변별력(discrimination): 모델의 예측이 결과 발생 집단과 미발생 집단을 얼마나 잘 구분하는지의 정도. 변별력은 이항 결과의 경우 c-통계량(또는 곡선하면적[area under the curve], 수신자조작특성곡선하영역[area under the receiver operating characteristic curve])으로, 시점-사건(time-to-event) 결과는 c-지수로 정량화된다. |
평가 또는 테스트 데이터(evaluation or test data): 예측모델의 성능을 추정하는 데 사용되는 데이터. ‘테스트 데이터’ 또는 ‘검증 데이터’로도 불린다. |
공정성(fairness): 예측모델이 연령, 인종/민족, 성별/젠더, 사회경제적 지위 등과 같은 특성을 바탕으로 개인 또는 집단을 차별하지 않는 특성. |
하이퍼파라미터(hyperparameters): 모델 개발 또는 학습과정을 제어하는 값. |
하이퍼파라미터 튜닝(hyperparameter tuning): 특정 모델 구축 전략에 가장 적합한 (하이퍼)파라미터 설정을 찾는 과정. |
내부 검증(internal validation): 모델이 개발된 동일한 집단을 대상으로 예측모델의 성능을 평가하는 것(예: 훈련-테스트 분할, 교차검증, 부트스트래핑[bottstrapping] 등). |
머신러닝(machine learning): 데이터로부터 명시적으로 프로그래밍하지 않고 학습하고 예측이나 의사결정을 내릴 수 있는 모델을 개발하는 인공지능의 한 분야. |
모델 평가(model evaluation): c-통계량 등으로 모델의 변별력, 보정도(보정도 그래프, 보정 기울기 등), 임상적 유용성(의사결정 곡선 분석 등)을 추정하여 모델의 예측 정확도를 평가하는 과정. 이 과정을 예측모델의 평가라 부른다[74,75]. |
결과(outcome): 예측하고자 하는 진단 또는 예후 사건. 머신러닝에서는 이를 목표값(target value), 반응변수(response variable), 또는 레이블(label)이라고 지칭하기도 한다. |
예측 변수(predictor): 개인 수준(예: 나이, 수축기 혈압, 성별, 질병 단계, 라디오믹스 특성) 또는 집단 수준(예: 국가)에서 측정되거나 할당될 수 있는 특성. 입력값, 특성(feature), 독립변수, 공변량 등으로도 불린다. |
훈련 또는 개발 데이터(training or development data): 예측모델의 훈련 또는 개발에 사용되는 데이터. 이상적으로는, 훈련 데이터가 모델 실제 사용 인구를 대표해야 한다. |
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis); AI, 인공지능(artificial intelligence). |
• 새로운 체크리스트: 랜덤 포레스트, 딥러닝 등 어떠한 회귀 또는 머신러닝 방법을 사용한 예측모델 연구도 포함할 수 있도록 보고 권고사항을 새롭게 마련하였고, 회귀 및 머신러닝 커뮤니티 간 용어를 통합하였음. |
• TRIPOD+AI 체크리스트 도입: TRIPOD+AI 체크리스트가 기존 TRIPOD 2015 체크리스트를 대체하므로, 더 이상 TRIPOD 2015는 사용하지 않아야 함. |
• 공정성에 대한 강조: 공정성( |
• 초록 보고 지침 추가: 초록 작성 시 참고할 수 있도록 TRIPOD+AI for Abstracts를 별도 포함함. |
• 모델 성능 항목 수정: 저자가 주요 하위집단(예: 사회인구학적 집단)에서 모델 성능을 평가할 것을 권고하도록 해당 항목을 수정함. |
• 환자 및 공공 참여 항목 신설: 연구의 설계, 수행, 보고(및 해석), 확산과정에서 환자 및 공공의 참여에 대해 상세히 기술하도록 저자에게 요청하는 항목을 새롭게 추가함. |
• 오픈 사이언스 섹션 신설: 연구 프로토콜, 등록, 데이터 공유, 코드 공유 등에 관한 하위항목을 포함한 오픈 사이언스 섹션을 도입함. |
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis); AI, 인공지능(artificial intelligence). |
STARD, 진단 정확도 보고 기준(Standards for Reporting of Diagnostic Accuracy); TRIPOD, 개인 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis); AI, 인공지능(artificial intelligence); CLAIM, 의료영상 인공지능 연구 체크리스트(Checklist for Artificial Intelligence in Medical Imaging); DECIDE, 근거 기반 혁신의 도입 및 확산을 위한 보건의료 의사결정(Decisions in health Care to Introduce or Diffuse innovations using Evidence); CHEERS, 건강경제학적 평가 통합 보고 기준(Consolidated Health Economic Evaluation Reporting Standards); SPIRIT, 중재 임상시험 프로토콜 권고(Standard Protocol Items: Recommendations for Interventional Trials); CONSORT, 임상시험 보고 통합 기준(Consolidated Standards of Reporting Trials); PRISMA, 체계적 문헌고찰 및 메타분석 보고 권고(Preferred Reporting Items for Systematic Reviews and Meta-Analyses).
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis); AI, 인공지능(artificial intelligence). D: 예측모델 개발에만 해당, E: 예측모델 평가에만 해당, D;E: 개발과 평가 모두에 해당. 모든 모델 구축 접근법에 대해 별도로 기술. TRIPOD-Cluster는 클러스터(예: 병원, 센터 등)를 명시적으로 고려하거나 성능 이질성을 탐색하는 연구 보고 체크리스트. 데이터 정제, 특성 엔지니어링, 모델 구축 및 평가 등 분석코드에 해당. 신규 예측 위험 추정을 위한 모델 구현 코드에 해당.
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis); AI, 인공지능(artificial intelligence). 이 체크리스트는 2020년에 발표된 TRIPOD for Abstracts statement [ 예측모델 개발 연구에만 해당되는 항목임.
TRIPOD, 개인별 예후 또는 진단을 위한 다변량 예측모델의 투명한 보고(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis); AI, 인공지능(artificial intelligence).
검증 데이터(validation data)는 연구마다 의미가 다를 수 있다. 예를 들어, 머신러닝 연구에서 검증 데이터는 파라미터 튜닝에 사용되는 데이터 또는 모델 성능 평가(대개 외부 검증이라고도 함)에 사용되는 데이터를 의미할 수 있다. 이 가이드라인에서는 혼동을 방지하기 위해 모델 성능 평가에 사용된 데이터를 평가 데이터(evaluation data)라 명명하였다.