1. Task
1-1. Medical Report Generation이란?

Medical Report Generation(MRG)은 입력된 이미지 데이터를 기반으로 전문적인 보고서를 자동으로 생성하도록 AI를 훈련하는 테스크를 말합니다. 이는 의료진이 더 빠르고 정확한 결정을 내릴 수 있도록 돕는데, 보고서 작성 작업은 숙련된 의사에게조차 시간 소모적이고 오류가 발생하기 쉬운 과정이기 때문입니다. MRG는 의료 이미지에 대한 깊은 임상적 이해와 질병 식별 능력을 바탕으로 높은 정확도의 진단 레포트를 생성해야 하기 때문에 매우 어려운 과제 중 하나라고 할 수 있습니다.
2. Method

저희가 사용한 모델은 PromptMRG라는 모델입니다. PromptMRG는 진단 정보에 대한 정확성 증가와 질병 데이터의 불균형한 분포 문제를 극복하기 위해 세가지 방법을 도입했습니다.
2-1. Prompt MRG
- Cross-Modal Feature Enhancement (report database)
- Diagnosis-Driven Prompts
- Self-Adaptive Disease-Balanced Learning
- CFE (Crosss-Model Feature Enhancement)
해당 부분은 의료진이 진단 시에 다른 자료를 참고하는 방식과 같이, 추가적인 레포트 정보를 이용해 진단 정확도를 올리기 위해 사용됩니다. 외부 정보를 추가하며, 서로 다른 모달리티(text, image)의 정보를 결합하여, 모델의 성능을 향상시키도록 합니다.
- CLIP을 사용한 이미지 기반 유사 텍스트 검색

Chest image dataset(X-ray 또는 CT)을 통해 뽑아놓은 CLIP text embedding을 기반으로 검색을 수행합니다.
pretrained CLIP의 텍스트 인코더로 Report feature를 추출한 정보를 모아 report database를 생성합니다. 이후, 입력 이미지를 CLIP 이미지 인코더에 통과해 생성된 image feature와 가장 유사한 텍스트 임베딩(report 임베딩) 21개를 가져옵니다. 가져온 텍스트 임베딩은 이후 기존의 token과 합쳐져 학습에 사용됩니다.
- Dynamic Aggregation 구조 학습

위에서 검색해온 텍스트 임베딩과 Query token을 결합(concat) 하여 학습에 사용합니다. Dynamic Aggregation 구조를 학습하는데요, 해당 구조는 흔히 알고 있는 Q-former 구조입니다.
- Self-Attention : query token과 Text embedding이 함께 들어가, 서로 간의 상호작용을 통해 query token은 텍스트 임베딩의 중요한 특징을 추출합니다.
- Cross-Attention : 앞서 학습된 텍스트 임베딩에 이미지 임베딩을 Cross Attnetion을 수행하여, 이미지와 텍스트 간의 상호작용을 반영할 수 있도록 합니다.
이를 통해 단순히 이미지 정보만 갖고 진단 report를 생성하는 것보다 더 많은 report정보로부터의 지식을 추가적으로 도입함으로써 cross-modal feature를 강화할수 있도록 합니다. 또한, DA 구조를 통해 다른 모달리티 (이미지와 텍스트) 간의 관계를 잘 학습하도록 합니다.
- DDP (Diagnosis-Driven Prompts)
진단 중심 프롬프트(DDP)는 진단의 정확도를 올리기 위해 사용되며, 질병 분류 branch에서 생성된 진단 결과를 토큰 프롬프트로 변환하여 레포트 생성 과정을 명시적으로 가이딩하는 목적으로 구성했습니다.

우선, CheXbert를 통해 report를 기반으로 14개의 질병 카테고리에 대해 [BLA], [POS], [NEG], [UNC] 토큰으로 분류 하여 프롬프트를 구성합니다.
모델 아키텍처

이후, CheXbert로 판단하지 못하는 이외의 질병 label에 대해서는 LLM인 Vicuna의 도움을 받아 프롬프트를 추가로 구성합니다.

- 14개 이외의 추가로 데이터에 존재한 질병 (aorta/aortic, Bone/Spine, Hemidiaphragm, Lung Volume) 에 대해서는 Vicuna-7B를 이용해 Prompting을 통해 [BLA], [POS], [NEG], [UNC] 프롬프트를 생성합니다.
프롬프트 예시
저희가 위의 Vicuna 모델에 입력으로 넣은 prompt입니다.
prompt = f''' Tell me the aorta/aortic situation based on the given paragraph by returning one of the letters (A/B/C/D).
• If it is not mentioned, return A;
• If it is abnormal, return B;
• If it is normal, return C;
• If it is uncertain, return D.
Now, analyze the following paragraph:
The paragraph starts:
Answer: (returning one of the letters)
'''
답변 결과 B- 따라서 최종적으로 질병 분류 branch는 의료 이미지의 시각적 특징을 분석해 각 질병 분류에 대해 ‘Blank’, ‘Positive’, ‘Negative’, ‘Uncertain’중 하나의 분류를 수행하고 이를 [BLA], [POS], [NEG], [UNC]와 같은 토큰으로 변환되어 디코더가 이를 참조할 수 있도록 합니다.
- SDL (Self-Adaptive Disease-Balanced Learning)
해당 부분에서는 질병 레이블 간의 확률값을 계산하여 불균형 문제를 해결하기 위해 SDL 학습을 진행합니다. 질병 label에 대해서는 전체 질병에서 각 질병 label이 positive일 확률을 뽑아내 logit을 구성합니다.

왼쪽 그래프는 저희가 finetuning시에 사용한 Medpix 데이터의 14개의 질병에 대한 확률 분포입니다. 즉, 전체 질병의 양성 개수 중에서 각 14개 질병의 양성 개수의 비율입니다.
- 여기서 ‘양성’은 1.의 CheXbert의 결과로 Positive 토큰을 출력한 경우입니다.)
- 14개의 질병은 2.에서 언급한 질병과 같습니다.
- 4번 질병(Edema, 부종)은 양성이라고 판단한 경우가 없었기 때문에, 이는 1e-9와 같은 아주 작은 값으로 치환해서 사용했습니다.
SDL 을 통해서는 각 질병 데이터의 학습 상태에 따라 학습 목표를 동적으로 조정하여 질병 간 학습 균형을 맞출 수 있도록 하는 부분입니다. 사실상 메디컬 데이터를 확인해보면, 특정 질병 종류는 학습 데이터에서 자주 등장하지만, 어떤 질병들은 드물게 등장하는 경우가 발생합니다. 이러한 데이터 불균형 문제를 해결하기 위해 SDL 방법론을 도입했습니다.

softmax를 통해 각 클래스에 대한 확률을 계산할 때, positive 클래스 P의 logit 값에 보정값을 더해 확률을 높이도록 설계합니다. 따라서, 최종 Loss는 positive class를 올바르게 예측했는지 평가하도록 합니다.
Logit-Adjusted Loss를 활용하여 드물게 등장하는 질병에 대해서는 logit 값을 감소시켜 모델이 더 많이 학습하도록 합니다. 또한, prediction을 기반으로 동적으로 클래스 분포를 업데이트 함으로써 질병마다의 학습 비율을 조절하여 불균형 문제를 해결하도록 했습니다. 해당 loss는 LLM loss와 합쳐서 계산하게 됩니다.

마지막으로 학습된 임베딩과 만들어진 Prompt를 기반으로 Text Decoder를 학습합니다. Text Decoder는 ImageNet으로 사전 학습된 Bert Decoder (BertLMHeadModel)를 사용하여 최종적으로 Report Generation을 수행합니다.
정리하자면, PromptMRG는 흉부 X-Ray로부터 의료 레포트를 생성하는 모델입니다. 이때, 진단 정확도 증가와 질병 데이터의 불균형형한 분포 문제를 해결하기 위해, 이미지 인코더와 텍스트 디코더에 추가적으로 DDP, CFE, SDL 세가지 모듈을 추가한 모델입니다.
2-2. Data
저희는 MIMIC-CXR 일부와 Mepix-2.0 데이터셋을 사용했습니다.
1) MIMIC-CXR Chest X-ray와 레포트가 pair로 존재하는 데이터셋입니다.

"Lung volumes are low. Retrocardiac opacity with silhouetting of the left hemidiaphragm and lateral border of the descending aorta is nonspecific and could reflect any of a combination of atelectasis, focal pneumonia or even a small effusion. Right infrahilar opacity with slight indistinctness of the right heart border could reflect infection in the appropriate clinical scenario. Apparent elevation of the right hemidiaphragm may be related to positioning and technique versus volume loss. There is cardiomegaly, but no CHF. Aortic calcifications are present. No pneumothorax.”
한국어 번역
"폐 용적이 감소되어 있습니다. 심장 뒤쪽의 불투명성과 왼쪽 횡격막 및 하행 대동맥의 측면 경계가 흐려진 것은 비특이적이며, 무기폐, 국소 폐렴, 또는 소량의 흉수의 조합을 반영할 수 있습니다. 오른쪽 하폐문 부위의 불투명성과 오른쪽 심장 경계의 약간의 흐릿함은 적절한 임상 상황에서 감염을 시사할 수 있습니다. 오른쪽 횡격막의 상승은 자세와 촬영 기법에 의한 것일 수 있으며, 부피 감소와 관련이 있을 수 있습니다. 심비대는 있지만, 울혈성 심부전(CHF)은 없습니다. 대동맥 석회화가 관찰됩니다. 기흉은 확인되지 않았습니다.”
2) Mepix-2.0 흉부, 머리, 척추 등 다양한 부위의 CT이미지와 레포트 뿐만 아니라, 연령, 성별, 나이, 병력, 감별진단 등의 다양한 추가정보를 가지고 있습니다. 저희는 해당 데이터 중 흉부 부분만 사용했습니다.

"T2 weighted axial MR image reveals a well-marginated mass with smooth borders in the left lung at the level of the aortic arch, which demonstrates multiple small foci of increased T2 signal intensity, giving the mass a speckled appearance.\n\nContrast enhanced axial CT image shows a homogeneous, well-marginated, solid mass with minimal contrast enhancement in the left upper lobe. No fat or calcification is evident."
한국어 번역
"T2 강조 축상 MR 영상에서 대동맥궁 수준의 왼쪽 폐에 경계가 뚜렷하고 매끄러운 경계를 가진 종괴가 관찰됩니다. 이 종괴는 다수의 작은 고신호 강도의 T2 병변을 보여 점상 양상을 나타냅니다. 조영 증강 축상 CT 영상에서는 왼쪽 상엽에 균질하고 경계가 뚜렷한 고형 종괴가 관찰되며, 조영 증강이 최소한으로 나타납니다. 지방이나 석회화는 확인되지 않았습니다."

저희는 Medpix에서 흉부 데이터만 거른 334개의 \를 사용합니다. 해당 데이터의 이미지와 레포트를 8이용해서 PromptMRG 모델을 fine-tuning하고, 이후 진행할 프롬프팅에서 해당 환자 정보 (Age, Sex, Exam, History)를 이용하여 환자 맞춤형 레포트를 생성하도록 합니다.
2-3. Evaluation merics
1) Natural Language Generation (NLG) metrics : GT 레포트를 기준으로 생성된 레포트를 평가합니다.
- BLEU (Bilingual Evaluation Understudy)
- 기계 번역에서 생성된 번역 결과와 정답 번역(참고 번역) 간의 n-gram(연속된 n개의 단어) 일치를 측정합니다.
- METEOR (Metric for Evaluation of Translation with Explicit ORdering)
- BLEU와 유사하게 기계 번역의 성능을 평가하지만, 의미적 일치와 어휘적 변형을 고려합니다.
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
- 주로 텍스트 요약에서 생성된 요약과 정답 요약 간의 중복된 n-gram(혹은 단어)을 기반으로 평가합니다.
위 세 개의 지표는 모두 높을수록 좋은 성능 지표입니다.
2) Clinical Efficacy(CE) metrics : CheXbert를 이용해 GT 레포트와 생성된 레포트를 비교하며, 14개의 질병에 대해 예측 성능을 평가합니다.
- Precision
- 분류 모델이 positive라고 판정한 것 중, 실제로 positive인 샘플의 비율입니다.
- Recall
- 실제 positive 샘플 중 분류 모델이 positive로 판정한 비율입니다.
- F1 score
- Precision과 Recall의 조화평균으로, 두 지표 간의 균형을 측정합니다.
위 세 개의 지표는 모두 높을수록(1에 가까울수록) 좋은 성능 지표입니다.
2-4. Result of Fine-tuning
아래 table은 기존 PromptMRG의 성능과 Medpix 데이터로 fine-tuning한 결과입니다.

- CE Metrics - 질병에 대한 예측 성능 평가
Medpix 데이터셋으로 fine-tuning을 진행했을 때, 기존 Baseline 모델 대비 모든 성능 지표가 오히려 감소했습니다. 이는 MIMIC 데이터셋의 14개 질병 분류와 Medpix 데이터셋의 질병 분류가 완전히 일치하지 않기 때문입니다. 결과적으로 Medpix의 모든 질병을 커버하지 못한 점이 성능 저하의 주요 원인으로 보입니다.
- NLG Metrics - 생성된 레포트 평가
기존 Baseline모델에 비해서 fine-tuning시에 모든 지표의 성능이 올라감을 확인할 수 있습니다. BLEU-4의 경우 가장 큰 폭으로 성능이 향상 되었으며, 이는 다중 단어와 문장 구조 매칭 능력이 크게 개선되었음을 의미합니다. 또한 METEOR, ROUGE-L 등 다른 지표에서도 성능이 향상되어, 의미론적 유사성이 개선되었음을 알 수 있습니다.
3. Prompting을 통한 환자 맞춤화 레포트 생성
3-1. Purpose of Prompting

기존 Report에는 해당 이미지, 의료 영상에서 찾을 수 있는 정보만을 포함하고 있습니다. 하지만, 저희는 프롬프팅을 수행해 환자 개인의 추가 정보를 반영한다면, 의료진에게 더욱 유용한 개인 맞춤형 의료 레포트를 생성할 수 있을 것이라고 생각했습니다.

이를 위해 PromptMRG 모델이 생성한 레포트에 대해서 사전 학습된 Vicuna-7B 모델을 이용해 프롬프팅을 진행했습니다. 이때, 아래 제시된 4가지의 Medpix 데이터의 환자 개인 정보를 추가적으로 반영했습니다.
- age : 환자의 연령
- sex : 환자의 성별
- exam : 의학적 검사 결과
- history : 과거 진찰 내용 및 병력
- 추가 정보 예시
```plain text Age: 55세 Sex: 여성 Exam : 오른쪽 유방의 3시 위치에서의 오른쪽 유방 종괴. History : 양쪽 실리콘 임플란트를 가진 55세 여성입니다. 오른쪽 가슴 질량은 3-4시까지입니다
저희가 사용한 프롬프트는 다음과 같습니다.Please refine the following medical report to make it understandable for a doctor. Omit unnecessary details, such as explanations about imaging principles. Use the provided age,sex, history and exam information to tailor the explanation. Focus on the following:
- Provide a clear and simple explanation of the disease and the current state, appropriate for the patient's age, sex, history and exam.
- Present the information in a straightforward format without using phrases like "Dear" or any letter-like structure.
Age: # 환자 연령 Sex: # 환자 성별 Exam: # 의학적 검사 결과 History: # 환자의 병력
Report: # 생성된 레포트
즉, 모델이 생성한 의료 레포트를 토대로, 연령, 성별, 병력 및 검사 정보를 반영한 개인 맞춤형 레포트를 생성할 수 있도록 유도합니다. 또한, 환자 상태를 명확하고 간단하게 설명하게 함으로써 의사들이 효율적으로 활용할 수 있는 내용을 제공하게 합니다.
### 3-2. Result of Prompting

### 생성 결과 예시 (원본)
- **Ground Truth
**ultrasound findings- classic linguini sign consisting of hyperechoic linear objects coursing through the implant. hyperechoic shadowing of all structures typical of silicon infiltrating into tissues surrounding the implant capsule. mri- linguini sign with high signal on h20 saturation in the soft tissue surrounding the implant.
- **Report
**ultrasound findings - classic linguini sign consisting of hyperechoic linear objects coursing through the implant. hyperechoic shadowing of all structures typical of silicon infiltrating into tissues surrounding the implant capsule. mri - linguini sign with high signal on h20 saturation in the soft tissue surrounding the implant.
- **Generated with prompting
**Based on the above findings, the most likely diagnosis is silicone infiltration, which is a complication of breast implant surgery. The patient's age and history of breast implant surgery make this diagnosis highly likely. The classic linguini sign on ultrasound and MRI, as well as the hyperechoic linear objects and shadowing of structures on ultrasound, are all consistent with silicone infiltration. The patient's right breast mass at the 3 o'clock position is also consistent with this diagnosis.
It is important to note that silicone infiltration is a serious complication of breast implant surgery that can cause pain, discomfort, and other symptoms. Treatment options may include removal of the implant and surrounding tissue, as well as reconstruction of the breast using other methods. It is recommended that the patient follow up with a plastic surgeon to discuss treatment options and develop a plan for management of this condition.
1. **Ground Truth
**초음파 소견 - 임플란트를 통과하는 고초음속 선형 물체로 구성된 고전적인 링귀니 기호. 임플란트 캡슐을 둘러싼 조직에 실리콘이 침투하는 일반적인 모든 구조의 고초음속 음영. 임플란트 주변 연조직의 h20 포화도에서 높은 신호를 보이는 MRI- 링귀니 기호.
2. **Generated Report
**초음파 소견 - 임플란트를 통과하는 고초음속 선형 물체로 구성된 고전적인 링귀니 신호. 실리콘이 임플란트 캡슐을 둘러싼 조직에 침투하는 일반적인 모든 구조의 고초음속 음영. MRI - 임플란트 주변 연조직의 h20 포화도에서 높은 신호를 보이는 링귀니 신호.
3. **Additional information of patient**
- Age: 55세
- Sex: 여성
- Exam : 오른쪽 유방의 3시 위치에서의 오른쪽 유방 종괴.
- History : 양쪽 실리콘 임플란트를 가진 55세 여성입니다. 오른쪽 가슴 질량은 3-4시까지입니다
4. **Generated Report with prompting
**위의 소견에 따르면 가장 가능성이 높은 진단은**유방 임플란트 수술의 합병증인 실리콘 침윤**입니다. 환자의 나이와 유방 임플란트 수술 이력으로 인해 이 진단의 가능성이 높습니다. 초음파와 MRI의 고전적인 링귀니 징후, 초음파의 고초음속 선형 물체 및 구조물 음영은 모두 실리콘 침윤과 일치합니다. 3시 위치에서 환자의 오른쪽 유방 질량도 이 진단과 일치합니다.
실리콘 침윤은 통증, 불편함 및 기타 증상을 유발할 수 있는 유방 임플란트 수술의 심각한 합병증이라는 점에 유의하는 것이 중요합니다. 치료 옵션에는 임플란트 및 주변 조직 제거뿐만 아니라 다른 방법을 사용한 유방 재건이 포함될 수 있습니다. 환자는 성형외과 의사와 함께 치료 옵션을 논의하고 이 상태를 관리하기 위한 계획을 개발하는 것이 좋습니다.
---
위의 예시는**Ground Trut**h, **PromptMRG 모델이 생성한 레포트, **프롬프팅 시에 사용한** 환자의 추가 정보**와 모델이 생성한 레포트를 기반으로 **프롬프팅을 적용한 결과**입니다.
- **Generated Report**는 **Ground Truth**와 표현 방식에서 유사하며, 초음파와 MRI 소견의 핵심 내용이 유지되는 것을 확인할 수 있습니다.
- **프롬프팅이 적용된 결과**를 보면, 환자에 대한 추가 정보에서 제시된 환자의 나이와 병력의 추가 정보를 바탕으로, 보다 구체적이고 개인화된 진단과 권고안을 제공하고 있습니다.
즉, 프롬프팅을 적용해서 구체적이고 개인화된 정보를 포함하는 환자 맞춤형 의료 레포트를 생성함을 알 수 있습니다.
### 다른 생성 결과 예시
- Ground Truth
왼쪽 쇄골하 동맥이 비정상적인 오른쪽 대동맥 아치.
- Generated Report
왼쪽 쇄골하 동맥이 비정상적인 오른쪽 대동맥 아치. 고해상도 CT 스캔에서 폐 전체에 여러 개의 확장된 측부 혈관이 보입니다. 이러한 소견은 익사한 오른쪽 쇄골하 동맥과 일치합니다.
- **Additional information of patient**
- Age : 58세
- Sex: 남성
- Exam: 기여하지 않음
- History : 58세 백인 남성, 호흡곤란으로 PE/DVT 배제를 위해 CT를 받았습니다
- Generated Report with prompting
환자는 호흡곤란 병력이 있는 58세 백인 남성입니다. 그는 폐색전증(PE)과 심부정맥혈전증(DVT)을 배제하기 위해 CT 스캔을 받았습니다. CT 스캔 결과 왼쪽 쇄골하 동맥이 비정상적인 오른쪽 대동맥 아치가 발견되었습니다. 또한 폐 전체에 여러 개의 확장된 측부 혈관이 관찰되었는데, 이는 익사한 오른쪽 쇄골하 동맥과 일치합니다.
환자의 오른쪽 쇄골하 동맥이 막힘이나 기타 문제로 인해 제대로 기능하지 못하고 있습니다. 이로 인해 폐에 커진 측부 혈관이 형성되어 호흡이 어려울 수 있습니다. 환자의 나이와 성별이 이 소견에 적합합니다. CT 스캔 결과 다른 심각한 이상은 발견되지 않았습니다.
### 3-3. Contribution
실제 의료 현장에서는 의료진이 의료 영상 뿐만 아니라, 전자의무기록 (EMR), 환자와의 면담 등의 다양한 환자에 대한 추가적인 정보를 종합적으로 고려하여 판단합니다. 따라서, 저희는 환자의 추가 정보를 고려한 prompting을 진행함으로써 의료진의 판단 과정과 더욱 유사하게 만들었습니다. 물론, 성능 측면에서 많은 개선이 필요하겠지만, 이는 실제 의료 현장에서 의료진의 진단을 보조하는 역할로써의 적용 가능성을 보여줍니다.
### 3-4. Limitation
1. 자원 부족에 대한 한계
- 리소스 부족으로 인해 PromptMRG에서 새로운 다양한 구조를 실험하여 성능을 올리는 것이 어려웠습니다.
2. 프롬프트를 적용한 결과의 평가가 어려움
- 프롬프트를 적용한 결과를 평가할 수 있는 Ground Truth 정보가 존재하지 않기 때문에, 정성적 평가는 가능하지만 정량적 평가가 어렵습니다. 이로 인해 프롬프팅으로 인한 정보가 과도하게 해석되거나 왜곡된 경우를 판단하기가 어렵다는 한계점이 존재합니다.
## Reference
- PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation
[arxiv.org](https://arxiv.org/pdf/2308.12604)
Jin, H., Che, H., Lin, Y., & Chen, H. (2024, March). Promptmrg: Diagnosis-driven prompts for medical report generation. In *Proceedings of the AAAI Conference on Artificial Intelligence* (Vol. 38, No. 3, pp. 2607-2615).