Promptriever

논문의 아이디어

논문의 해결 방법

결과 요약

Query Capabilites of Retrievers

Pasted image 20250515132123.png

훈련 데이터셋 생성

Pasted image 20250515132644.png

두 가지의 파트로 나눠진다.
첫 째로, 주어진 쿼리와 단락으로부터 Instruction을 생성하는 부분
두번 째로, instruction-negative 단락을 생성하는 부분

1. Instruction 생성

기본적으로, 쿼리와 그 쿼리와 관련된 단락을 제공하고 Instruction을 생성하도록 하였다.
이 때, 단순한 Instruction이 아닌, 특정 조건을 추가하여 단 하나의 positive 단락만 관련이 있도록 하는 식으로 Instruction을 생성하도록 하였다. 그렇게 하면 어떤 조건을 제시하는 Instruction을 주로 생성하게 된다.

다양한 결과를 내기 위하여, instruction의 길이와 스타일을 여러개로 지정하여 다양한 instruction을 생성하도록 했다.

2. Instruction-negative 단락 생성

앞에서 언급했듯이, instruction-negative 단락이란 원래 쿼리와는 연관이 있는 단락이지만, 추가된 instruction에 의하여 관련이 없어진 단락이다. 즉, instruction이 제시한 조건에 부합하지 않아 관련이 사라진 단락이라 할 수 있겠다.

이러한 단락이 필요한 이유는, 이런 단락이 없다면 instruction이 추가되던 안 추가되던 정답을 맞추기 위해서는 그냥 query만 보면 그만이기 때문이다.

기존 corpus에서 이러한 instruction-negative 단락을 찾는 것은 힘들었기 때문에, gpt-4o 모델을 이용하여 그러한 단락을 생성하여 훈련 corpus에 포함시켰다. 이후 필터링 과정도 거쳤는데, 사람과 LLM의 필터링 실력이 유사하였다.

모델 훈련!

모델은 RepLLaMA - Fine-Tuning LLaMA for Multi-Stage Text Retrieval 논문의 RepLLaMA 훈련 방식을 똑같이 따라갔다. 정확한 비교를 위해 하이퍼파라미터도 똑같이 설정해서 훈련했다고 한다.
단지 데이터만 위에서 생성한 데이터를 쓴것이다.
간단하게, query마다 다른 instruction을 포함해 훈련했다~ 가 되겠다.

논문에서는, 이렇게 데이터를 구성해서, backbone LLM의 instruction을 따르는 능력을 유지하면서 retriever용으로 훈련시킬 수 있었다고 한다.

실험 결과

Instruction을 따라야 하는 retrieval 태스크

Pasted image 20250515134509.png

일반 retrieval 태스크

Pasted image 20250515134723.png

프롬프트 엔지니어링을 사용한 경우

Pasted image 20250515134812.png

BM25와 RepLLaMA에서는 프롬프트를 사용하자 오히려 평균 성능이 떨어졌다. 반면에 본 연구의 모델은 성능이 +1.4퍼센트 포인트 올라간 것을 볼 수 있다.