I. 서론
수많은 학술적, 전문적 연구들은 기존의 연구를 공유함으로써 해당 연구분야의 발전을 가속화하고 새로운 연구를 통해 독창성과 정확성을 기술하여 논문으로 투고함으로써 연구의 발전에 이바지한다. 이렇게 논문을 통한 연구는 연구의 질을 향상시키는데 중요한 역할을 한다. 따라서 연구의 질을 평가하는 논문 심사는 공정성을 위해 저자의 정보를 가리는 싱글 블라인드 리뷰(single-blind review) 또는 저자의 정보와 심사위원의 정보를 모두 제거하여 심사에의 투명성을 보장하는 더블 블라인드 리뷰(double-blind review)를 통해 이루어진다.
하지만 저자의 정보를 숨기더라도 논문의 내용을 통해 저자를 식별하는 것이 가능하다. 개인마다 글을 작성하는데 자주 쓰는 용어나 표현이 있는데, 논문을 작성하는 경우에도 저자가 선호하는 표현뿐만 아니라 저자의 연구 분야가 논문에 출현하는 단어를 결정하면서 저자의 특성을 보이게 된다. 따라서 블라인드 리뷰를 수행한다고 해도 논문의 글을 분석하여 저자 식별이 가능하기 때문에 저자의 익명성을 보장할 수 없게 될 것이다.
본 논문에서는 논문 내에서 발생하는 단어를 수집하고 수집된 데이터를 바탕으로 인공신경망(artificial neural network)[1,2,3]을 이용하여 논문의 저자를 식별해내는 기술을 수행하고 그 결과에 대한 분석을 통해 기존 블라인드 리뷰의 한계점을 보임으로써 향후 더욱 안전한 블라인드 리뷰 시스템의 필요성을 보인다.
본 논문의 구성은 다음과 같다. 2장에서는 논문 저자 식별에의 관련 연구를 설명하였고, 3장에서는 본 논문의 주요 기술인 인공신경망의 기본적인 구성 및 수행 원리에 대하여 설명하였다. 4장에서는 실험에 사용된 데이터에 대한 분석을 진행하고 5장에서는 실제 논문 데이터를 바탕으로 저자 식별에 대한 실험 및 결과를 확인한다. 마지막으로 6장에서는 결론 및 향후 연구에 대해 기술하며 논문을 마친다.
II. 관련연구
논문의 저자를 식별하는 연구에 대한 선행 연구로는 몇몇 진행되어 왔다. Yankauer의 논문[4]에서는 더블 블라인드 리뷰를 진행하는 심사위원에게 저자와 소속을 설문을 통해 측정해 보았을 때, 자기인용(self-referencing)과 개인적 친분에 의해 저자를 식별 가능한 확률이 매우 높은 것을 확인할 수 있었다. 이는 설문을 통한 연구로, 저자 식별을 자동화하여 측정하지 못했다는 한계가 있다.
실험을 통한 저자 식별에의 관련 연구로는 Hill과 Provost[5]의 연구가 있는데, KDD Cup 2003 데이터를 사용하여 저자의 참고문헌 리스트를 사용한 저자 분석을 진행한 결과 20명의 저자에 대하여 최대 45%의 정확도를 보였다. Luyckx와 Daelemans[6]는 서포트 벡터 머신(support vector machine)과 최대 엔트로피(maximum entropy) 기법을 사용하여 20명의 저자에 대하여 76%의 정확도를 보였다. 본 논문에서는 저자 20명의 실제 논문들의 단어들만을 수집하여 인공신경망을 통한 실험 결과 71.25%의 정확도를 보였다.
본 논문에서는 위의 관련연구들과 마찬가지로 기계학습 기법을 사용한 실험을 수행하여 저자 식별의 가능성을 보이지만, 실제 데이터를 수집하고 텍스트 정보만을 사용하여 실험을 진행했을 뿐 아니라 상대적으로 속도가 빠르고 효율적인 학습을 수행하여 높은 정확도를 도출했다는데 그 차별성이 있다.
III. 인공신경망(Artificial Neural Network)
인공신경망은 인간의 뇌의 구조와 뇌에서 수행되는 뉴런의 정보처리 방식을 모방하기 위해 진행되고 있는 연구이다. 인공신경망은 생물학적 신경세포가 입력을 받아들여 받아들인 정보를 합하는 연산기능을 하는 뉴런과 뉴런에서 생성된 정보를 출력 강도에 따라 특정 방식으로 전달하는 시냅스, 그리고 전달받은 정보를 활용하는 연결 구조를 모방하여 정보의 처리를 수행한다. 따라서 인공신경망은 연산기능을 하는 인공뉴런의 설정, 연결 구조의 설정, 그리고 시냅스의 역할을 하는 학습방법으로 나뉘어 수행된다.
3.1 뉴런(neuron) 설정
가장 기본적인 연산기능을 수행하는 인공뉴런은 여러 개가 하나의 층(layer)을 이루게 된다. 뉴런의 구조를 나타내는 Fig.1.을 보면 하나의 인공뉴런은 n개의 입력(x1, x2, …, xn)에 대해서 연결 강도 (w1, w2, …, wn)에 따른 가중치를 곱하여 받아들인 값을 모두 합하여 가중합(\(u=\sum_{i=1}^{n} w_{i} x_{i}\))을 계산한다. 그리고 가중합은 다시 활성화 함수(activation function)를 통과하여 다음 뉴런으로의 전달 값을 결정한다.
Fig. 1. Structure of artificial neuron
인공신경망에서 자주 사용되는 활성화 함수는 계단 함수(step function), 시그모이드 함수(sigmoid function)과 하이퍼탄젠트 함수(hyper tangent function) 등이 있다. 본 논문에서는 미분 가능한 비선형 함수인 하이퍼탄젠트 함수를 사용한다. Fig.2.는 계단 함수, 시그모이드 함수[7], 하이퍼탄 젠트 함수의 그래프이다.
Fig. 2. Various activation function in artificial neural network: Step function (a), Sigmoid function (b), Hyper tangent function (c).
3.2 연결 구조
사용할 인공뉴런과 활성화 함수를 결정하였으면 다음으로는 각 뉴런의 연결 구조를 설정해야 한다. 본 실험에서는 대표적인 인공신경망 연결 구조인 다층 퍼셉트론(MLP, Multi-Layer Perceptron)을 사용한다. 다층 퍼셉트론의 구조는 Fig.3.과 같이 입력층(input layer)과 출력층(output layer) 사이에 하나 이상의 은닉층(hidden layer)을 가지는 연결구조이다.
Fig. 3. Structure of multi-layer perceptron consist of single hidden layer.
Fig.3.에는 입력뉴런의 값을 xi(i=1, …, n), 은닉 뉴런의 출력 값을 zj(j=1, …, m), 출력뉴런의 출력 값을 yk(k=1, …, M)로 두고 입력뉴런 xi에서 은닉뉴런 zj로의 연결 가중치를 wij, 은닉뉴런과 출력뉴런 yk로의 연결 가중치를 ujk라고 두었다. 또한 w0j와 u0k는 각각 은닉뉴런과 출력뉴런으로의 바이어스 입력 가중치를 나타낸다. Φh는 입력층에서 은닉층으로의 활성화함수를 나타내고 Φ0는 은닉층에서 출력층으로의 활성화함수를 나타낸다.
3.3 연결 구조
인공신경망의 성능을 좌우하는 가장 중요한 역할은 학습 단계이다. 설정된 연결 구조를 바탕으로 어떤 방법으로 학습을 시키는지에 따라 결과 값이 달라지기 때문이다. 본 실험에서는 인공신경망의 학습을 위해 오류역전파 학습 알고리즘(error backpropagation algorithm)[8]을 사용하여 학습을 진행하였다.
오류역전파 학습 알고리즘은 기울기 강하학습법(gradient descent learning method)을 다층퍼셉트론에 적용하여 알고리즘화 한 학습방법으로, 어떤 시점 τ에서의 파라미터 θ(τ)에서 주변 정보를 바탕으로 오차 E(θ)를 계산하고 다음 시점 (τ+1)에서 그 오차를 감소시킬 수 있는 방향을 찾아가는 방법을 반복함으로써 오차율을 감소시키는 학습 방법이다. Fig.4.는 오차 접선의 기울기를 줄여가는 기울기 강하학습법을 나타낸다.
Fig. 4. Gradient descent learning method
본 실험에서는 오류역전파 학습 알고리즘을 사용하여 가중치 Wij와 Ujk를 반복적으로 수정한다. 가중치 수정식은 (1),(2)와 같다.
\(w_{i j}{ }^{(\tau+1)}=w_{i j}{ }^{(\tau)}-\eta \frac{\partial E}{\partial w_{i j}}\) (1)
\(v_{j k}^{(\tau+1)}=v_{j k}^{(\tau)}-\eta \frac{\partial E}{\partial v_{j k}}\) (2)
IV. 데이터 분석
4.1 실험 데이터 설정
4.1.1 데이터 수집
본 실험에서는 보안분야의 저명학회 S&P, ACMCCS, NDSS의 위원 중 20명을 임의로 선정하여 제 1저자로 작성한 총 315편의 논문에 대하여 실습하였다.
실험은 저자별 논문 2편씩 총 40편의 논문을 랜덤하게 선택하여 테스트집합(test set)으로 설정하고 나머지 275편의 논문을 학습집합(training set)으로 설정하는 방식을 각각 10번씩 수행하여 결과에 대한 평균을 저자 식별에 대한 정확도를 측정하였다.
Table 1.은 선정된 저자의 연구분야를 ‘Google scholar’에서 수집한 정보이다. 표시된 바와 같이 20명의 저자들은 모두 보안분야를 연구하고 있고, 보안 분야 중에서도 서로 유사한 분야의 연구를 하는 저자도 존재하는 것을 확인할 수 있다. 또한 저자들 중에서는 공저자를 한 이력이 있는 저자도 존재하기 때문에 유사한 연구분야의 저자에 대해서도 저자 식별을 통한 blind review 우회가 가능하다는 것을 보일 수 있다.
Table 1. Fields of 20 authors used in experiment
4.1.2 데이터 전처리 및 특징 추출
정확한 논문 저자 식별 실험을 위해서는 논문에서 필요한 부분만 추출하는 데이터 정제와 특징 추출 작업이 선행되어야 한다. 따라서 본 실험에서는 사용할 데이터의 저자의 정보를 제거한 논문의 서론과 참고문헌 사이의 텍스트만을 추출하여 순수하게 논문의 내용을 사용하여 분석하였다. 추출된 텍스트에서 가용 단어만을 추출하기 위해서 조사와 관사 등의 불용어와 접속사 등을 제거하고 모든 논문의 단어를 뽑아 배열로 추출한 다음, 각 논문에서 발생하는 단어의 빈도를 측정하였다. 수집된 논문의 길이가 다르기 때문에 각 논문에서 발생하는 단어의 빈도를 정규화할 필요가 있는데, 본 논문에서는 정보검색(information retrieval)과 텍스트마이닝 분야에서 단어의 가중치를 구하는 방법인 TF-IDF(Term Frequency-Inverse Document Frequency)를 인공신경망의 입력 값으로 사용함으로써 분류의 정확도를 높였다. TF-IDF는 특정 단어가 하나의 문서에서 얼마나 많이 등장하는지에 대한 측정인 tf값(수식 3)과 전체 문서에서 특정 단어의 희귀성을 나타내는 idf값(수식 4)의 곱으로 측정한다. 즉, TF-IDF 값를 통해 특정 단어의 영향도 파악이 가능하게된다. 수식 (3)에서 f(t,d)는 문서에서 발생한 단어의 빈도를 의미하고,|{t:t∈d}|는 하나의 문서 d 내에서 발생하는 단어의 수를 나타낸다. 또한 수식 (4)에서|D|는 문서의 개수를 의미하고 |{d∈D: t∈d}|는 단어 t가 발생하는 문서의 개수를 의미한다.
\(t f(t, d)=\frac{f(t, d)}{|\{t: t \in d\}|}\) (3)
\(i d f(t, d, D)=\log \left(\frac{|D|}{|\{d \in D: t \in d\}|}\right)\) (4)
본 논문에서는 측정한 TF-IDF값에 1000배를 곱한 값을 원소로 가지는 term-document 행렬을 생성하여 인공신경망의 입력 값으로 사용하였다. 또한 차원의 감소 및 효율성 증가를 위하여 임계치(threshold)를 변경시키며 임계치 이상의 값을 가지는 단어의 특징만을 선택하는 방식을 사용하여 학습을 진행하였다.
4.2 저자 패턴 분석
인공신경망을 통해 저자를 파악하기에 앞서, 전처리가 완료된 데이터를 시각화하여 저자 별 단어 분포 패턴으로부터 저자 파악 가능 여부를 확인해보았다. 저자 별 단어패턴을 파악하기 위해서 Fig.5.의 진한 파란선과 같이 20명의 저자 별 단어 분포를 1차원 가우시안 필터[9]를 이용하여 시각화한 그래프이다. 본 연구에서 사용한 가우시안 필터는 논문 315편에서 발생한 총 21,549개의 단어에 대하여 윈도 사이즈(window size)를 300으로 설정하여 필터링을 수행하였다. 그리고 수집된 저자 별 논문 중 하나씩을 랜덤하게 선택하여 단어의 빈도를 초록색 선으로 그려본 결과, 저자마다 단어 패턴이 존재함을 확인할 수 있었다.
Fig. 5. Comparison between author pattern and term frequency of paper: Thick blue line in each graph represents the author’s pattern and green line is the term frequency of an author’s random paper.
하지만 Fig.5.처럼 시각화 그래프만을 통해서 검증 집합의 특정 논문이 누구의 논문인지 파악하는 것에는 한계가 있다. 따라서 본 논문에서는 논문 내에서 발생하는 단어를 사용하여 인공신경망을 구성함으로써 보다 정확한 인공신경망 시스템을 구축하여 실험을 진행하였다.
V. 실험 및 결과
5.1 실험
본 실험은 오류역전파 학습 알고리즘을 사용하는 다층 퍼셉트론의 인공신경망을 사용하여 실험을 진행되었다. 추출된 모든 단어의 TF-IDF 값와 바이어스 입력 가중치를 입력층에 삽입되는 입력 값으로 설정하였고, 입력층에서 은닉층으로의 활성화함수와 은닉층에서 출력층으로의 활성화함수는 하이퍼탄젠트 함수를 사용하였다. 또한 출력층에서 출력되는 결과로는 저자에 대한 분류를 수행하도록 하였다. 실험 집합을 통한 학습으로는 오류역전파 학습 알고리즘을 사용하여 실습을 진행하였다, 또한 본 실험에서는 정확도 측정을 위해 은닉층의 노드 개수를 10, 20, 30, 40으로, TF-IDF 임계치를 0에서 0.01까지 0.001씩 증가시키며 실습을 진행하였다.
정확한 실험을 위하여 본 실험에서는 저자 20명이 제 1저자로 작성한 논문데이터 총 315편을 수집하고 통계 분석 프로그램 R의 텍스트마이닝 패키지를 활용하여 저자정보를 제외한 텍스트를 추출하였다. 또한 Cornell 대학에서 정보 검색 시스템을 위한 실험 “SMART”에서 Gerard Salton과 Chris Buckley에 의해 만들어진 571개의 불용어 리스트인 ‘smart stopword list’를 사용하여 불용어를 제거하였다. 추출된 텍스트 정보에서 불용어를 제거하고 가용 단어를 추출한 결과, 315편의 논문에서 발생하는 21,549개의 단어의 출현 빈도를 임계치 변화에 따라 입력층의 입력 값으로 선택하고 20명의 저자에 대한 논문을 분류하는 출력층을 설정하였다.
5.2 실험 결과
실험은 저자 별 논문을 2편씩 총 40편의 논문을 테스트집합으로 랜덤하게 선택하고 나머지 275편의 논문을 학습집합으로 사용하는 방식으로 10회 수행하여 정확도 및 F1 score의 평균을 구하여 실험에 대한 결과를 측정하였다.
실험을 10회 수행할 때마다 저자 별로 true positive(TP), false positive(TP), false negative(FN), true negative(TN) 값이 생성되는데, 본 실험에서는 결과에 대한 분석을 위하여 정확도(accuracy)와 F1 score를 모두 측정하여 분석하였다. 정확도와 F1 score 측정 식은 수식(5), (6)과 같다.
\(\text { Accuracy }=\frac{T P+T N}{T P+F N+F P+T N}\) (5)
\(F 1 \text { score }=\frac{2^{*} T P}{2^{*} T P+F P+F N}\) (6)
은닉노드의 개수와 임계치를 수정하며 실험을 진행한 결과는 Fig.6.과 Fig.7.과 같다. Fig.6.은 정확도에 대한 결과 값이고, Fig.7.은 F1 score에 대한 결과 값이다. 두 그래프의 x축은 임계치에 대한 변화를 나타내고 주황색 선은 10개의 은닉노드를 사용하여 학습을 진행한 결과이고, 노란색 선은 20개의 은닉노드, 초록색과 갈색 선은 각각 30, 40개의 은닉노드를 사용하여 학습을 진행한 결과이다. 은닉층의 노드 개수를 10으로 설정한 경우, 정확도가 현저히 떨어지는 것을 확인할 수 있었고, 20개 이상일 경우 대부분 65%~72% 사이의 정확도를 가지게 되므로 속도의 효율성을 위해 은닉층 노드를 20개로 설정하는 것이 적절하다. 인공신경망을 사용하여 저자를 분석한 결과 20개의 은닉 노드를 가진 구조에서 임계치를 0.005으로 설정했을 때 71.25%로 가장 높은 정확도를 보였고, 임계치를 0.004로 설정했을 때 70.58%로 가장 높은 F1 score를 확인할 수 있었다.
Fig. 6. Accuracy comparison for different threshold hidden layers: The x-axis shows the threshold and Y-axis shows an accuracy of the classification.
Fig. 7. F1 score comparison for different threshold hidden layers: The x-axis shows the threshold and Y-axis shows an F1 score of the classification.
Table 2.는 임계치 0.005와 은닉노드 20개를 사용했을 때 가장 높은 정확도를 보인 결과에 대한 실제 데이터와 예측 데이터를 나타낸 표이다. Table 2.에서 저자 별로 FP와 FN의 합이 높은 저자들을 추출해보았다. 저자 F와 저자 E의 경우 FP와 FN의 합이 총 6편으로 서로에 대한 논문을 구분해 내는 것이 어렵다는 것을 확인하였고, Table 1.의 연구분야를 미루어 보았을 때, 저자 E와 F는 모두 보안분야 중에서도 프라이버시 연구를 진행하기 때문에 구분이 어려운 것으로 확인되었다.
Table 2. The result of prediction with 20 hidden layer nodes and threshold 0.005
본 실험을 통해 저자의 정보를 제외한 논문내용만을 사용하여 어느 정도 저자 식별이 가능하다는 것을 알 수 있었다. 또한 공통분야를 가지는 저자들을 분류하는 것을 통하여 텍스트의 저자 식별 가능성을 확인 할 수 있었다.
VI. 결론 및 향후 연구 계획
우리는 실험을 통해 논문에 나타나는 단어만을 사용하여 저자를 예측해냄으로써 블라인드 리뷰 시스템 우회 가능성을 확인하였다. 이는 현재 사용하고 있는 블라인드 리뷰 시스템의 문제점을 보여준다. 이처럼 논문 심사에서 저자의 정보가 유출된다면 논문을 심사하는 심사위원에게 이해의 충돌(conflict of interest)의 여지가 생겨 공정한 심사를 방해하는 요소로 작용할 수 있다. 따라서 보다 공정한 논문 심사를 위해서는 단순히 저자와 심사위원의 정보를 숨기는 형식의 리뷰 시스템이 아니라 저자가 논문을 제출했을 때, 저자와 가장 이해관계가 적은 심사위원을 선택하여 연결시켜주는 안전한 시스템이 필요할 것으로 예상된다.
본 논문의 향후 연구로는 해당 저자 분석 시스템의 고도화뿐만 아니라 소셜 네트워크 및 공동저자 정보 등을 이용하여 저자 사이의 이해관계 분석[10]을 통하여 논문 제출 시 시스템에서 자동적으로 저자의 식별과 이해관계가 가장 낮은 심사위원을 선정하는 안전한 시스템에 대한 연구를 진행할 예정이다.
References
- Jain, Anil K., Jianchang Mao, and K. Moidin Mohiuddin, "Artificial neural networks: A tutorial," IEEE computer, vol. 29, no. 3, pp. 31-44, Mar. 1996.
- Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer-Verlag New York, 2006.
- Hye-Yong Park and Kwan-Yong Lee, Pattern recognition and Machine learning, EHAN, Mar. 2011.
- Yankauer, Alfred, "How blind is blind review?," American Journal of Public Health, vol. 81, no. 7, pp.843-845, Jul. 1991. https://doi.org/10.2105/AJPH.81.7.843
- Hill, Shawndra and Foster Provost, "The myth of the double-blind review?: author identification using only citations," ACM SIGKDD Explorations Newsletter, vol. 5, no. 2, pp. 179-184, Dec. 2003. https://doi.org/10.1145/980972.981001
- Luyckx, Kim and Walter Daelemans, "Authorship attribution and verification with many authors and limited data," Proceedings of the 22nd International Conference on Computational Linguistics, vol. 1, pp. 513-520, Aug. 2008.
- Cybenko, George, "Approximation by superpositions of a sigmoidal function," Mathematics of control, signals and systems, vol. 2, no. 4, pp. 303-314, Dec. 1989. https://doi.org/10.1007/BF02551274
- Hecht-Nielsen, Robert, "Theory of the backpropagation neural network," Neural Networks, 1989. IJCNN., International Joint Conference on. IEEE, vol. 1, no. 1, pp. 593-605, Feb. 1989.
- Doucet, Arnaud and Adam M. Johansen, "A tutorial on particle filtering and smoothing: Fifteen years later," Handbook of nonlinear filtering, vol. 12, no. 3, pp. 656-704, Dec. 2008.
- Aleman-Meza, Boanerges, et al, "Semantic analytics on social networks: experiences in addressing the problem of conflict of interest detection," Proceedings of the 15th international conference on World Wide Web. ACM, pp. 407-416, May. 2006.