• 제목/요약/키워드: Recall and Precision

검색결과 705건 처리시간 0.023초

분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할 방법 (Passage Retrieval based on Tracing Topic Continuity and Transition by Using Field-Associated Term)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 복수의 화제가 혼합되어 있는 문서에서 각 화제의 경계부분을 구분하여 결정하는 기술을 단락분할이라 한다. 이 기술은 정보검색의 분야에만 한정되지 않고 다양한 분야에서 중요한 역할을 담당할 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어란 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야별로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 일본어 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있었고, 한국어에 적용하여도 좋을 것으로 예상한다.

수도 레이블을 활용한 준지도 학습 기반의 도로노면 파손 탐지 (Road Surface Damage Detection Based on Semi-supervised Learning Using Pseudo Labels)

  • 전찬준;류승기
    • 한국ITS학회 논문지
    • /
    • 제18권4호
    • /
    • pp.71-79
    • /
    • 2019
  • 의미론적 분할 형태로 합성곱 신경망을 구성하여 도로노면의 파손을 탐지하는 연구가 진행되고 있다. 이러한 합성곱 신경망 형태의 모델을 생성하기 위해서는 입력 이미지와 이에 상응한 레이블된 이미지 데이터셋으로 수집해야 하고, 이러한 과정에서는 굉장히 많은 시간과 비용이 발생하게 된다. 본 논문에서는 이러한 작업을 완화하기 위하여 수도 레이블링을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술을 제안하고자 한다. 레이블된 데이터셋과 레이블되지 않은 데이터셋을 적절하게 혼합하여 도로노면 파손을 탐지하는 모델을 업데이트하고, 이를 레이블된 데이터셋만을 활용한 기존 모델과 성능을 비교한다. 주관적인 성능결과, 민감도 부분에서는 조금 저하된 성능을 보였지만, 정밀도 부분에서는 대폭 성능 향상이 있었으며, 최종적으로 $F_1-score$ 또한 높은 수치로 평가되었다.

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법 (Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2021
  • 본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

인공 지능을 이용한 흉부 엑스레이 이미지에서의 이물질 검출 (Detecting Foreign Objects in Chest X-Ray Images using Artificial Intelligence)

  • 한창화
    • 한국방사선학회논문지
    • /
    • 제17권6호
    • /
    • pp.873-879
    • /
    • 2023
  • 본 연구는 인공지능(AI)을 사용하여 흉부 엑스레이 이미지에서 이물질을 탐지하는 방법을 탐구하였다. 의료영상학, 특히 흉부 엑스레이는 폐렴이나 폐암과 같은 질병을 진단하는 데 매우 중요한 역할을 한다. 영상의학 검사가 증가함에 따라 AI는 효율적이고 빠른 진단을 위한 중요한 도구가 되었다. 하지만 이미지에는 단추나 브래지어 와이어와 같은 일상적인 장신구를 포함한 이물질이 포함될 수 있어 정확한 판독을 방해할 수 있다. 본 연구에서는 이러한 이물질을 정확하게 식별하는 AI 알고리즘을 개발하였고, 미국 국립보건원 흉부 엑스레이 데이터셋을 가공하여 YOLOv8 모델을 기반으로 처리하였다. 그 결과 정확도, 정밀도, 리콜, F1-score가 모두 0.91에 가까울 정도로 높은 탐지 성능을 보였다. 이번 연구는 AI의 뛰어난 성능에도 불구하고 이미지 내 이물질로 인해 판독 결과가 왜곡될 수 있는 문제점을 해결함으로써 영상의학 분야에서 AI의 혁신적인 역할과 함께, 임상 구현에 필수적인 정확성에 기반하여 신뢰성을 강조하였다.

머신러닝을 이용한 지하철 고장 탐지 및 예측 (Detection and Prediction of Subway Failure using Machine Learning)

  • 성국경
    • 산업과 과학
    • /
    • 제2권4호
    • /
    • pp.11-16
    • /
    • 2023
  • 지하철은 현대 도시의 교통 체계에서 중요한 역할을 하는 대중 교통 수단이다. 하지만, 갑작스런 고장 및 시스템 불통 등의 이유로 혼잡을 야기시키는 경우가 종종 발생하여 불편을 초래하고 있다. 따라서, 본 논문에서는 지하철 시스템의 효율적 운영을 위해 머신러닝을 활용한 고장 예측 및 예방 연구를 진행하였다. UC Irvine의 MetroPT-3 데이터셋을 활용하고, 로지스틱 회귀를 이용하여 지하철 고장 예측 모델을 구축하였다. 모델은 0.991의 높은 정확도로 비고장 상태를 예측하나, 정밀도와 재현율은 상대적으로 낮아 고장 예측에 있어 오류 가능성을 시사하고 있다. ROC_AUC 값이 0.901로, 모델이 무작위 추측보다 뛰어난 분류를 할 수 있다. 구축한 모델은 지하철 시스템의 안정적인 운영 운영에 유용하나, 성능 개선을 위한 추가 연구가 필요하다고 생각한다. 따라서 학습 데이터가 많고 데이터의 정제가 잘 이루어진다면 고장 예측을 통해 사전 점검을 하여 예방할 수 있다.

Fashion Category Oversampling Automation System

  • Minsun Yeu;Do Hyeok Yoo;SuJin Bak
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.31-40
    • /
    • 2024
  • 국내 온라인 패션 플랫폼은 개인사업자가 제품정보를 직접 등록하기 때문에 개인사업자의 불편함을 초래한다. 많은 제품군을 한꺼번에 수동 등록하므로 수기 입력된 제품정보로 인한 신뢰성 문제가 발생한다. 등록된 상품 이미지의 저품질 및 데이터 수의 불균형으로 인한 편향도 심각하게 제기된다. 본 연구는 오버샘플링 기법을 통해 데이터 편향을 최소화하고 13개 패션 카테고리의 다중 분류를 수행하는 ResNet50 모델을 제안한다. 컴퓨팅 자원과 오랜 학습시간을 최소화하기 위해 전이학습을 활용했다. 결과적으로, 데이터 수가 매우 부족했던 클래스의 데이터 증강을 통해 기본 CNN 모델에 비해 최대 33.4%의 향상된 식별력을 보여주었다. 모든 결과의 신뢰성은 정밀도-재현율 곡선으로 보장한다. 본 연구는 국내 온라인 패션 플랫폼 산업의 발전을 한 단계 끌어올릴 수 있을 것으로 기대한다.

유사도 알고리즘을 활용한 시맨틱 프로세스 검색방안 (Semantic Process Retrieval with Similarity Algorithms)

  • 이홍주
    • Asia pacific journal of information systems
    • /
    • 제18권1호
    • /
    • pp.79-96
    • /
    • 2008
  • One of the roles of the Semantic Web services is to execute dynamic intra-organizational services including the integration and interoperation of business processes. Since different organizations design their processes differently, the retrieval of similar semantic business processes is necessary in order to support inter-organizational collaborations. Most approaches for finding services that have certain features and support certain business processes have relied on some type of logical reasoning and exact matching. This paper presents our approach of using imprecise matching for expanding results from an exact matching engine to query the OWL(Web Ontology Language) MIT Process Handbook. MIT Process Handbook is an electronic repository of best-practice business processes. The Handbook is intended to help people: (1) redesigning organizational processes, (2) inventing new processes, and (3) sharing ideas about organizational practices. In order to use the MIT Process Handbook for process retrieval experiments, we had to export it into an OWL-based format. We model the Process Handbook meta-model in OWL and export the processes in the Handbook as instances of the meta-model. Next, we need to find a sizable number of queries and their corresponding correct answers in the Process Handbook. Many previous studies devised artificial dataset composed of randomly generated numbers without real meaning and used subjective ratings for correct answers and similarity values between processes. To generate a semantic-preserving test data set, we create 20 variants for each target process that are syntactically different but semantically equivalent using mutation operators. These variants represent the correct answers of the target process. We devise diverse similarity algorithms based on values of process attributes and structures of business processes. We use simple similarity algorithms for text retrieval such as TF-IDF and Levenshtein edit distance to devise our approaches, and utilize tree edit distance measure because semantic processes are appeared to have a graph structure. Also, we design similarity algorithms considering similarity of process structure such as part process, goal, and exception. Since we can identify relationships between semantic process and its subcomponents, this information can be utilized for calculating similarities between processes. Dice's coefficient and Jaccard similarity measures are utilized to calculate portion of overlaps between processes in diverse ways. We perform retrieval experiments to compare the performance of the devised similarity algorithms. We measure the retrieval performance in terms of precision, recall and F measure? the harmonic mean of precision and recall. The tree edit distance shows the poorest performance in terms of all measures. TF-IDF and the method incorporating TF-IDF measure and Levenshtein edit distance show better performances than other devised methods. These two measures are focused on similarity between name and descriptions of process. In addition, we calculate rank correlation coefficient, Kendall's tau b, between the number of process mutations and ranking of similarity values among the mutation sets. In this experiment, similarity measures based on process structure, such as Dice's, Jaccard, and derivatives of these measures, show greater coefficient than measures based on values of process attributes. However, the Lev-TFIDF-JaccardAll measure considering process structure and attributes' values together shows reasonably better performances in these two experiments. For retrieving semantic process, we can think that it's better to consider diverse aspects of process similarity such as process structure and values of process attributes. We generate semantic process data and its dataset for retrieval experiment from MIT Process Handbook repository. We suggest imprecise query algorithms that expand retrieval results from exact matching engine such as SPARQL, and compare the retrieval performances of the similarity algorithms. For the limitations and future work, we need to perform experiments with other dataset from other domain. And, since there are many similarity values from diverse measures, we may find better ways to identify relevant processes by applying these values simultaneously.

디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법 (Semantics Environment for U-health Service driven Naive Bayesian Filtering for Personalized Service Recommendation Method in Digital TV)

  • 김재권;이영호;김종훈;박동균;강운구
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.81-90
    • /
    • 2012
  • 디지털 TV에서 시멘틱 환경의 유헬스 개인화 서비스 추천은 개인의 신체조건, 질병, 건강상태를 평가해서 이루어져야 한다. 기존의 시멘틱 환경의 유헬스 개인화 추천 방법은 온톨로지에 의존하여 의미 분석으로 추천을 하기 때문에 사용자 만족도가 떨어진다. 이에 본 논문에서는 디지털 TV에서 시멘틱 환경의 유헬스 서비스를 위한 나이브 베이지안 필터링 기반 개인화 서비스 추천 방법을 제안한다. 제안하는 방법은 온톨로지를 이용하여 상황데이터를 추론하여 트렌젝션을 저장 하고, 선호도 정보를 이용한 나이브 베이지안 필터링 기법을 사용하여 온톨로지로부터 생성된 트렌젝션과 사용자 선호도 정보를 이용하여 추론하여 서비스를 제공한다. 나이브 베이지안 필터링 기반으로 추론된 서비스는 기존의 필터링 방법 보다 콘텐츠 추천의 높은 정확도와 재현율을 보인다.

이종의 공간 데이터 셋에서 매칭 객체 판별을 위한 임계값 산출 (Calculation of a Threshold for Decision of Similar Features in Different Spatial Data Sets)

  • 김지영;허용;유기윤;김정옥
    • 한국측량학회지
    • /
    • 제31권1호
    • /
    • pp.23-28
    • /
    • 2013
  • 이종의 공간 데이터 셋을 매칭하는 과정은 매칭 또는 비 매칭의 이진 클래스로 판별하는 과정과 비슷하다. 이에 이진 클래스의 판별이 중요한 연구주제인 바이오인식 분야에서 임계값을 구하는데 이용되는 동일 오류율을 공간 데이터 셋의 매칭에 적용하여 임계값을 산출하였다. 매칭유무를 판별하는 과정에서 임계값이 계속 바뀌면 매칭으로 판별되는 객체 쌍이 상이해지면서 정확도와 재현율도 바뀌게 되며, 이들 지표 사이에 trade-off가 나타나는 지점이 EER, 즉 임계값이 된다. 동일 오류율 기반의 임계값 산출 방법을 훈련 자료에 적용하여 형상유사도 0.802가 임계값으로 구해졌다. 이를 실험 자료에 적용한 결과, 매칭의 성능을 평가하는 척도인 F-measure가 0.940으로 높게 나타났다. 이를 통하여 동일 오류율을 이용하여 연구자의 개입이 없이 정확한 임계값이 산출되고, 동일 오류율 기반의 임계값 산출이 이종의 공간 데이터 셋 매칭에 적합하다는 것을 알 수 있었다.

클래스 특성 기계학습에 기반한 클래스 이름의 접미사 검증 기법 (Validation Technique for Class Name Postfixes Based on the Machine Learning of Class Properties)

  • 이홍석;이준하;이일로;박수진;박수용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권6호
    • /
    • pp.247-252
    • /
    • 2015
  • 소프트웨어의 규모가 커지고 복잡성이 증가함에 따라 소프트웨어의 유지보수가 보다 중요해지고 있으며 유지보수성에 많은 영향을 미치는 요인 중 하나는 소스코드 가독성이다. 가독성의 90% 이상 영향을 끼치는 요인은 소스코드에서 사용되는 식별자들의 이름이며 이를 위한 기존 연구들에서는 클래스의 식별자로 사용된 어휘를 이용하여 식별자의 이름을 검증한다. 하지만 대부분의 관련 연구는 그 특성상 개체의 도메인 관련 특성만을 고려하게 되며 클래스 내의 어휘가 적절하지 못한 경우 적용할 수 있는 범위가 한정적이라는 한계점이 있다. 본 논문에서는 클래스의 특성을 추출하여 의사결정트리 기법을 통해 기계학습을 시킨 후 클래스 역할 모델을 생성하며 이를 이용하여 이름을 검증할 대상 클래스의 역할에 해당하는 접미사를 추천하게 되어 클래스 이름 검증 보고서를 생성한다. 본 연구 기법의 효용성을 검증하기 위해 4개의 오픈소스 프로젝트에 대하여 본 연구 기법을 적용하였고 클래스 역할 정보를 담고 있는 5개의 접미사에 대해 정확도와 재현율, ROC 곡선과 같은 지표를 제시하였다.