• 제목/요약/키워드: multiple language document

검색결과 23건 처리시간 0.022초

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

제한적 문맥 인식과 다중 스트림을 기반으로 한 숫자 정정 OCR 모델의 설계 및 구현 (Design and Implementation of OCR Correction Model for Numeric Digits based on a Context Sensitive and Multiple Streams)

  • 신현경
    • 정보처리학회논문지D
    • /
    • 제18D권1호
    • /
    • pp.67-80
    • /
    • 2011
  • 재무 데이터 관리를 위한 자동화된 비지니스 서류 영상 처리 시스템에서 숫자 정보 검색 중 발생한 오류는 심각하여 그 시스템의 가용성 및 성능을 결정한다. 그 동안 자동 맞춤법 교정에 관한 방법론들이 개발되어 정보 검색 시스템 개발에 중요한 역할을 해왔으나 이러한 맞춤법 교정은 알파벳 등 기계학습이 가능하고 사전 형태로 보관이 가능한 기호에 한정되어왔다. 반면에 순수한 마코프 수열에 불과한 숫자들의 순열들은 맞춤법 교정을 위하여 사전적 형태로 보관하여 활용하는 것이 불가능 하다. 본 논문에서는 확률론적 정보 검색 알고리즘의 토대위에 제한적 문맥 인식과 복수의 스트림을 적용한 새로운 형태의 숫자 정정 OCR 모델을 제안하였다. 본 논문에서 제안된 숫자 정정 모델은 기존의 송장 문서 처리 시스템에 구현하였으며 제안된 숫자 정정 모델의 효과를 확인하기 위해 비교 테스트를 실행하였고 테스트 결과 상당한 성능이 개선되었음을 보여 주었다.

창덕궁 담에 접한 자생주거지에 관한 연구 - 원서동 무허가 94번지의 실측 및 개선 안 기초연구 - (A Field Survey of Idiosyncratic Dwelling Space attached to Chang-Duk Palace's West Fence)

  • 윤숙희;정진원
    • 한국주거학회논문집
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • The purpose of this research is to document and analyse spatial transformation of an unauthorized dwelling units on a peculiar site of Seoul. It's physically attached to the behind part of the west boundary wall of Chang-Duk Palace. These dwelling units took not only the site, the narrow street which had been a stream, but also the two parallel walls of others for their home. The two walls, one from the palace wall and the other from the wall of a house which distanced itself from the palace wall about 3.5 m for the reason of the Cultural Properties Protection Law, have been held as the main structural members in forming the shelter. With examining the realm of time which provide the base of the spatial realm, this research shows how the multiple linkages tangled in an illegal shack did gain and actualize an architectural language of idiosyncrasy with spontaneous order inherent in inhabitants.

머신러닝 기법을 이용한 한국어 보이스피싱 텍스트 분류 성능 분석 (Korean Voice Phishing Text Classification Performance Analysis Using Machine Learning Techniques)

  • 무사부부수구밀란두키스;진상윤;장대호;박동주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.297-299
    • /
    • 2021
  • Text classification is one of the popular tasks in Natural Language Processing (NLP) used to classify text or document applications such as sentiment analysis and email filtering. Nowadays, state-of-the-art (SOTA) Machine Learning (ML) and Deep Learning (DL) algorithms are the core engine used to perform these classification tasks with high accuracy, and they show satisfying results. This paper conducts a benchmarking performance's analysis of multiple SOTA algorithms on the first known labeled Korean voice phishing dataset called KorCCVi. Experimental results reveal performed on a test set of 366 samples reveal which algorithm performs the best considering the training time and metrics such as accuracy and F1 score.

자기 지도 학습 기반의 언어 모델을 활용한 다출처 정보 통합 프레임워크 (Multi-source information integration framework using self-supervised learning-based language model)

  • 김한민;이정빈;박규동;손미애
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.141-150
    • /
    • 2021
  • 인공지능(Artificial Intelligence) 기술을 활용하여 인공지능 기반의 전쟁 (AI-enabled warfare)가 미래전의 핵심이 될 것으로 예상한다. 자연어 처리 기술은 이러한 AI 기술의 핵심 기술로 지휘관 및 참모들이 자연어로 작성된 보고서, 정보 및 첩보를 일일이 열어확인하는 부담을 줄이는데 획기적으로 기여할 수 있다. 본 논문에서는 지휘관 및 참모의 정보 처리 부담을 줄이고 신속한 지휘결심을 지원하기 위해 언어 모델 기반의 다출처 정보 통합 (Language model-based Multi-source Information Integration, LAMII) 프레임워크를 제안한다. 제안된 LAMII 프레임워크는 자기지도 학습법을 활용한 언어 모델에 기반한 표현학습과 오토인코더를 활용한 문서 통합의 핵심 단계로 구성되어 있다. 첫 번째 단계에서는, 자기지도 학습 기법을 활용하여 구조적으로 이질적인 두 문장간의 유사 관계를 식별할 수 있는 표현학습을 수행한다. 두 번째 단계에서는, 앞서 학습된 모델을 활용하여 다출처로부터 비슷한 내용 혹은 토픽을 함양하는 문서들을 발견하고 이들을 통합한다. 이 때, 중복되는 문장을 제거하기 위해 오토인코더를 활용하여 문장의 중복성을 측정한다. 본 논문의 우수성을 입증하기 위해, 우리는 언어모델들과 이의 성능을 평가할 때 활용되는 대표적인 벤치마크 셋들을 함께 활용하여 이질적인 문장간의 유사 관계를 예측의 비교 실험하였다. 실험 결과, 제안된 LAMII 프레임워크가 다른 언어 모델에 비하여 이질적인 문장 구조간의 유사 관계를 효과적으로 예측할 수 있음을 입증하였다.

클라이언트 상의 Well-Formed XML 문서 처리 시스템의 설계 및 구현 (The Design and Implementation of the System for Processing Well-Formed XML Document on the Client-side)

  • 송종철;문병주;홍기채;정현수;김규태;이수연
    • 한국정보처리학회논문지
    • /
    • 제7권10호
    • /
    • pp.3236-3246
    • /
    • 2000
  • XML은 SGML의 기능 및 구문을 인터넷상에서 쉽게 실용적으로 사용하기 위하여 단순화시킨 메타언어이며 XSL, XLL 및 Xpointer등과 함께 사용되고 있다. 또한 DTD를 포함하지 않는 Well-Formed XML을 제공하여 XML문서를 웹상에서 간편하게 사용할 수 있다. 그러나 브라우즈 기능과 XLL의 확장 링크 기능, DTD 생성 기능을 통합하여 Well-Formed XML 문서를 효율적으로 처리할 수 있는 시스템이 제공되지 않았다. 본 논문에서는 클라이언트에서 DTD를 포함하지 않는 Well-Formed XML 문서를 효율적으로 처리 할 수 있도록 Well-Formed XML 뷰어와 자동DTD 생성기, Non-Validating 파서, XLL 처리기 등으로 구성된 시스템을 설계 및 구현하였으며, 확장 기능을 가지는 XLL과 Xpointer 처리, XLL의 링크 항해시 동일 클래스의 Well-Formed XML문서들에서 DTD를 추출하여 자동으로 생성하는 기능에 초점을 맞추었다. 링크 처리시, 링크 주소 지정 방식은 ID와 Xpointer에 의한 직접 주소 지정 방식을 사용하였다. 본 시스템의 구현 결과, XLL 기능의 유효성을 확인하였고 같은 루트 엘리먼트를 갖는 동일한 클래스의 Well-Formed XML문서들로부터 DTD를 추출하여 일반화된 DTD를 생성하였다.

  • PDF

FTA시대 베트남 중재제도의 특징과 활용방안에 관한 연구 - VIAC 중재규칙과 KCAB 국제중재규칙 비교를 중심으로 - (A Study on the Utilization and Characteristics of Vietnam's Arbitration System in the FTA Era)

  • 김성룡
    • 한국중재학회지:중재연구
    • /
    • 제30권2호
    • /
    • pp.23-42
    • /
    • 2020
  • The purpose of this study is to analyze the characteristics of Vietnam's arbitration system and to present measures that companies can utilize in practice. This research considers KCAB International Arbitration Rules, focusing on amendments to the Decree on Vietnam Commercial Arbitration Act and amendments to the VIAC Arbitration Rules. To sum up some features, the decree on the Commercial Arbitration Act simplified the registration procedures for arbitration centers and their branches and made the publication of court decisions and the recognition of the approval and execution of foreign arbitration courts, thereby enhancing transparency. First of all, the decree on the Commercial Arbitration Act simplified registration procedures for arbitration centers and their branches. In addition, the court strengthened transparency by officially announcing court judgments, recognition, and decisions. Next, there are some points to note in the arbitration rules of the VIAC. First of all, the rules of expedited procedure lack clarity. Next, parties should make a separate document for counterclaim and submit it with a statement of defense. In addition, the arbitral language may choose multiple languages by the Arbitral Tribunal unless the parties agree. Therefore, companies need to take a closer look at their understanding of the international arbitration system, which is mainly used in international disputes, and the characteristics of the Vietnamese arbitration system.

하이브리드 방송 환경 하에서 HTML5 기반 장면구성 기술 (Scene Composition Technology Based on HTML5 in Hybrid Broadcasting Environment)

  • 조민우;박정욱;김규헌
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.237-248
    • /
    • 2013
  • 하이브리드 방송(Hybrid Broadcasting) 환경은 다수의 전송경로를 통한 방송 통신 융합 환경이다. 이러한 하이브리드 방송 환경은 기존 방송망의 대역폭 제한으로 소수의 미디어만을 전달하던 것과 달리, 타 통신 전송망을 동시에 활용함으로써 다수의 미디어를 전달할 수 있다. 현재, 스마트TV를 필두로 방송망과 IP망을 결합한 하이브리드 방송 환경이 조성되어 다양한 서비스가 나타나고 있으며, 스마트폰 및 태블릿PC와 같은 타 스마트기기에서 또한 머지않아 하이브리드 방송 환경을 통한 서비스가 나타날 것으로 전망된다. 이렇게 다수의 미디어를 동시에 소비할 수 있는 하이브리드 방송 환경을 효과적으로 활용하는 방법의 하나는 장면구성을 이용하는 것이다. 장면구성은 미디어가 소비되는 시간과 화면상의 공간을 특정함으로써 다수의 미디어를 복합적으로 소비하는 방법이다. 이에 본 논문에서는 하이브리드 방송 환경에 적합하고, 스마트기기에 쉽게 적용될 수 있도록 HTML5를 기반으로 한 장면구성 기술을 제안한다. 하지만 HTML5의 스크립트 언어 및 스타일 언어를 활용한 미디어의 공간구성 및 시간구성은 처리의 복잡성을 높이고, 사용 가능한 단말기의 제한을 줄 수 있다. 또한, 하나의 HTML5 문서는 하나의 장면만 표현할 수 있다. 따라서 제안하는 장면구성 기술은 마크업 언어를 통해 미디어의 공간구성 및 시간구성과 다수 장면을 표현할 수 있도록 HTML5를 확장한다. 더불어 하이브리드 방송환경에 적용을 위한 확장을 포함한다. 이를 위해 HTML5 기술 및 제안하는 장면구성 기술을 소개하고, 구현 및 실험을 통해 본 제안을 검증한다.

휴대용 단말기 환경을 위한 Annotation 모델링 및 시스템 구현 (Annotation Modeling and System Implementation for Hand-held Environment)

  • 손원성
    • 정보교육학회논문지
    • /
    • 제10권2호
    • /
    • pp.219-226
    • /
    • 2006
  • 어노테이션(annotation)은 문서에서 개인의 의견, 정리, 요약 등을 표현하기 위한 주석을 의미한다. 따라서 전자문서에서도 어노테이션은 중요하게 사용되며 특히 전자 잉크(digital inking)릉 이용한 이동 단말기 환경에서 효과적으로 사용된다. 그러나 기존 연구에서는 휴대용 단말기 환경의 단점인 적은 디스플레이 공간을 전혀 고려하지 않기 때문에 어노테이션 작성 및 활용이 매우 불편하다. 따라서 본 논문에서는 전자펜과 이동식 단말기 환경을 고려한 어노테이션 모델 및 시스템을 제안한다. 제안 어노테이션 모델은 다양한 컨텍스트(context)를 고려하고 이에 기반한 어노테이션 마크업 언어를 정의한다. 본 모델은 다양한 어노테이션 타입 및 의미(semantic) 모델, 펜 기반 어노테이션의 자동 인식 및 영역 보정 기능 등을 고려하며, 이것을 기반으로 CAML(Context-based Annotation Markup Language)를 정의한다. 또한 본 모델을 이용하여 XML 기반의 전자책문서 및 단말기 환경을 고려한 어노테이션 시스템을 구현하고 그 활용 가능성에 대하여 살펴본다. 본 연구의 결과는 eLearning, Cyber-Class, IETM(Interactive Electronic Technical Manuals) 에서 적절히 응용 가능하다.

  • PDF

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.