• 제목/요약/키워드: 텍스트 접근법

검색결과 50건 처리시간 0.027초

하이퍼텍스트 문서의 자동분류를 위한 워드넷 기반 특징 합병 기법 (A WordNet-based Feature Merge Method for HyperText Classification)

  • 노준호;김한준;장재영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.406-409
    • /
    • 2012
  • 본 논문은 하이퍼텍스트 문서의 자동분류 성능을 높이기 위한 새로운 접근법을 제시한다. 하이퍼텍스트 문서는 일반 문서와 달리 하이퍼링크로 서로 연결된 구조를 가진다. 이 하이퍼링크 정보는 대상문서와 연관도가 높은 정보를 가지고 있으며, 이러한 링크 정보로부터 특징을 보다 잘 선별하기 위해서는 보다 정밀한 접근법이 필요하다. 본 논문은 단어간 의미 유사도를 기반으로 하이퍼텍스트 링크 정보를 활용한 특징 가공기법을 제안한다. 제안 기법은 하이퍼링크 문서로부터 대상문서와 연관도가 높은 특징을 추출하기 위해 단어간 유사도 함수를 사용하며, 유사도 함수는 워드넷의 상/하위어 관계를 이용한다. 그리고 추출된 특징들 중 의미적으로 비슷한 개념의 특징들을 합병함으로써 의미적으로 보다 견고한 분류 모델을 구축한다. 제안 기법을 검증하기 위해 Web-KB 문서집합을 이용하여 실험을 수행하였고 실험 결과 기존 방법보다 우수한 성능을 보였다.

한국어 텍스트 문장정렬을 위한 개체격자 접근법과 LSA 기반 접근법의 활용연구 (A comparative study of Entity-Grid and LSA models on Korean sentence ordering)

  • 김영삼;김홍기;신효필
    • 인지과학
    • /
    • 제24권4호
    • /
    • pp.301-321
    • /
    • 2013
  • 본 논문은 텍스트의 응집도 측정과 텍스트 자동생성 시스템을 위한 기초기술 중 하나인 문장정렬 과제에 대한 연구로, 개체기반적(entity-based) 접근의 한 유형인 개체격자 모형(Entity-Grid model)과 벡터공간 모형에 기반한 LSA(Latent Semantic Analysis)를 모두 시도하고 결과를 서로 비교하였다. 개체격자 모형에 대한 기존 연구들에서 논의된 명사들의 통사역(syntactic role) 정보가 한국어 텍스트 정렬과제에 미치는 영향을 실험하고자 하였으며, 기존 독일어권 응용연구 결과와는 달리 긍정적인 결과를 얻었다. 이 과정에서 한국어의 격조사를 활용하는 전략을 취했으며, 이는 한국어의 격표지 정보가 한국어 텍스트의 응집성을 측정하는 데에 유용할 수 있다는 점을 보인 것이다. 그리고 개체격자 모형을 통한 결과를 LSA 기반 모형결과와 비교하여 양 모형의 장단점과 향후 개선점을 아울러 논의하였다.

  • PDF

강화학습 기반의 제로샷 텍스트 분류 (Zero-shot Text Classification based on Reinforced Learning)

  • 장송밍 ;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.439-441
    • /
    • 2023
  • 전통적인 텍스트 분류 방법은 상당량의 라벨링된 데이터와 미리 정의된 클래스가 필요해서 그 적용성과 확장성이 제한된다. 그래서 이런 한계를 극복하기 위해 제로샷 러닝(Zero-shot Learning)이 등장했다. 텍스트 분류 분야에서 제로샷 텍스트 분류는 모델이 대상 클래스의 샘플을 미리 접하지 않고도 인스턴스를 분류할 수 있도록 하는 중요한 주제이다. 이 문제를 해결하기 위해 정책 네트워크를 활용한 심층 강화 학습(DRL) 기반 접근법을 제안한다. 이러한 방법을 통해 모델이 새로운 의미 공간에 효과적으로 적응하면서, 다른 모델들과 비교하여 제로샷 텍스트 분류의 정확도를 향상시킬 수 있었다. XLM-R 과 비교하면 최대 15.9%의 정확도 향상이 나타났다.

텍스트 데이터의 특성에 따른 성경 시각화 사례 분석 -텍스트의 내용적, 구조적 특성 및 인용 정보를 중심으로- (Case Analysis of Bible Visualization based on Text Data Traits -Focused on Content, Structure, Quotation of Text-)

  • 김효영;박진완
    • 한국콘텐츠학회논문지
    • /
    • 제13권8호
    • /
    • pp.83-92
    • /
    • 2013
  • 텍스트 시각화는 시각적 표현의 재료가 되는 텍스트 자체에 대한 이해에서 시작한다. 임의의 텍스트 데이터를 시각화하기 위해서는 해당 텍스트의 특성에 대한 충분한 이해가 선행되어야하며, 이렇게 도출된 텍스트가 갖는 고유한 특성에 따라 시각화의 목적과 표현적 접근 방법이 결정될 수 있다. 본 연구에서는 동일한 텍스트가 갖는 다양한 특성에 따라 도출된 대표적인 시각화 사례를 분석함으로써 텍스트 시각화에 대한 접근 방식에 대한 이론적 토대를 구축하고자 하였다. 이를 위해 동일 시각화의 대상 텍스트로서 전 세계적으로 가장 널리 알려져 있고, 그 디지털 데이터를 획득하기 용이하며 따라서 텍스트 시각화 사례가 다양하게 존재하는 '성경' 텍스트를 선정하여 사례 분석을 진행하였다. 사례 분석을 위한 기준으로서 텍스트가 갖는 고유한 특성-내용적, 구조적 특성 및 인용정보-를 도출하고, 각 기준에 부합하는 텍스트 시각화 사례들을 2-3가지 이상 선정하여 분석에 대한 타당성을 높였다. 분석결과 성경 텍스트가 갖는 독특한 특성에 따라 시각화의 목표와 표현적 접근법이 결정됨을 파악할 수 있었다. 본 연구를 토대로 향후 더욱 다양한 관점의 사례 분석을 통하여 텍스트 시각화를 위한 재료 선택 및 접근 방법에 대한 이론적 방법론 구축이 가능할 것으로 기대한다.

해운산업의 다면적 역할에 대한 인식조사 및 국민인식 제고방안 (Survey on Multifaceted Role of Shipping Industry and Measures to Improve Public Perception)

  • 이동현
    • 한국항만경제학회지
    • /
    • 제28권3호
    • /
    • pp.127-150
    • /
    • 2012
  • 해운산업의 일반적 이미지, 경제적 역할, 다면적 역할 등에 대해 일반인을 대상으로 설문 조사를 시행한 결과 해운산업에 대한 일반적 인식과 해운산업의 경제적 역할에 대한 인식은 비교적 긍정적인 것으로 나타났다. 반면 해운산업의 다면적 역할에 대해서는 긍정적 인식과 부정적 인식이 혼재하고 있는 것으로 조사되었다. 또한 직업적 매력도와 고용창출에 해서도 낮은 인식을 보임으로써 해운산업을 개인의 체험 속에서 인식하기보다는 막연하게 남의 일(none of my business)로 인식하고 있음을 보여주었다. 이와 함께 해운산업의 이미지가 방송, 신문 등 언론매체를 통해 형성된 것으로 나타났다. 해운산업에 대한 인식제고의 방안으로 관계적, 상품 및 서비스, 텍스트 접근법 등 3가지 접근법이 논의되었다. 관계적 전략으로 도시민을 위한 해운체험 교육기관의 설립, 일반인 대상 다양한 행사 실시, 해운기념관 설립, 해운산업과 관련한 문화관광 컨텐츠 개발, 해운문화운동을 통한 해운산업 이미지 재창조, 학교교육을 통한 해운관 조성 등이 제시되었다. 상품 및 서비스 전략으로는 해운서비스에 대한 기업브랜드 부여, B2C 서비스의 제공, 해운서비스에 국가이미지 활용, 해운산업의 대외협력사업 참여 등이 논의되었다. 텍스트 전략으로는 B2B 광고의 전개, 해운산업의 국가경제적 다면적 역할 광고, 해운산업과 연관산업의 융합광고, 첨단매체의 활용, 다면적 역할 홍보에 대한 정부의 주도적 역할, 해운산업의 공고 및 홍보를 위한 기금 신설 등이 검토되었다.

OCR 엔진 기반 분류기 애드온 결합을 통한 이미지 내부 텍스트 인식 성능 향상 (Scene Text Recognition Performance Improvement through an Add-on of an OCR based Classifier)

  • 채호열;석호식
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1086-1092
    • /
    • 2020
  • 일상 환경에서 동작하는 자율 에이전트를 구현하기 위해서는 이미지나 객체에 존재하는 텍스트를 인식하는 기능이 필수적이다. 주어진 이미지에 입력 변환, 특성 인식, 워드 예측을 적용하여 인식된 텍스트에 존재하는 워드를 출력하는 과정에 다양한 딥러닝 모델이 활용되고 있으며, 딥뉴럴넷의 놀라운 객체 인식 능력으로 인식 성능이 매우 향상되었지만 실제 환경에 적용하기에는 아직 부족한 점이 많다. 본 논문에서는 인식 성능 향상을 위하여 텍스트 존재 영역 감지, 텍스트 인식, 워드 예측의 파이프라인에 OCR 엔진과 분류기로 구성된 애드온을 추가하여 기존 파이프라인이 인식하지 못한 텍스트의 인식을 시도하는 접근법을 제안한다. IC13, IC15의 데이터 셋에 제안 방법을 적용한 결과, 문자 단위에서 기존 파이프라인이 인식하는데 실패한 문자의 최대 10.92%를 인식함을 확인하였다.

랭보의 「야만」의 난해성 : '자기텍스트성'과 '의미' (Abstruseness of Rimbaud's Barbare : Autotextuality and Meaning)

  • 신옥근
    • 비교문화연구
    • /
    • 제43권
    • /
    • pp.327-354
    • /
    • 2016
  • 랭보의 산문시집 "일뤼미나시용"의 "야만"은 형식이나 주제, 비유 등이 난해한 시로 유명하다. 본고는 작품의 난해성을 연구하기 위해 먼저 문법적 구조를 분석하였고, 그런 다음 시의 의미를 살펴보기 위해 저자의 다른 작품과 비교하는 자기텍스트성을 분석하였다. 자기텍스트성은 스티브 머피가 제시한 랭보 산문시 해석의 방법론으로서 저자의 작품과 맺는 내적 상호텍스트성을 말한다. "야만"의 경우 일반적 상호텍스트성의 연구가 없는 것은 아니지만 시의 의미를 크게 규명하지 못한다고 본다. "야만"의 난해성은 무의미 시의 예로 간주되기도 한다. 하지만 시 구조 분석과 자기텍스트성을 통해 볼 때, "야만"은 무의미가 아니라 의미를 구축하고 있다. 이 시는 일반적 운문시나 산문시와 달리 전체가 명사 구문의 비유로만 이루어져 있다. "야만"은 랭보 고유의 문맥에서 파괴, 화합, 재생의 순수한 힘을 의미한다. "야만"은 보들레르의 "이 세상 끝 어디라도"에 대한 랭보 식 답으로, 북극의 불카누스의 화산에 도달하는 영원한 여성의 목소리로 대변되는 현장이라 할 수 있다. "야만"의 읽기는 "일뤼미나시용"의 난해성을 읽어내는 하나의 방법론이 될 수 있다. 본고에서 우리는 "야만"의 언어적 지표의 분석과 자기텍스트성, 그리고 시가 침묵하고 있는 희열과 고독의 이해가 하나의 접근법이 될 수 있음을 분석하였다. 이러한 접근법을 통해 우리는 "일뤼미나시용"의 파편을 개개의 방식으로 연결하고 조합해서 파편들의 스토리를, 모험을 재구성할 수 있으리라 본다.

인용 정보를 고려한 미발견 공공 지식 추출: Swanson의 ABC 모델 재현 및 확장 (Detection of Hidden Knowledge Using a Citation-Based Approach Based on Swanson's ABC Model)

  • 함정은;송민
    • 정보관리학회지
    • /
    • 제32권2호
    • /
    • pp.87-103
    • /
    • 2015
  • 많은 연구들 가운데 살펴볼 가치가 있는 대상을 찾아 제시해주는 문헌기반 발견의 접근법은 연구자들에게 매우 유용할 것이다. 문헌기반 발견 연구의 대표 이론인 Swanson의 ABC 모델은 기존에 검증되지 않은 개체들의 관계를 연구할 것을 제안해 준다. 본 연구는 Swanson의 ABC 모델에 인용 정보를 고려하여 유의한 관계에 있는 개체들을 더 효율적으로 찾아내고자 하였다. 수집 논문들의 참고문헌 목록에서 인용 정보를 확인하고 논문의 표제와 초록을 대상으로 텍스트 마이닝 기법으로 중요한 단어들을 추출하였다. Swanson의 연구들 중 어유와 레이노드 질병 및 증상의 관계를 재현하였으며 기존의 접근법으로 확인되는 개체들과 어떤 차이가 있는지 분석하였다.

앙상블 기반의 위조 탐지 알고리즘 (Ensemble-based Counterfeit Detection Algorithm)

  • 타히예프 일킨;조영복
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.101-102
    • /
    • 2023
  • 본 연구에서는 인터넷 상에서 발생되는 부정행위를 탐지할수 있는 신뢰 모델을 생성하고 개인의 프라이버시를 보장할수 있는 모델을 제시하였다. 인터넷 상에 게시판에 올려진 부정해위를 탐지하기 위해 앙상블 접근 방식 기반의 분류 모델을 제시하고 자동화된 도구를 제안하였다. 본 연구는 데이터에 대한 탐색적 데이터 분석을 수행하고 얻은 통찰력을 사용해 자연어처리 가반 텍스트를 기반으로 앙상블 기반의 위조 탐지 알고리즘을 제안하였다. 제안 알고리즘의 정확도는 99%로 자연어 처리에 높은 탐지율을 보였다.

  • PDF

개체 링킹을 위한 RDF 지식그래프 기반의 포괄적 상호의존성 짝 연결 접근법 (A Global-Interdependence Pairwise Approach to Entity Linking Using RDF Knowledge Graph)

  • 심용선;양성권;김홍기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.129-136
    • /
    • 2019
  • 자연어 표현에는 인물, 조직, 장소, 제품 등의 다양한 개체들이 존재한다. 이러한 개체는 다양한 의미를 가질 수 있다. 이러한 개체가 갖는 중의성 문제는 자연어 처리 분야에 있어 매우 도전적인 과제이다. 개체 링킹(Entity Linking)이란 텍스트에 등장한 개체명을 지식베이스 내의 적절한 개체로 연결해주는 작업이다. 개체 링킹을 위한 대표적인 방법론인 짝 연결 접근법(Pairwise based method)은 한 문장에서 등장한 개체가 두 개 이상일 경우 서로의 연관성을 이용해 개체 링킹을 하는 방법이다. 이 방법은 동일 문장에서 등장하는 개체들 간의 상호의존성(interdependence)만을 고려하고 있어 포괄적인 상호의존성(Global interdependence)이 부족하다는 한계를 갖고 있다. 본 논문에서는 개체 링킹을 위해 RDF 형태의 지식베이스 정보를 바탕으로 Word2vec을 활용한 Entity2vec 모델을 생성하였다. 그리고 생성된 모델을 사용하여 각 개체에 대한 랭킹을 하였다. 본 논문에서는 짝 연결 접근법의 한계점을 보완하기 위해 포괄적인 상호의존성을 바탕으로 짝 연결 접근법을 고안하고 구현 및 실험을 통해 기존의 짝 연결 접근법과 비교하였다.