• 제목/요약/키워드: 텍스트 처리

검색결과 1,343건 처리시간 0.027초

개체단위 감정분석을 위한 글로벌 텍스트&로컬 텍스트 통합 방법 (Global Text & Local Text Integration Method for Aspect-Based Sentiment Analysis)

  • 임특;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.414-416
    • /
    • 2022
  • 개체단위 감정분석(Aspect-Based Sentiment Analysis)는 자연어 처리에서 중요한 연구분야이다. 이는 입력 문장중에 존재하는 aspect term 의 감정 극성을 분석하는 것이 목적이다. 이 분야에서 현재 많이 사용되는 모델은 대부분 로컬 텍스트 또는 로컬 덱스트와 aspect term 사이의 관계에 주목하고 있다. 로켈 텍스트에 비해 글로벌 텍스트는 로컬 텍스트 뒤에 aspect term 내용을 추가해서 문장중에 있는 aspect term 내용을 더 깊게 학습할 수 있다고 생각한다. 본 논문에서는 새로운 masked attention 메커니즘을 사용하고 attention 메커니즘의 입력으로 글로벌 텍스트중에 있는 로컬 텍스트를 가로채어 전체 글로벌 텍스트의 내용과 융합한다. 이 방법은 semeval2014 데이터 셋에서 매우 좋은 결과를 얻었다.

그래프 기반 텍스트 마이닝의 연구 동향 (Research Trends of Graph-Based Text Mining)

  • 장재영;한종빈;좌태빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1074-1077
    • /
    • 2013
  • 텍스트 마이닝은 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 주제별로 제시한다.

안드로이드 기반의 소설을 읽기 위한 실용적인 Text Viewer Application 개발 (A Study on Tools for Agent System Development)

  • 이명숙;박선욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.302-305
    • /
    • 2014
  • 본 연구는 기존의 텍스트뷰의 리뷰들을 수집하여 불편한 점을 해결하고 최적화된 기능을 적용하여 텍스트뷰 앱을 개발하였다. 텍스튜뷰에 있는 광고는 텍스트의 내용보다 광고에 시선이 자주 가므로 소설을 읽는데 집중하기 어려운 불편한 점과 광고 때문에 로딩시간이 느려지는 점을 개선하여 광고를 없애 내용에 집중되도록 하였으며, 스레드를 사용하여 3페이지 분량의 텍스트가 미리 로딩이 되어 우선 화면에 띄어주어 출력을 빠르게 하였다. 또한 페이지를 넘길 때 터치나 스크롤에 의해 페이지를 넘기는 형식의 불편한 점은 슬라이드 방식으로 처리하여 기존의 책장을 넘길때와 같은 느낌의 UX를 적용하였다. 텍스트를 단어단위로 줄바꿈 처리를 하면 지저분한 느낌을 주므로 문자 단위의 줄바꿈을 적용하여 깔끔한 줄바꿈 처리로 구현하여 불편한 점들을 해결하고 최적화 앱을 구현 하였다.

생성-선정을 통한 텍스트 증강 프레임워크 (TAGS: Text Augmentation with Generation and Selection)

  • 김경민;김동환;조성웅;오흥선;황명하
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권10호
    • /
    • pp.455-460
    • /
    • 2023
  • 텍스트 증강은 자연어처리 모델의 성능 향상을 목적으로 원본 텍스트의 변환, 생성을 통하여 새로운 증강 텍스트를 생성하는 방법론이다. 기존 연구된 기법들은 표현적 다양성 부족, 의미 왜곡 , 한정적인 양의 증강 텍스트와 같은 한계점이 존재한다. 거대언어모델과 few-shot learning을 활용한 텍스트 증강은 이러한 한계점의 극복이 가능하지만, 잘못된 생성으로 인한 노이즈 발생의 위험성이 존재한다. 본 논문에서는 여러 후보 텍스트를 생성하고 적합한 텍스트를 증강 텍스트로 선정하는 TAGS를 제안한다. TAGS는 기존 텍스트 few shot learning을 통해 다양한 표현을 생성하면서 대조 학습과 유사도 비교를 통해 원본 텍스트가 적더라도 적합한 데이터를 효과적으로 선정한다. 이를 텍스트 증강이 필수적인 업무용 챗봇 데이터에 적용하여 60배 이상의 양적 향상을 달성하였다. 또한 증강 텍스트의 질적 향상을 확인하기 위해 실제 생성된 텍스트를 분석하여 원본 텍스트에 비해 의미론적, 표현적으로 다양한 텍스트를 생성함을 확인하였으며, 증강 텍스트로 실제 분류 모델을 학습하고 실험하여 실질적으로 자연어처리 모델 성능 향상에 도움이 되는 것을 확인하였다.

칼라정보에 기반한 텍스트 영역 추출에서의 지워진 획 복구 (Recovery of Erased Character Strokes in the Extraction of Text Using Color Information)

  • 김선형;김지수;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.657-660
    • /
    • 2006
  • 자연영상이나 스팸메일 영상으로부터 텍스트 영역을 추출하고 추출한 텍스트 영역에 이진화를 수행하고 나면 가로 방향이나 세로획 방향으로 놓여 있는 "1" 그리고 "ㅡ" 에 해당하는 한글의 종성부분이 이미지 내의 잡영을 지울 때 종종 지워지는 결과를 볼 수 있다. 이렇게 지워진 획 부분을 되살리기 위한 방법으로 텍스트 Hinting 알고리즘을 제안한다. 텍스트 Hinting 알고리즘은 이진화된 이미지의 텍스트 픽셀 위치와 동일한 좌표에 해당하는 원본 이미지의 RGB 값을 추출하여 추출된 텍스트 후보 영역의 색상을 알아낸다. 추출된 텍스트 색상 레이어 이미지와 이진화된 이미지에 OR연산을 수행하게 되면 지워진 획 부분을 복원할 수 있다. 제안한 방법을 스팸 이미지에 적용한 결과 텍스트 추출결과를 획기적으로 개선할 수 있음을 보였다.

  • PDF

자연 영상에서의 텍스트 추출 및 기울기 추출 (Text Extraction and Skew Detection in Natural Scenes)

  • 최규담;김성동;최기호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.346-349
    • /
    • 2003
  • 본 논문은 실내외에서 얻어진 자연 영상으로부터 텍스트를 추출하는 방법과 추출되어진 텍스트가 기울어져 있을 경우 기울기 각도를 추정하고 보정하는 방법을 제안한다 이런 모든 과정은 4단계로 수행된다. 명도 이미지를 대상으로 첫째 자연 영상에서 에지 검출 처리를 위한 전처리 단계와 둘째 에지 검출과 세선화를 통한 잡음영상 및 선 제거, 텍스트 특징을 이용한 후보영역 검출단계로 이루어지고 셋째 그 텍스트 후보영역 안에서 이진화를 수행하고 불필요한 비텍스트 연결 요소를 추려내어 제거 함으로써 텍스트를 추출한다. 마지막은 후처리로써 추출된 텍스트의 기울기 각도를 추정하고 추정 된 각도만큼 회전함으로써 기울어진 텍스트를 보정한다 본 연구는 다양한 자연 영상을 대상으로 실험한 결과, 본 논문의 유용성과 정확한 텍스트추출을 확인하였다.

  • PDF

수사구조를 이용한 텍스트 자동요약 (Text Summarisation with Rhetorical Structure)

  • 이유리;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

역할기반접근제어를 기반으로 한 분산 하이퍼텍스트 시스템 보안모델 (A Role-Based Access Control Security Model for a Distributed Hypertext System)

  • 정철윤;이형효;노봉남
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.720-731
    • /
    • 1998
  • 멀티미디어, 인터넷 환경에서 하이퍼텍스트 시스템의 활용이 일반화됨에 따라 하이퍼텍스트 시스템에 저장된 정보에 대한 보호를 위해 권한부여나 접근제어와 같은 상위수준의 보안 메카니즘의 필요성이 요구되었다. 또한 분산환경에서는 하이퍼텍스트 시스템내에 저장된 정보들의 정형화된 스키마의 부재, 비체계성 등으로 인하여 보다 복잡한 체계의 보안이 필요하다. 본 논문에서는 분산 하이퍼텍스트 시스템 보안모델을 설계하기 위해 하이퍼텍스트 시스템의 특성 및 현재까지 제안된 보안 메카니즘을 살펴보고, 하이퍼텍스트 시스템상에 다양한 접근제어 정책들을 적용하였을 때의 문제점들을 제시한다. 또한 본 논문에서 제안하는 분산 하이퍼텍스트 시스템 보안모델의 기본개념인 연산도메인의 구성요소 및 관련 성질에 대해 기술하고, 현재 상용시스템에서 보안 메카니즘으로 널리 활용중인 역할기반 접근제어 정책과 연산도메인이 결합된 새로운 보안모델에 대해 기술한다. 마지막으로 본 모델의 장 단점 및 추후 연구과제를 제시한다.

  • PDF

다중 인스턴스 학습 기반 사용자 프로파일 식별 (Discriminating User Attributes in Social Text based on Multi-Instance Learning)

  • 송현제;김아영;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-52
    • /
    • 2012
  • 본 논문에서는 소셜 네트워크 서비스에서 사용자가 작성한 텍스트로부터 그 사용자 프로파일 식별하는 문제를 다룬다. 프로파일 식별 관련 기존 연구에서는 개별 텍스트를 하나의 학습 단위로 간주하고 이를 기반으로 학습 모델을 구축한다. 프로파일을 식별하고자 하는 사용자의 텍스트들이 주어지면 각 텍스트마다 프로파일을 식별하고, 식별된 결과들을 합쳐 최종 프로파일로 선택한다. 하지만 SNS 특성상 프로파일을 식별하는 데에 영향을 끼치지 않는 텍스트들이 다수 존재하며, 기존 연구들은 이 텍스트들을 특별한 처리없이 학습 및 테스트에 사용함으로 인해 프로파일 식별 성능이 저하되는 문제점이 있다. 본 논문에서는 다중 인스턴스 학습(Multi-Instance Learning)을 기반으로 사용자 프로파일을 식별한다. 제안한 방법은 사용자가 작성한 텍스트 전체, 즉 텍스트 집합을 학습 단위로 간주하고 다중 인스턴스 학습 문제로 변환하여 프로파일을 식별한다. 다중 인스턴스 학습을 사용함으로써 프로파일 식별에 유의미한 텍스트들만이 고려되고 그 결과 프로파일 식별에 영향을 끼치지 않는 텍스트로부터의 성능 하락을 최소화할 수 있다. 실험을 통해 제안한 방법이 기존 학습 방법보다 성별, 나이, 결혼/연애 상태를 식별함에 있어서 더 좋은 성능을 보인다.

  • PDF

텍스트 영역에 대한 단어 단위 분할 시스템 (A System for the Decomposition of Text Block into Words)

  • 정창부;곽희규;정선화;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF