• 제목/요약/키워드: 텍스트 추출

검색결과 983건 처리시간 0.028초

연구 동향 분석을 위한 텍스트 마이닝 기반 GPT 활용 기법 (Text mining based GPT utilization technique for research trend analysis)

  • 하정훈;최봉준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.369-370
    • /
    • 2023
  • 새로운 연구를 시작하기 위해서는 과거의 연구 동향을 분석해야 한다. 이를 위해 많은 양의 과거 연구 데이터를 조사해야 하는데, 모든 데이터를 직접 분류하는 방법은 많은 시간과 노력이 필요하기 때문에 비효율적이며, 텍스트 마이닝 기법을 활용한 키워드분석만으로는 연구 동향을 이해하기에 어려움이 존재한다. 이러한 전통적인 키워드 추출 방법의 한계점을 보완하기 위해 본 논문에서는 텍스트 마이닝 기반 GPT 활용 기법을 제안한다. 본 연구에서는 특정 도메인에 대해 텍스트 마이닝 기법을 활용하여 키워드를 추출하고, 이러한 키워드를 해당 도메인의 데이터로 미세 조정(fine-tuning)된 GPT의 입력으로 사용한다. GPT 결과로 생성된 문장을 텍스트 마이닝으로 나온 결과와 비교 분석한다. 이를 통해 연구 분야의 동향 분석을 보다 쉽게 할 수 있을 것으로 기대된다.

  • PDF

데이타마이닝 기법을 이용한 효율적인 전문 용어 클러스터링 (An Efficient Terminology Clustering Method Using Datamining Technique)

  • 이정화;남상엽;문현정;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.210-215
    • /
    • 2000
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 일반적인 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 대량의 문서로부터 유용한 지식 정보를 찾기 위하여 의미적으로 연관된 전문 용어들끼리 클러스터링 하기 위한 방법을 제안하였다. 학술 논문을 대상으로 전문 용어를 추출하여 관련된 용어들끼리 클러스터를 구성하는 실험을 통하여 제안된 방법의 효율성을 보였다.

  • PDF

FastText 와 BERT 를 이용한 자동 용어 추출 (FastText and BERT for Automatic Term Extraction)

  • 최규현;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.612-616
    • /
    • 2021
  • 자연어 처리의 다양한 task 들을 잘 수행하기 위해서 텍스트 내에서 적절한 용어를 골라내는 것은 중요하다. 텍스트에서 적절한 용어들을 자동으로 추출하기 위해 다양한 모델들을 학습시켜 용어의 특성을 잘 반영하는 n 그램을 추출할 수 있다. 본 연구에서는 기존에 존재하는 신경망 모델들을 조합하여 자동 용어 추출 성능을 개선할 수 있는 방법들을 제시하고 각각의 결과들을 비교한다.

  • PDF

공간 시멘틱 웹을 위한 텍스트 공간정보의 위치 맵핑 기법 (Location Mapping Techniques of Textual Spatial Information for Spatial Semantic Web)

  • 하태석;하수욱;남광우
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 춘계학술대회
    • /
    • pp.71-73
    • /
    • 2010
  • 웹에서 다양한 웹 지리 지역 정보를 검색할 수 있는 시스템에 대한 요구가 증가하고 있다. 그러나 현재의 웹 검색 시스템은 사용자가 키워드로 지역 웹 문서를 검색하고 해당 웹 문서를 지도와 비교하여 공간정보를 취득하며, 다른 관련 정보를 얻기 위해서는 검색과 비교를 반복해야 하는 어려움이 있다. 따라서 본 논문에서는 비구조화 된 텍스트 웹 자원으로부터 지리정보 온툴로지(geo-ontology)를 확장할 수 있는 통합된 검색시스템을 제안한다. 이를 위해 문서의 정보에서 위치 정보를 추출하고 공간정보 위치 맵핑 기법을 적용하여 텍스트의 공간정보를 추출한다.

  • PDF

인스타그램 이미지와 텍스트 분석을 통한 사용자 감정 분류 (A User Sentiment Classification Using Instagram image and text Analysis)

  • 홍택은;김정인;신주현
    • 스마트미디어저널
    • /
    • 제5권1호
    • /
    • pp.61-68
    • /
    • 2016
  • 최근 스마트폰과 태블릿 PC 등의 스마트 기기들의 발전으로 인해 SNS(Social Network Service) 사용자가 증가함에 따라 SNS 정보를 이용한 사용자 감정 분류 방법에 대한 기법들이 활발하게 연구되고 있다. 사용자 감정 분류는 SNS 게시글의 텍스트, 이미지 등을 이용하여 감정을 분류하는 것을 말한다. 본 논문에서는 텍스트에서 대표 형용사를 추출하고 이미지에서 Canny 알고리즘과 삼각함수를 이용해 대표 도형에 대한 값을 추출하여 사용자의 감정을 분류하는 방법을 제안한다. 텍스트에서 추출한 대표 형용사는 텍스트에서 추출한 형용사 중에 빈도수가 가장 높은 형용사로 선정하였으며, 영어 감정어휘 사전인 SentiWordNet을 이용하여 긍정-부정의 수치를 측정했다. 이미지에서 추출되는 도형에서 삼각형, 사각형, 원중에 추출되는 도형을 대표 도형으로 선정했으며, 대표 도형의 종류와 기울기에 따라 쾌-불쾌 수치를 측정하여 사용자의 감정을 분류했다. 최종적으로 Plutchik의 감정 바퀴를 긍정-부정과 쾌-불쾌의 수치를 나타내는 x축과 y축을 갖는 좌표평면으로 재정의하고 대표 형용사와 대표 도형의 값을 재정의한 Plutchik의 감정 바퀴의 좌표 평면에 나타내어 사용자의 감정 분류를 수행한다.

규칙 기반 한국어 시간 정보 추출 (Rule-Based Temporal Information Extraction for Korean)

  • 정영섭;도효진;임준호;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.242-246
    • /
    • 2014
  • 웹을 비롯한 다양한 곳에서 기하급수적으로 증가하고 있는 문서들로 인해, 자연어 텍스트로부터의 지식추출의 중요성이 점차 커지고 있다. 이 연구에서는 한국어로 작성된 자연어 텍스트로부터의 시간 정보 추출을 위해 개발된 시스템을 소개하고, 직접 구축한 한국어 데이터셋에 대한 성능 분석을 제공한다. 이 시스템은 사람이 직접 작성한 규칙들에 기반하여 작동하지만, 질의응답시스템 등에 적용될 수 있는 수준의 성능으로 향상시키기 위해 기계학습 기반의 시스템으로 업그레이드하는 등의 작업을 계속할 것이다.

  • PDF

명도 정보와 분할/합병 방법을 이용한 자연 영상에서의 텍스트 영역 추출 (Text Region Extraction of Natural Scene Images using Gray-level Information and Split/Merge Method)

  • 김지수;김수형;최영우
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권6호
    • /
    • pp.502-511
    • /
    • 2005
  • 본 논문에서는 자연 이미지에 포함되어 있는 텍스트를 추출하기 위해 명도 정보를 사용한 하이브리드 분석 방법(HAM)을 제안하였다. 즉, 제안한 방법은 명도 정보 분석(Gray-intensity Information Analysis)과 분할/합병 분석(Split/Merge Analysis)을 결합하였다. 제안한 방법의 추출 결과를 보면 단순한 영상과 복잡한 영상 모두에서 기존의 연구 결과보다 우수한 성능을 보임을 알 수 있었다.

에지 및 컬러 양자화를 이용한 모바일 폰 카메라 기반장면 텍스트 검출 (Mobile Phone Camera Based Scene Text Detection Using Edge and Color Quantization)

  • 박종천;이근왕
    • 한국산학기술학회논문지
    • /
    • 제11권3호
    • /
    • pp.847-852
    • /
    • 2010
  • 자연 영상 내에 포함된 텍스트는 영상의 다양하고 중요한 특징을 갖는다. 그러므로 텍스트를 검출하고 추출하여 인식하는 것이 중요한 연구대상으로 연구되고 있다. 최근 모바일 폰 카메라를 기반으로 다양한 분야에서 많은 응용 기술이 연구 개발되고 있다. 본 논문은 에지 및 연결요소를 이용한 장면 텍스트 검출 방법을 제안한다. 그레이스케일 영상으로부터 에지 성분 검출과 지역적 표준편차를 이용하여 텍스트 영역의 경계선을 검출하고, RGB 컬러공간의 유클리디안 거리를 기준으로 연결요소를 검출한다. 검출된 에지 및 연결요소를 레이블링하고 각각 영역의 외곽사각형을 구한다. 텍스트의 휴리스틱 이용하여 후보 텍스트를 추출한다. 후보 텍스트 영역을 병합하여 하나의 후보 텍스트 영역을 생성하고, 후보 텍스트의 지역적 인접성과 구조적 유사성으로 후보 텍스트를 검증함으로서 최종적인 텍스트 영역을 검출하였다. 실험결과 에지 및 컬러 연결요소 특징을 상호 보완함으로서 텍스트 영역의 검출률을 향상시켰다.

색 분산 특징을 이용한 텍스트 추출에서의 손실된 분산 복원 (Variance Recovery in Text Detection using Color Variance Feature)

  • 최영우;조은숙
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.73-82
    • /
    • 2009
  • 본 논문은 자연이미지에 포함된 텍스트 영역을 찾기 위한 방법으로서 기존에 제안한 색 분산 특징을 이용한 방법에서 분산이 제대로 추출되지 않는 문자 획들에 대한 복원 방법을 제안한다. 이전의 색 분산 특징을 이용한 추출방법에서는 고정된 크기의 수평 및 수직 분간 추출 윈도우를 사용함으로서 문자 획이 두껍거나 긴 경우에는 색 분산이 제대로 추출되지 않는 단점이 있었다. 따라서 본 논문에서는 미 추출된 색 분산을 연결요소 외곽사각형의 기하학적인 정보와 경험적인(Heuristic) 지식을 함께 이용하여 복원하는 방법을 제안한다. 제안한 방법은 다양한 종류의 디지털 카메라와 휴대폰 카메라를 이용해서 취득한 문서 유형의 이미지와 간판, 거리 표지판 등의 자연이미지를 사용하여 테스트 하였으며, 특히 큰 글자를 포함하는 자연이미지에 대해서도 텍스트 추출의 정확성이 향상된 것을 확인할 수 있었다.

자연영상에서 적응적 문자-에지 맵 특징을 이용한 텍스트 영역 검출 (Text Region Detection using Feature of Adaptive Character-Edge Map in Natural Images)

  • 박종천;황동국;이우람;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2007년도 춘계학술발표논문집
    • /
    • pp.181-184
    • /
    • 2007
  • 자연영상에 포함된 텍스트는 많은 중요한 정보를 포함하고 있으므로 자연영상에서 텍스트 정보를 검출하는 연구가 활발히 진행되고 있다. 본 논문에서는 문자 영역의 구조적인 특정을 배열문법으로 정의한 적응적 문자-에지 맵을 제안하여 텍스트 영역을 검출한다. 캐니-에지 검출기로 에지를 추출하고, 생성된 에지 이미지를 레이블링하고 그 영역의 문자구조 특징을 분석하기 위해서 적응적 문자-에지 맵을 분석한다. 적응적 문자-에지 랩의 분포 상태를 분석함으로서 텍스트 후보 영역을 검출하고, 텍스트 영역의 에지 히스토그램 프로파일을 분석함으로서 텍스트 후보 영역에 대한 검증을 수행하여 최종적인 텍스트 영역을 검출한다. 제안한 방법은 다양한 종류의 자연영상을 대상으로 실험하였고, 기울어진 텍스트와 다양한 크기의 텍스트 구성된 자연영상에서 텍스트 영역을 효과적으로 검출하였다.

  • PDF