• 제목/요약/키워드: 텍스트 처리

검색결과 1,365건 처리시간 0.027초

MPEG-7 기반 웹 이미지 색인 및 검색 (MPEG-7 Based Web Image Indexing and Searching)

  • 임재형;김문철;김진웅;현순주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1285-1288
    • /
    • 2000
  • 인터넷의 양적 질적 성장을 통해 인터넷상에 존재하는 웹 문서의 숫자는 엄청난 속도로 증가하여 왔다. 이러한 방대한 웹 문서를 대상으로 한 검색 방법은, 지금까지 일반적으로 텍스트 기반의 방법이 주류를 이루어 왔다. 그러나 웹 문서는 멀티미디어 형태로 존재하며 텍스트, 이미지, 동영상, 컴퓨터 그래픽 둥 다양한 미디어들로 구성되어 있다. 본 논문에서는 인터넷에 존재하는 웹 문서를 대상으로 내용 기반 이미지 검색방법을 제시한다. 내용기반 웹 이미지 검색 시스템은 웹 상의 텍스트 기반의 기존 상용 검색엔진을 이용하여 주요 검색어에 대한 이미지를 수집하는 웹 이미지 수집기와 수집된 이미지에 대해 MPEG-7 비주얼 기술자를 이용하여 데이터베이스에 색인하는 데이터베이스 불리기(population), 그리고 내용 기반 이미지 검색엔진으로 구성된다. 사용자는 장르, 주제 및 주요단어에 의해 분류되어 데이터베이스에 색인된 웹 이미지를 대상으로 검색이 가능하다. 이는 웹 문서를 직접 대상으로 한 특정 단어에 대한 내용 기반 이미지 검색이 가능하며 검색이 데이터베이스를 대상으로 이루어지기 때문에 빠른 검색 속도를 얻을 수 있으며, 또한 기존 웹에서 제공되는 텍스트 기반의 상용 검색엔진을 이용하여 주요단어에 대한 웹 이미지를 수집하여 색인하기 때문에 별도의 텍스트 검색엔진 구현을 필요로 하지 않는다.

  • PDF

마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환 (Unpaired Korean Text Style Transfer with Masked Language Model)

  • 배장성;이창기;황정인;노형종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.391-395
    • /
    • 2021
  • 텍스트 스타일 변환은 입력 스타일(source style)로 쓰여진 텍스트의 내용(content)을 유지하며 목적 스타일(target style)의 텍스트로 변환하는 문제이다. 텍스트 스타일 변환을 시퀀스 간 변환 문제(sequence-to-sequence)로 보고 기존 기계학습 모델을 이용해 해결할 수 있지만, 모델 학습에 필요한 각 스타일에 대응되는 병렬 말뭉치를 구하기 어려운 문제점이 있다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행하는 방법들이 연구되고 있다. 이 연구들은 주로 인코더-디코더 구조의 생성 모델을 사용하기 때문에 입력 문장이 가지고 있는 내용이 누락되거나 다른 내용의 문장이 생성될 수 있는 문제점이 있다. 본 논문에서는 마스크 언어 모델(masked language model)을 이용해 입력 텍스트의 내용을 유지하면서 원하는 스타일로 변경할 수 있는 텍스트 스타일 변환 방법을 제안하고 한국어 긍정-부정, 채팅체-문어체 변환에 적용한다.

  • PDF

형태 모멘트를 이용한 텍스트 이미지 경사 측정 및 교정 (Skew Estimation and Correction in Text Images using Shape Moments)

  • Choo, Moon-Won;Chin, Seong-Ah
    • 한국콘텐츠학회논문지
    • /
    • 제3권1호
    • /
    • pp.14-20
    • /
    • 2003
  • 문서 이미지 처리에서 텍스트 블록의 수평화 프로세스는 문서 인식 솔루션을 위한 전처리 단계로서 많은 연구가 진행되고 있다. 이 논문에서는 텍스트 이미지 블록의 직교각 속성과 형태 모멘트에 후프 변환을 적용하여 경사진 텍스트 블록을 원래 문서의 텍스트와 수평화된 텍스트 이미지로 변환하는 효율적인 방식을 제안한다. 실험을 통하여 제안된 방식의 비교 성능 결과를 보인다.

  • PDF

한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구 (An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts)

  • 이상아;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

클래스 활성화 맵을 이용한 카테고리 의존적 요약 (Category-wise Neural Summarizer with Class Activation Map)

  • 김소언;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-292
    • /
    • 2019
  • 다양한 매체를 통해 텍스트 데이터가 빠르게 생성되면서 요약된 텍스트에 대한 수요가 증가하고 있다. 시퀀스-투-시퀀스 모델의 등장과 attention 기법의 출현은 추상적 요약의 난도를 낮추고 성능을 상승시켰다. 그러나 그동안 진행되어 온 attention 기반의 시퀀스-투-시퀀스 모델을 통한 요약 관련 연구들은 요약 시 텍스트의 카테고리 정보를 이용하지 않았다. 텍스트의 카테고리 정보는 Class Activation Map(CAM)을 통해 얻을 수 있는데, 텍스트를 요약할 때 핵심이 되는 단어와 CAM에서 높은 수치를 보이는 단어가 상당수 일치한다는 사실은 요약문 생성이 텍스트의 카테고리에 의존적일 필요가 있음을 증명한다. 본 논문에서는 요약문 생성 시 집중 정도에 대한 정보를 CAM을 통해 전달하여 attention matrix를 보강할 수 있는 모델을 제안하였다. 해당 모델을 사용하여 요약문을 생성하고 대표적인 요약 성능 지표인 ROUGE로 측정한 결과, attention 기반의 시퀀스-투-시퀀스 모델이 질이 떨어지는 요약문을 생성할 때 attention의 성능을 보강하여 요약문의 질을 높일 수 있음을 알 수 있었다.

  • PDF

시맨틱 웹 응용 서비스에서의 텍스트 처리 기술 적용 (Use of Text Processing Technologies in a Semantic Web Application)

  • 정한민;강인수;구희관;이승우;김평;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-196
    • /
    • 2006
  • 본 논문은 시맨틱 웹 응용 서비스를 구현함에 있어 필수적으로 요구되는 온톨로지 인스턴스 구축을 효율적으로 처리하는 데 있어 텍스트 처리 기술이 어떤 역할을 수행할 수 있는 가를 $OntoFrame-K^{(R)}$라는 시맨틱 웹 기반 정보 유통 체계에의 적용 사례를 통해 살펴본다. 본 논문에서 소개하는 텍스트 처리 기술은 개체 확인물 통한 개념 사례화, 주제 분야 할당을 통한 메타데이터 확장에, 그리고 인용 정보 추출 및 인용 관계 구축을 통한 객체 관계속성 구축에 적용된다. 개체 확인에서는 메타데이터 비교 잊 병합을 사용하였으며 이를 기반으로 한 수작업 구축을 통해 8,543명의 인력 URI를 확보하였다. 주제 및 분야 할당에서는 색인어와 분야분류명이 매핑된 시소러스 개념어의 매칭을 통해 색인어 별 TF (Term Frequency), 색인어와 매칭된 개념어 별 TF, 색인어와 매칭된 개념어 별 시소러스에서의 깊이, 색인어와 매칭된 개념어 별 개념 패싯, 색인어와 매칭된 각 개념어에 부착된 분야분류명 목록 등 할당을 위한 다양한 자질을 확보 적용하였다. 인용 정보 추출과 인용 관계 구축에서는 객체 URI와 인력 URI를 기반으로 하여 자동 추출된 인용 정보를 반영하는 방식으로 7,237개 문헌으로부터 총 135개의 인용 네트워크 그룹을 자동으로 확보하였다. 본 연구를 통해 제시된 텍스트 처리 기술의 활용 방안이 향후 시맨틱 웹 응용 서비스 및 인프라 구현에서 다각적으로 활용될 수 있기를 기대한다.

  • PDF

실어증 환자의 접속사 정보처리에 관한 연구 (Text integration processing based on connectives in Aphasics)

  • 김수정;문영선;김미라;김윤정;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-446
    • /
    • 1999
  • 본 연구는 접속사를 통한 텍스트 통합 과정이 논리적 추론 종류에 따라 다른 정보처리 과정 혹은 다른 종류의 단원적 구조(modular structure in language processing)에 의해 처리되는지를 조사하기 위해 실시되었다. 또한, 접속사를 통한 추론 과정이 실어증의 증상 종류에 따라 다른 종류의 언어정보처리 손상이 있는지를 평가하기 위해 실시되었다. 실험에 참가한 환자는 이해성 실어증환자(Wernicke aphasic), 전반성 실어증 환자(Global aphasic), 표현성 실어증 환자(Broca aphasic) 등이었다. en 종류의 과제를 이용하였다. 한 과제는 앞 뒤 문장을 논리적 관계성을 표현하는 접속사를 채워 넣는 과제였고 다른 과제는 접속사가 포함된 텍스트가 옳은지를 판단하는 정오 판단 과제였다. 실험재료 문장에 사용된 접속사는 추가적인 정보를 제공하는 '그리고'와 대등 관계를 나타내는 '그러나' 및 인과 관계를 표현하는 '그래서' 였다. 이 세 종류의 접속사는 각기 다른 논리적 관계성을 나타낸다. 실험 결과는 실어증 환자가 전반적으로 채워 넣기 과제에서 보다는 정오 판단 과제에서 더 많은 실수를 보였으며, 표현성 실어증 환자보다는 이해성 실어증 환자가 더 많은 오류를 보였다. 또한, 세 종류의 접속사 중에 '그리고'가 표함된 텍스트에서 더 많은 실수를 보였다. 이 연구에서 나타난 흥미 있는 결과는 표현성 실어증 환자는 '그러나' 접속사가 포함된 텍스트에서의 수행이 '그래서'가 포함된 경우에서보다 좋은 반면에 전반성 실어증 환자는 '그래서'를 포함하는 텍스트에서의 수행이 '그러나'를 포함하는 텍스트에서의 수행이 더 우수해서 이중해리(double dissociation)가 나타난다는 사실이다. 이 결과는 선후 문장이 어떤 종류의 논리적 관계성을 지니는가에 따라 다른 종류의 정보처리가 진행된다는 것을 암시하는 결과이다.>$\textrm{cm}^2$.。C로 비교적 양호한 초전박막의 전기적 특성을 나타내었다.(Mg+Fe)비를 갖고 전자에 비해 Al이 풍부한 환경에서 생성되었으며, 따라서 활석과 연관되지 않은 녹니석은 생성시 광체와 인접한 화강아질 편마암에 의해 주로영향을 받았을 것으로 생각된다. 녹니석의 이러한 2가지 화학조성상의 경향은 녹니석과 공존하는 운모류나 각섬석류들의 화학분석결과와도 잘 일치한다. 이러한 결과는 이 지역의 활석 광상이 초염기성암 기원의 사문암이 열수변질작용을 받아 생성되었음을 명확하게 지시하며, 따라서 활석 광석내에 존재하는 녹니석은 활석의 근원 광물로서 녹니석편암 및 녹니석 편마암 매의 녹니석이 활석화되고 남은 잔존광물이 아니라, 주변암에 의해 성분상의 영향을 받은 열수와 사문암과의 변질교대작용에 의한 활석화과정 중에 주로 생성된 것으로 추정된다. 이러한 결과는 연구지역의 활석광상이 초염기성암의 사문암화 작용과 활석화 작용의 두 가지 변질작용에 의해 형성되어졌음을 알려준다.농도 증가 없이 폐 조직에 약 50배 정도의 고농도 cisplatin을 투여할 수 있었으며, 또한 분리 폐 관류 시 cisplatin에 의한 직접적 폐 독성은 발견되지 않았다이 낮았으나 통계학적 의의는 없었다[10.0%(4/40) : 8.2%(20/244), p>0.05]. 결론: 비디오흉강경술에서 재발을 낮추기 위해 수술시 폐야 전체를 관찰하여 존재하는 폐기포를 놓치지 않는 것이 중요하며, 폐기포를 확인하지 못한 경우와 이차성 자연기흉에 대해서는 흉막유착술에 더 세심한 주의가 필요하다는 것을 확인하였다. 비디오흉강경수술은 통증이 적고, 입원기간이 짧고, 사회로의 복귀가 빠르며, 고위험군에 적용할 수 있고, 무엇보다도 미용상의 이점이 크다는 면에서 자연기흉에 대해 유용한 치료방법임에는 틀림이 없으나 개흉술에 비해 재발율이 높고 비용이 비싸다는 문제가 제기되고 있는 만큼

  • PDF

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법 (Translation Pre-processing Technique for Improving Analysis Performance of Korean News)

  • 이지민;정다운;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

색상레이어를 이용한 스팸메일 영상에서의 텍스트 영역 추출 (Extraction of Text Regions from Spam-Mail Images Using Color Layers)

  • 김지수;김수형;한승완;남택용;손화정;오성열
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.409-416
    • /
    • 2006
  • 본 논문에서는 스팸메일 영상에서 텍스트 영역의 추출을 위한 색상 레이어기반의 알고리즘을 제안한다. CLTE(color layer-based text extraction)는 색상 레이어를 사용하여 영상을 8개로 나눈다. 8개 각각의 영상에서 연결요소를 추출한 후, 연결요소의 크기에 의해서 텍스트 영역과 비텍스트 영역을 분류하고 텍스트 영역을 추출한다. 또한, 추출된 텍스트 영역으로부터 회손된 획 정보를 복구하는 알고리즘을 제안한다. 이진영상내의 한글 문자에는 두 가지 형태의 손상된 획이 존재한다. 첫째 중성 획에 해당하는 'ㅣ' 나 'ㅡ' 등의 획들이 지워지는 경우와, 둘째 초 종성 획에 해당하는 'ㅁ' 이나 'ㅇ'이 흑화소로 채워지는 경우가 있다. 제안한 알고리즘은 이러한 두 가지 손상된 획들을 복구해준다. 200개의 스팸메일 영상을 사용한 실험 결과 제안한 알고리즘이 기존의 텍스트 추출 알고리즘보다 10% 이상 우수함을 관측하였다.

비디오 품질 향상 응용을 위한 오버레이 텍스트 그래픽 영역 검출 (Overlay Text Graphic Region Extraction for Video Quality Enhancement Application)

  • 이상희;박한성;안정일;온영상;조강현
    • 방송공학회논문지
    • /
    • 제18권4호
    • /
    • pp.559-571
    • /
    • 2013
  • 2차원 비디오를 3차원 스테레오 비디오로 변환할 때 기존 비디오에 삽입되어 있는 오버레이 텍스트(overlay text) 그래픽 영역으로 인해 발생하는 문제점을 이 논문에서 제시한다. 이를 해결하기 위한 방법으로 2차원 비디오를 오버레이 텍스트 그래픽 영역만 있는 영상과 오버레이 그래픽 영역이 추출되어 홀(hole)이 있는 영상으로 분리하여 처리하는 시나리오를 제안한다. 그리고 이 시나리오의 첫 번째 단계로 오버레이 텍스트 영역을 검색하고 추출하는 방법에 대해서만 이 논문에서 논한다. 비디오 시퀀스(sequence)가 입력되면 불필요한 연산 과정을 줄이기 위해 해리스 코너(Harris corner)로 얻어진 코너 밀도 맵을 이용하여 프레임 내 오버레이 텍스트의 존재 유무를 먼저 판단한다. 오버레이 텍스트가 있다면, 색(color) 정보와 움직임(motion) 정보를 결합하여 오버레이 텍스트 그래픽 영역을 검색하고 추출한다. 실험에서는 여러 가지 장르의 방송용 비디오에 대한 처리 결과를 보여주고 분석했다.