• 제목/요약/키워드: 텍스트 처리

검색결과 1,358건 처리시간 0.029초

텍스트 분야 적대적 공격 기법 연구 동향 (Research Trends of Adversarial Attack Techniques in Text)

  • 김보금;강효은;김용수;김호원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.420-422
    • /
    • 2022
  • 인공지능 기술이 문서 분류, 얼굴 인식, 자율 주행 등 실생활 전반에 걸쳐 다양한 분야에 적용됨에 따라, 인공지능 모델에 대한 취약점을 미리 파악하고 대비하는 기술의 중요성이 높아지고 있다. 이미지 영역에서는 입력 데이터에 작은 섭동을 추가해 신경망을 속이는 방법인 적대적 공격 연구가 활발하게 이루어졌지만, 텍스트 영역에서는 텍스트 데이터의 이산적인 특징으로 인해 연구에 어려움이 존재한다. 본 논문은 텍스트 분야 인공지능 기술에 대한 적대적 공격 기법을 분석하고 연구의 필요성을 살펴보고자 한다.

KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류 (Text Classification using Cloze Question based on KorBERT)

  • 허정;이형직;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

서버,클라이언트를 이용한 분산형 멀티미디어 데이터베이스 구축 (Construction of Distributed Multimedia Database using by server and client)

  • 하태용;신용백;왕지남
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 1994년도 추계학술대회 논문집
    • /
    • pp.801-805
    • /
    • 1994
  • 멀티미디어(화상,음성,하이퍼텍스트)의 데이터는 다른 데이터와 상이점이 많아 운용에 어려움이 있다. 대용량의 저장용량(storage)의 필요, 데이터 통신의 어려움 등이 빠르게 발전하는 멀티미디어 기술에 제약조건이 된다. 본 연구에서는 멀티미디어 데이터가 일 반적인 텍스트(Text)데이터와 같이 높은 수행도(Performance) 및 안정적인 데이터베이스 (Database)로 구축되어 효율적으로 운용 되는데 중점을 둔다. 아울러 대량의 정보를 처리하기 위하여 서버(server)와 클라이언트(Client)기법을 이용한 분산처리로 실시간 처리 및 데이터 저장의 한계를 극복하고자 한다.

  • PDF

의미적으로 확장된 문장 간 유사도를 이용한 한국어 텍스트 자동 요약 (Korean Text Automatic Summarization using Semantically Expanded Sentence Similarity)

  • 김희찬;이수원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.841-844
    • /
    • 2014
  • 텍스트 자동 요약은 수많은 텍스트 데이터를 처리함에 있어 중요한 연구 분야이다. 이중 추출요약은 현재 가장 많이 연구가 되고 있는 자동 요약 분야이다. 본 논문은 추출 요약의 선두 연구인 TextRank는 문장 간 유사도를 계산할 때 문장 내 단어 간의 의미적 유사성을 충분히 고려하지 못하였다. 본 연구에서는 의미적 유사성을 고려한 새로운 단어 간 유사도 측정 방법을 제안한다. 추출된 문장 간 유사도는 그래프로 표현되며, TextRank의 랭킹 알고리즘과 동일한 랭킹 알고리즘을 사용하여 실험적으로 평가하였다. 그 결과 문장 간 유사성을 고려할 때 단어의 의미적 요소를 충분히 고려하여 정보의 유실을 최소화하여야 한다는 것을 실험 결과로써 확인할 수 있었다.

ChatGPT 를 활용한 영상 요약 모델에 관한 연구 (Video Summarization with ChatGPT)

  • 이원호;강준규 ;성나영 ;조수현 ;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.694-695
    • /
    • 2023
  • 최근 ChatGPT 를 각 분야에 활용하는 연구가 활발하게 이루어지고 있다. ChatGPT 는 최신 자연어 처리 모델로, 텍스트를 통해 입출력을 진행한다. 본 논문에서는 이러한 ChatGPT 를 활용하여 영상을 효과적으로 요약할 수 있는 새로운 접근 방식을 제시한다. STT 기술을 사용하여 영상의 자막에 대한 텍스트 파일을 추출하고 이를 ChatGPT 로 요약한다. 최종적으로 기존 텍스트와의 유사도 분석을 통해 유사도가 높은 부분을 선택하여 영상을 편집하고 요약한다.

Web URL Page 의 Image Logging 기법 (Image Logging Technique of a Web URL Page on the Tiny Web Server)

  • 유승희;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.679-682
    • /
    • 2008
  • 기존의 웹서버는 텍스트형식의 로그파일을 기록한다. 웹 서버에서 로그파일은 클라이언트의 웹서버에 대한 접속정보와 웹서버의 처리상황 등 모든 상황을 기록하고 저장한다. 이 정보를 분석하면 웹 서비스를 하는데 있어서 웹 서비스의 질을 높이는데 좋은 참고자료가 될 뿐 아니라 웹 서버에 이상이 생겼을 경우 발생한 오류를 조기에 발견하는 데에도 사용되는 중요한 자료이다. 현재 이러한 로그파일은 텍스트 파일로 저장되어있기 때문에 조작의 가능성도 있고 오랜 시간이 지나 해당 웹 페이지가 삭제되었을 경우 로그파일에 기록된 그 시각의 웹 페이지를 볼 수 없다. 본 연구에서는 로그파일에 기록된 그 시간의 웹 URL 페이지 이미지를 저장하여 이미지 로그파일을 만드는 시스템을 구현해 봄으로써 텍스트형식 로그파일의 단점을 보안하고 오랜 시간이 지난 후에도 그 웹 페이지를 볼 수 있는 기법을 연구하였다. 이 기법은 로그파일로써의 역할 뿐만 아니라 Digital Forensics 로 범죄 수사에도 많은 도움이 될 수 있고 휴대전화에서 풀 인터넷 브라우징 연구에도 적용될 수 있다.

대용량 한글 텍스트 검색 엔진 HMG의 구현 (Implementation of Very Large Hangul Text Retrieval Engine HMG)

  • 박미란;나연묵
    • 한국멀티미디어학회논문지
    • /
    • 제1권2호
    • /
    • pp.162-172
    • /
    • 1998
  • 본 논문에서는 영문 텍스트 검색 엔진인 MG(Managing Gigabytes) 시스템과 한글 형태소 분석기 HAM (Hangul Analysis Module)을 이용하여 기가바이트 크기의 텍스트 데이타 처리가 가능한 한글 텍스트 검색 엔진 HMG(Hangul MG)를 구현하였다. 한글 처리를 위해 KSC 5601 완성형 코드를 사용하여 데이타베이스 구축 단계와 질의 처리 단계에서 사용하였다. HMG의 개발을 위해 MG 시스템의 렉시칼 분석기와 파서, 인텍스 구성 모률을 수정하였다. HMG 시스템의 유용성을 보이기 위해 웹에서 한글 소설을 검색할 수 있도록 하는 N NOD (Novel On Demand) 시스템올 구현하였다. HMG 시스템은 한글이 포함된 대규모 전문 검색 시스템의 구축에 활용될 수 있다.

  • PDF

체인 정합과 확장된 그룹핑 방법을 사용한 곡선형 텍스트 라인 추출 (Extracting curved text lines using the chain composition and the expanded grouping method)

  • ;윤진선;송영준;김남;김용기
    • 정보처리학회논문지B
    • /
    • 제14B권6호
    • /
    • pp.453-460
    • /
    • 2007
  • 본 논문은 정형화되지 않은 텍스트 라인들을 추출하기 위한 방법을 보여주고 있다. 텍스트 라인들은 각기 다른 각도로 구성되고, 심하게 굴곡이 있는 모양, 그리고 텍스트 라인내의 약간의 단어 사이의 공간이 생기게 된다. 그러한 텍스트 라인들은 포스터, 주소, 그리고 예술 문서 등에서 발견된다. 제안하는 방법은 기존의 직관적인 그룹핑 방법에 기반을 두고 있지만, 하나의 라인에서 발생하는 불충분한 특징점들과 모호한 회전 등을 극복하기 위한 방법을 개발하였다. 본 논문에서 텍스트 라인들은 몇 개의 연결된 성분들로 구성되고, 이 성분들은 하나의 문자 또는 연결된 문자들의 검은색 화소들의 집합이라고 가정하였다. 제안하는 방법은 반복적으로 증가되는 임계값과 가까운 성분들은 하나의 체인으로 병합하게 되고 확장되어 길어진 체인들은 라인의 원시 체인으로서 인지된다. 그때 원시 체인들은 텍스트 라인의 부분적 회전에 따라 좌우로 확장되어 진다. 텍스트 라인의 부분적인 회전은 원시 체인이 확장될 때, 체인들의 각 면에서 재구성될 것이다. 이러한 과정을 통해서 모든 텍스트 라인들이 구성되어 진다. 제안 방법은 로고와 슬로건에서 사용된 곡면으로 쓰여진 텍스트 라인들에 대해서 실험한 결과 직선 텍스트 라인은 98%, 곡선 텍스트 라인은 94%로서 높은 추출율을 보여주고 있다.

안드로이드 정적분석 기반 개인정보 처리방침의 신뢰성 분석 (Reliability Analysis of Privacy Policies Based on Android Static Analysis)

  • 정윤교
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.221-224
    • /
    • 2022
  • 모바일 사용자가 증가함에 따라 모바일 앱에서 사용자가 허용하지 않은 개인정보가 유출되는 프라이버시 문제가 많아졌다. 이를 해결하기 위해 구글은 앱스토어에 등록된 앱이 사용자의 개인정보를 어떻게 활용하는지 개인정보 처리방침에 명시하도록 했다. 하지만 개인정보 처리방침이 실제로 앱의 개인정보 수집 및 처리 과정을 정확히 공개하는지 확인할 수 있는 해결책이 없으며, 사용자는 앱이 개인정보를 어떻게 활용하는지 알기 위해 개인정보 처리방침에 의존해야만 한다. 본 연구에서는 안드로이드 정적 분석으로 앱이 접근할 수 있는 데이터를 확인하고, 개인정보 처리방침의 텍스트를 추출 및 분석한 뒤 결과를 비교하여 개인정보 처리방침의 신뢰성을 분석한다. 실험을 위해 구글 앱스토어에 등록된 13,223개 앱의 패키지 파일과 부가정보를 수집했고 전처리 과정을 거쳐 분석 가능한 앱을 선정했다. 선정한 앱의 모바일 앱 분석 결과와 텍스트 분석 결과를 비교하여 모바일 앱이 개인정보 처리방침에 명시된 것보다 더 많은 개인정보에 접근할 수 있음을 입증한다.

SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전 (LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts)

  • 최성용;신동혁;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF