• Title/Summary/Keyword: 전자텍스트

검색결과 442건 처리시간 0.023초

풀 텍스트 전자출판물

  • 롤리스틸;비비안카사비안
    • 디지털콘텐츠
    • /
    • 1호통권68호
    • /
    • pp.75-81
    • /
    • 1999
  • 일상생활에서 컴퓨터의 상용화를 고려해 보면, 이제 책도 전자출판 형태로 이용가능해졌다는 것은 놀라운 일이 아니다. pc는 불앞에 두면 망가지기 때문에 아직도 조금은 거추장스럽다(목욕탕에 가지고 들어가도 위험하다). 문학을 전자형태로 접근하는 것에 대해서는 아직도 얘기할 여지가 많이 있다. 현재로서는 고전을 공부하는 사람들이 주로 관심을 가지는 것 같다.

  • PDF

미디어 리뷰를 이용한 영화 배경 키워드 자동 추출 기법 (Automatic Background Keyword of Movie Extraction Method from Media Reviews)

  • 김형우;조준면;유정주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1149-1151
    • /
    • 2013
  • 본 연구는 영화 콘텐츠의 배경(공간적/시간적)에 해당하는 키워드를 자동으로 추출하는 기법을 제안한다. 제안된 기법은 영화 콘텐츠들의 리뷰 텍스트 데이터를 웹 상으로부터 수집하는 과정, 수집된 텍스트 리뷰 데이터의 전처리 과정에 해당하는 형태소 분석 및 개체명인식 과정, 마지막으로 통계적 기법을 이용하여 최종적으로 배경에 해당하는 단어를 선택하는 과정으로 이루어진다. 자동으로 추출된 배경 정보는 사용자 평가를 통하여 정확도를 측정하였으며, 자동 생성된 배경 정보를 이용하여 영화 콘텐츠의 검색 및 추천 등에 다양하게 사용될 수 있을 것으로 예상된다.

한국어 스타일 변환 기반 데이터 증강을 이용한 감성 분류 성능 향상 (Improving Performance of Sentiment Classification using Korean Style Transfer based Data Augmentation)

  • 고은우;이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.480-484
    • /
    • 2022
  • 텍스트 분류는 입력받은 텍스트가 어느 종류의 범주에 속하는지 구분하는 것이다. 분류 모델에 있어서 좋은 성능을 나타내기 위해서는 충분한 양의 데이터 셋이 필요함을 많은 연구에서 보이고 있다. 이에 따라 데이터 증강기법을 소개하는 많은 연구가 진행되었지만, 실제로 사용하기 위한 모델에 곧바로 적용하기에는 여러 가지 문제점들이 존재한다. 본 논문에서는 데이터 증강을 위해 스타일 변환 기법을 이용하였고, 그 결과 기존 방법 대비 한국어 감성 분류의 성능을 높였다.

  • PDF

SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전 (LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts)

  • 최성용;신동혁;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF

한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구 (Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension)

  • 이강욱;이해준;김재원;윤희원;유원호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

문서기술언어 SGML에 의한 전문 데이터베이스의 구축 (Construction of Full-text Database by SGML)

  • 김창봉
    • 정보관리연구
    • /
    • 제27권4호
    • /
    • pp.35-56
    • /
    • 1996
  • 문서기술언어 SGML(Standard Generalized Markup Language, 표준 범용 마크업 언어)과 그 전문 데이터베이스(도표나 화상 포함)에의 적용에 대하여 해설하였다. SGML을 적용한 전문데이터베이스의 구조는 SGML로 작성한 DTD (document type definition)로 표현하고 텍스트자체는 DTD에 따른 범용 마크업을 사용하여 기술한다. 본고에서는 장, 절, 단락 등의 계층구조와 각주, 도표, 화살 등의 비계층 구조로 되어 있는 문서 구조를 어떻게 표현하는가에 대하여 예를 들어 해설하였다. 그러고 SGML의 효과, 전자 출판, 검색 시스템, 하이퍼텍스트, SGML 관련 도구 등에 대해서도 해설하였다.

  • PDF

TAPAS를 이용한 사전학습 언어 모델 기반의 표 질의응답 (Table Question Answering based on Pre-trained Language Model using TAPAS)

  • 조상현;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-90
    • /
    • 2020
  • 표 질의응답은 반-정형화된 표 데이터에서 질문에 대한 답을 찾는 문제이다. 본 연구에서는 한국어 표 질의응답을 위한 표 데이터에 적합한 TAPAS를 이용한 언어모델 사전학습 방법과 표에서 정답이 있는 셀을 예측하고 선택된 셀에서 정확한 정답의 경계를 예측하기 위한 표 질의응답 모형을 제안한다. 표 사전학습을 위해서 약 10만 개의 표 데이터를 활용했으며, 텍스트 데이터에 사전학습된 BERT 모델을 이용하여 TAPAS를 사전학습한 모델이 가장 좋은 성능을 보였다. 기계독해 모델을 적용했을 때 EM 46.8%, F1 63.8%로 텍스트 텍스트에 사전학습된 모델로 파인튜닝한 것과 비교하여 EM 6.7%, F1 12.9% 향상된 것을 보였다. 표 질의응답 모델의 경우 TAPAS를 통해 생성된 임베딩을 이용하여 행과 열의 임베딩을 추출하고 TAPAS 임베딩, 행과 열의 임베딩을 결합하여 기계독해 모델을 적용했을 때 EM 63.6%, F1 76.0%의 성능을 보였다.

  • PDF

텍스트마이닝 기반 아동 감정 분석 시스템 및 아동용 감정 사전 구축 방안 (A Child Emotion Analysis System using Text Mining and Method for Constructing a Children's Emotion Dictionary)

  • 박영준;김선용;김요한
    • 한국전자통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.545-550
    • /
    • 2024
  • 급격하게 변화되는 사회 속에서 현대인들은 다양한 스트레스를 경험하고 있으며, 아동 또한 정신 건강 진료량이 눈에 띄게 증가하고 있다. 소아정신건강장애 등 아동의 정신 건강 문제를 예방하기 위해서는 감정 상태를 빠르게 파악해야 하지만, 유아기 아동들은 몇 가지 단어만을 사용하여 자신의 감정을 표현하는 경우가 많기에 어려움이 있다. 본 논문에서는 아동 심리 상태를 우울, 불안, 외로움, 두려움 등 4가지의 감정으로 세분화하고 아동 심리 전문가의 점수를 기반으로 한 아동용 감정 사전 구축 방안을 제안한다. 또한, STT 및 텍스트 마이닝 기반의 아동 감정 분석 시스템을 제안하고 실제 음성 데이터로 성능을 평가하였다. 평가 결과는 제안한 아동용 감정 분석 시스템이 아동 감정 상태를 정확하게 파악할 수 있음을 보여준다.

21세기 공공도서관의 발전방향

  • 현규섭
    • 한국비블리아학회:학술대회논문집
    • /
    • 한국비블리아학회 2002년도 발표논집 제7집
    • /
    • pp.7-23
    • /
    • 2002
  • 공공도서관의 미래는 전자화된 정보의 통신 체계 확립과 확산된 컴퓨터의 보급으로 인하여 급격한 변화를 마지하게 될 것이다. 변화의 핵심에는 "텍스트성의 종언"과 "가상세계의 공유된 환각"의 가능성이 역동적인 작용력으로 잠복되어 있다. 공공도서관은 이들 두 가지의 변인이 초래하는 시대에 어떻게 존재하여야 하는지를 고찰하여 보려한다. 먼저 탈 구조주의이론이 제기하는 "텍스트성의 종언"이라는 명제를 살펴보고자 한다. 다음으로 사이버 스페이스의 무한 가능성에 대한 이해를 설명한다. 이를 통하여 공공도서관이 있어야 할 존재양식을 제시하고자 한다. 이러한 시도는 무모한 모험이 될 것이다. 그러나 장래에 대비하기 위한 방향을 설정하는 데에는 유용한 관찰이 될 수 있을것이다.향을 설정하는 데에는 유용한 관찰이 될 수 있을것이다.

  • PDF