• Title/Summary/Keyword: 학술적 텍스트

Search Result 1,089, Processing Time 0.024 seconds

Use of Text Processing Technologies in a Semantic Web Application (시맨틱 웹 응용 서비스에서의 텍스트 처리 기술 적용)

  • Jung, Han-Min;Kang, In-Su;Koo, Hee-Kwan;Lee, Seung-Woo;Kim, Pyung;Sung, Won-Kyung
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.189-196
    • /
    • 2006
  • 본 논문은 시맨틱 웹 응용 서비스를 구현함에 있어 필수적으로 요구되는 온톨로지 인스턴스 구축을 효율적으로 처리하는 데 있어 텍스트 처리 기술이 어떤 역할을 수행할 수 있는 가를 $OntoFrame-K^{(R)}$라는 시맨틱 웹 기반 정보 유통 체계에의 적용 사례를 통해 살펴본다. 본 논문에서 소개하는 텍스트 처리 기술은 개체 확인물 통한 개념 사례화, 주제 분야 할당을 통한 메타데이터 확장에, 그리고 인용 정보 추출 및 인용 관계 구축을 통한 객체 관계속성 구축에 적용된다. 개체 확인에서는 메타데이터 비교 잊 병합을 사용하였으며 이를 기반으로 한 수작업 구축을 통해 8,543명의 인력 URI를 확보하였다. 주제 및 분야 할당에서는 색인어와 분야분류명이 매핑된 시소러스 개념어의 매칭을 통해 색인어 별 TF (Term Frequency), 색인어와 매칭된 개념어 별 TF, 색인어와 매칭된 개념어 별 시소러스에서의 깊이, 색인어와 매칭된 개념어 별 개념 패싯, 색인어와 매칭된 각 개념어에 부착된 분야분류명 목록 등 할당을 위한 다양한 자질을 확보 적용하였다. 인용 정보 추출과 인용 관계 구축에서는 객체 URI와 인력 URI를 기반으로 하여 자동 추출된 인용 정보를 반영하는 방식으로 7,237개 문헌으로부터 총 135개의 인용 네트워크 그룹을 자동으로 확보하였다. 본 연구를 통해 제시된 텍스트 처리 기술의 활용 방안이 향후 시맨틱 웹 응용 서비스 및 인프라 구현에서 다각적으로 활용될 수 있기를 기대한다.

  • PDF

Composite Document Object Retrieval and Searching System-[IN2] DOR (복합문서 개체 검색 시스템- [IN2] DOR)

  • Ahn, Tae-Sung;Yim, Joong-Su;Kim, Myung-Hoon;Ahn, Woo-Ram;Lee, Kyung-Il
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.113-118
    • /
    • 2003
  • 기존 문서 검색 시스템의 경우 단순히 문서 내에서 텍스트를 추출한 후 그 텍스트를 색인, 검색하는 형태를 가지고 있었다. 본 논문에서는 MS Word, Excel, HWP 등 다양한 형태의 문서에서 텍스트, 표, 이미지, 차트, 동영상 등의 문서 개체를 분석, 색인하고 이를 검색하는 시스템의 개발 방법을 제외하였다. 제안된 시스템은 문서의 내부 자료 구조를 CDML(Composite Document Markup Language)로 변환하고, 이를 색인, 저장함으로 기존의 전문 검색 시스템의 한계를 효과적으로 극복했으며, 문서 내의 검색 대상 개체로 자동 이동하고 하일라이팅 시키는 기술을 구현함으로 사용자 편익성을 높였다. 개발된 시스템의 성능을 평가한 결과, 다양한 문서 형식에 대해 평균 97% 이상의 CDML변환 성공률과 개체 검색 성공률을 보였으며, 이진 파일에서 직접 개체를 추출함으로 매우 높은 분석 및 색인 속도가 달성되었음을 확인할 수 있었다. 본 논문에서 소개된 새로운 패러다임의 문서 검색 솔루션을 통해 다양한 기술적 상업적 파급 효과가 기대되고 있다.

  • PDF

A Clustering-based Undersampling Method to Prevent Information Loss from Text Data (텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법)

  • Jong-Hwi Kim;Saim Shin;Jin Yea Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

Box Office Hit Prediction Using Data mining and Text mining (데이터마이닝과 텍스트마이닝을 활용한 영화 흥행 예측)

  • Jo, Hyo-jung
    • Annual Conference of KIPS
    • /
    • 2021.05a
    • /
    • pp.316-318
    • /
    • 2021
  • 영화 수익에 있어 영화의 흥행 여부는 중요한 영향을 끼친다. 영화 흥행 요인은 영화 산업의 규모가 커지면서 많은 제작사들 및 투자자들이 고려해야 하는 사항이 되었다. 따라서 영화의 흥행을 예측하기 위한 많은 모델이 연구되었다. 본 연구의 목적은 선행연구에서 흥행에 유의미한 영향을 끼친다고 밝혀진 스크린 수, 감독명, 제작사명 등의 내재적인 속성과 더불어 온라인 구전 변수를 사용하여 영화 흥행 예측 모델을 만드는 것이다. 이때 기사 수, 블로그 수와 같이 온라인 구전의 크기를 나타내는 변수들을 사용하는 대신 개봉 후 첫 주간의 관람객 리뷰를 텍스트마이닝을 이용하여 전체 리뷰 중 긍정 리뷰의 비율에 따라 점수를 매긴 후 독립변수로 사용한다. 그 후, 데이터 마이닝 기법을 활용하여 만든 모델에 앞서 언급한 독립변수를 입력 값으로 사용하여 영화의 흥행을 예측한다. 최종적으로 의사결정트리와 로지스틱회귀를 수행한 결과 영화 흥행에 영향을 주는 독립변수를 찾고 모델의 성능을 평가하였다. 로지스틱회귀의 결과 관객 수, 평점이 영화의 흥행에 특히 유의한 영향을 끼치는 변수로 선정되었고 리뷰 역시 유의한 변수로 선정되었다. 이때 만들어진 모델은 약 90%의 높은 수준의 정확도를 보여주었다. 의사결정트리의 결과 관객 수가 가장 중요한 변수로 선정되었다.

BERT-based Hateful Text Filtering System - Focused on University Petition System (BERT 기반 혐오성 텍스트 필터링 시스템 - 대학 청원 시스템을 중심으로)

  • Taejin Moon;Hynebin Bae;Hyunsu Lee;Sanguk Park;Youngjong Kim
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.714-715
    • /
    • 2023
  • 최근들어 청원 시스템은 사람들의 다양한 의견을 반영하고 대응하기 위한 중요한 수단으로 부상하고 있다. 그러나 많은 양의 청원 글들을 수작업으로 분류하는 것은 매우 시간이 많이 소요되며, 인적 오류가 발생할 수 있는 문제점이 존재한다. 이를 해결하기 위해 자연어처리(NLP) 기술을 활용한 청원 분류 시스템을 개발하는 것이 필요하다. 본 연구에서는 BERT(Bidirectional Encoder Representations from Transformers)[1]를 기반으로 한 텍스트 필터링 시스템을 제안한다. BERT 는 최근 자연어 분류 분야에서 상위 성능을 보이는 모델로, 이를 활용하여 청원 글을 분류하고 분류된 결과를 이용해 해당 글의 노출여부를 결정한다. 본 논문에서는 BERT 모델의 이론적 배경과 구조, 그리고 미세 조정 학습 방법을 소개하고, 이를 활용하여 청원 분류 시스템을 구현하는 방법을 제시한다. 우리가 제안하는 BERT 기반의 텍스트 필터링 시스템은 청원 글 분류를 자동화하고, 이에 따른 대응 속도와 정확도를 향상시킬 것으로 기대된다. 또한, 이 시스템은 다양한 분야에서 응용 가능하며, 대용량 데이터 처리에도 적합하다. 이를 통해 대학 청원 시스템에서 혐오성 발언 등 부적절한 내용을 사전에 방지하고 학생들의 의견을 효율적으로 수집할 수 있는 기능을 제공할 수 있다는 장점을 가지고 있다.

What Do Students Want In The Classroom? (컴퓨터관련 대학 수업에서 학습자가 원하는 것)

  • An, Dong-Kyu;Choi, Jung-Woong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.155-156
    • /
    • 2016
  • 대학 교육현장에서 수많은 비정형화된 데이터가 생산되고 있는데 그중 관심 있게 볼 부분은 학생들의 서술적 강의평가이며, 본 논문에서는 대학에서 시행하는 서술적 강의평가를 활용하여 컴퓨터를 활용하는 수업에서 학생들이 원하는 상호작용을 분석하였다. 분석을 위해 빅데이터에서 활용하는 텍스트 마이닝 기법을 활용하였으며 분석결과 컴퓨터관련 관련 수업에서 필요한 학습자 상호작용은 주로 흥미, 기회, 열정, 재미, 참여, 유익, 친절 등으로 나타났다. 현재 5점 척도로 보여 지는 강의평가 점수는 진정 학습자가 원하는 것이 무엇인지 파악이 어렵기 때문에 관련 연구가 지속적으로 필요하다. 또한 향후 컴퓨터를 활용하지 않은 수업과 비교함으로써 대학 컴퓨터 관련 수업의 특징을 구분할 필요가 있을 것으로 여겨진다.

  • PDF

Implementation of JBIG2 CODEC using Segmentation for Effective Compression (효율적인 압축을 위한 영역 세그먼트를 이용한 JBIG2 CODEC 구현)

  • 백옥규;고형화
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.37-40
    • /
    • 2001
  • JBIG2 표준은 그레이 문서를 고압축의 이진 영상으로 부호화 하기위하여 선 영역(region of line-art), 하프톤 영역(region of Halftone), 텍스트 영역(region of Text)으로 세그먼트하여 각각 영역에 최적화 모드를 사용하여 부호화한다. 본 논문에서는 JBIG2에서 제공하는 세가지 모드의 코딩, 즉, 제네릭 영역(region of Generic) 코딩, 텍스트 영역을 위한 패턴 매칭(Pattern Matching) 코딩, 하프톤 영역을 위한 하프톤 코딩을 모두 구현하였다. 그리고, 각 영역을 세그먼트하는 방법을 개선하여 적용하여 세그먼트의 성능 향상을 이루었다. 특히, 부호화량이 많은 하프톤 영역의 세그먼트를 향상시켜 최적화 모드로 부호화 하도록 구현하였다. 팩스 테스트 영상(IEEE-l67a)으로 구현한 JBIC2 CODEC을 실험한 결과, 각 영역에 대한 세그먼트가 [6]의 방법에 의한 세그먼트보다 더 효율적으로 이루어졌으며 주관적 화질 또한 우수하였다.

  • PDF

Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts (한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축)

  • Noh, Eunchung;Lee, Yeonsoo;Kim, YeonWoo;Lee, Do-Gil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

Korean Surface Realizer Based on Topic-Comment Structure (토픽-코멘트 구조에 기반한 한국어 표층 생성기)

  • Kim, Jung-Eun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.503-508
    • /
    • 2001
  • 본 논문은 자연언어생성 기술을 이용하여 질병에 대한 기술문을 생성해 내는 시스템에서 사용되는 표층 생성기에 대해서 다루고 있다. 표층 생성기는 문장의 추상적인 표현으로부터 통사적으로, 형태론적으로 올바른 텍스트로 생성하여 내는 것을 목표로 한다. 질병에 관한 기술문에 있는 문장들은 두가지 특징을 가지고 있다. 첫번째로, 질병 기술문의 문장들은 토픽-코멘트 구조로 나타내어질 수 있다. 두번째로, 같은 의미 범주에 속하는 문장들은 같은 토픽을 가진다. 따라서, 토픽은 의미범주로부터 유추될 수 있으므로 표층 생성기의 입력인 구 명세 (phrase specification)에 표현될 필요가 없다. 본 논문에서는 이런 특징을 이용하여 효율적인 표층 생성기를 만들기 위하여 표층 생성의 단계를 내부 표현 생성과 외부 문장 생성의 두 단계로 나누었다. 내부 표현 생성 단계에서는 코멘트에 해당하는 부분을 생성하고 외부 문장 생성 단계에서 의미범주 태그에 따라 토픽을 첨가하여 최종 문장으로 생성하였다. 이런 방법으로 실험한 결과, 본 표층 생성기는 문법에 맞으면서 자연스러운 텍스트를 생성해 낸다는 것을 알 수 있었다.

  • PDF

Implementation of SMIL Authoring Tool for Synchronized Multimedia Data Integration (멀티미디어 데이터의 통합 및 동기화를 위한 SMIL(Synchronized Multimedia Integration Language) 전용 저작도구의 구현)

  • 김세영;신화종;김상국;신동일;신동규
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.16-18
    • /
    • 2000
  • 인터넷의 비약적인 발달로 인해 복잡해진 지식체계에 따른 다양해진 정보를 손쉽게 구할수 있게 되었으나, HTML(Hyper Text Markup Language)과 같은 정적인 텍스트 위주의 고정된 내용의 웹 페이지 저작으로는 멀티미디어에 대한 점차 증대되는 사용자의 요구를 수용할 수 없게 되었다. 시간에 기반을 둔 멀티미디어 객체를 동기화 하는 효과적인 프레젠테이션을 기술할 수 있는 SMIL(Synchronized Multimedia Integration Language)이 W3C(World Wide Web Consortium)에 의해 제안되었다. 이러한 SWIL은 선언적 마크업(Markup) 언어이므로 텍스트 편집기 등으로 쉽게 저작할 수 있으나, 태그(Tag)기반 언어이므로 태그를 암기하고 사용법을 숙지하여야만 효과적인 멀티미디어 프레젠테이션 제작이 가능하다. 이러한 문제점을 해결하기 위해 본 논문에서는 Java를 기반으로 하여 사용자 편의적인 GUI(Graphical User Interface)에 입각한 멀티미디어 데이터의 통합 및 동기화를 위한 SMIL 전용 저작도구의 구현 및 향후 개발 방향을 제시하였다.

  • PDF