• 제목/요약/키워드: 문서구조추출

검색결과 334건 처리시간 0.038초

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

의미 기반의 질의 분석 및 확장 (Question Analysis and Expansion based on Semantics)

  • 신승은;박희근;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제7권7호
    • /
    • pp.50-59
    • /
    • 2007
  • 본 논문에서는 효율적인 정보검색을 위한 의미 기반의 질의 분석 및 확장을 제안한다. 기존의 정보검색 시스템들은 사용자 질의로 자연언어 질의를 허용하고 있지만 단순히 명사 단어의 색인어를 사용자 질의로부터 추출하여 정보검색에 활용하기 때문에 사용자의 질의 의도를 반영한 정보검색을 하지 못한다. 이러한 문제점을 해결하기 위해서 의미 기반 질의 분석 및 확장은 사용자의 질의를 의미적으로 분석하여, 질의유형을 결정하고 의미 자질들을 추출한다. 추출된 의미 자질들과 정답을 표현하기 위해 사용되는 구문구조를 이용하여 사용자 질의를 확장한다. 또한 확장된 질의를 이용하여 정답을 포함하는 관련문서들을 정보검색 결과의 상위에 랭크시킬 수 있는 방법을 제시한다. 비교적 짧지만 사용자의 질의 의도를 충분히 표현하고 있는 자연언어 질의에 대한 의미 기반의 질의 분석 및 확장을 통해 정보검색의 정확률을 향상시킬 수 있음을 보였다.

UML 모델을 OWL-S 온톨로지로 변환하기 위한 모델지향접근방식 (A Model-Driven Approach for Converting UML Model to OWL-S Ontology)

  • 김일웅;이경호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권3호
    • /
    • pp.179-192
    • /
    • 2007
  • 온톨로지에 기반한 시맨틱 웹 서비스는 웹 서비스의 자동화된 탐색, 선택, 조합을 지원한다. 특히 시맨틱 웹 서비스 기술 표준인 OWL-S는 서비스의 의미적 기술을 제공하기 위해 만들어진 온톨로지 언어이다. 한편 OWL-S는 문법이 복잡하여 일반 사용자가 OWL-S 문서를 직접 생성하는 것은 어렵다. 본 논문에서는 현재 소프트웨어 설계 및 개발을 위해서 널리 사용 중인 UML 다이어그램으로부터 OWL-S 문서를 편리하게 생성할 수 있는 방법을 제안한다. 제안한 방법은 프로세스의 흐름을 기술한 순차 다이어그램 및 활동 다이어그램으로부터 OWL-S 온톨로지를 생성하기 위해서 UML 프로파일을 기반으로 하고 있다. UML 다이어그램은 XMI 파일로 추출되고 XSLT 스크립트를 통해 OWL-S 온톨로지로 변환된다. 제안한 방법은 복합 프로세스의 다양한 제어구조를 지원할 수 있는데, 이 논문에서는 다양한 종류의 UML 다이어그램을 대상으로 실험함으로써 이를 보였다.

빅데이터 분석을 통해 본 한국 위키피디아의 지식형성 과정에 관한 연구 (A Study on the Knowledge Formation Process of Wikipedia in Korea through Big Data Analysis)

  • 이정연;전수현
    • 정보관리학회지
    • /
    • 제37권2호
    • /
    • pp.171-195
    • /
    • 2020
  • 본 연구는 대표적인 온라인 협업커뮤니티인 한국 위키피디아의 초기 2002년부터 2019년까지의 편집로그 빅데이터를 해체하여 공동협업과정을 시계열적으로 분석하였다. 공개된 오픈데이터의 표준화된 XML 문서편집 기록을 활용해 Phython과 R을 이용하여 분석 요소를 추출하여 이를 활용하였다. 연구 분석 결과 한국 위키피디아 편집자의 참여 방법, 데이터 내용의 특징, 문서 생성의 추이 등을 설명할 수 있었다. 소수 편집자들의 적극적 활동과 대다수 편집자들의 느슨한 참여도 밝혀졌으며, 온라인에서도 나타나는 사회 문화적 특징이 한국 위키피디아에서도 나타났다. 집단지성을 지속화시키기 위해서는 새롭고 다양한 외부자원이 필수인데 신규 진입자들이 공동편집 커뮤니티에 안착하기 위한 다각적인 고려가 필요하며, 관리자 그룹의 고착화를 탈피하여 순환구조를 통한 개방성이 필요함을 제언하였다.

인라이닝에 기반한 XML 스키마의 관계형 스키마 변환 기법 (A Transformation Technique of XML Schema into Relational Schema Based-on Inlining)

  • 조정길
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1021-1030
    • /
    • 2004
  • 데이터 중심의 XML 문서를 관계형 데이터베이스에 저장하고 관리할 경우에 XML 스키마로부터 관계형 스키마를 추출하는 것이 보다 시급한 일이다. 또한 생성된 테이블에 XML 문서를 분할하여 저장할 경우에 많은 널 값을 초래하거나 조인 비용의 증가를 가져오기 때문에 이에 대한 해결책이 필요하다. 이 논문에서는 XML 스키마로부터 관계형 스키마를 생성하는 Schema Hybrid Inlining 기법을 제안하였다. 제안된 기법은 XML 스키마 그래프를 바탕으로 관계형 스키마를 생성하게 되는데, 기존의 Inlining 방식을 확장하여 출현 지시자와 진입 차수에서의 테이블 생성 방법을 휴리스틱하게 매뉴얼 처리를 하며, 유도 관계에서 최종 노드인 조상 노드는 새로운 테이블을 생성한다. 또한 DTD 종속적인 저장 방식의 단점인 조인 연산 비용을 줄이기 위하여 중복을 활용한 분할 저장과 구조적 검색 기법을 개선한 관계 경로 요소 정보를 이용하였다.

래퍼 기반 경제 데이터 수집 시스템 설계 및 구현 (Wrapper-based Economy Data Collection System Design And Implementation)

  • 박철호;구영현;유성준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.227-230
    • /
    • 2015
  • 경제의 흐름, 주가 등을 분석, 예측을 위해 경제 뉴스, 주가 등 데이터 수집이 필요하다. 일반적인 웹 크롤러는 자동적으로 웹서버를 방문하면서 웹페이지 내용을 분석하고 URL들을 추출하면서 웹 문서를 수집한다. 반면 특정한 주제의 문서만을 수집할 수 있는 크롤러 형태도 있다. 특정 사이트에서 경제 뉴스 정보만 수집하기 위하여 사이트의 구조를 분석하고 직접적으로 데이터를 수집해올 수 있는 래퍼 기반 웹 크롤러 설계가 필요하다. 본 논문에서는 빅데이터를 기반으로, 경제뉴스 분석 시스템을 위한 크롤러 래퍼를 설계, 구현하여 경제 전문 분야의 뉴스 데이터를 수집하였다. 2000년부터 현재까지 미국 자동차 시장의 주식 데이터를 래퍼 기반으로 가져오고, 사이트 상에서의 데이터가 업데이트되는 주기를 판단하여 주기적으로 업데이트 함으로써 중복되지 않게 하였다. 그리고 미국, 한국의 경제 기사를 래퍼 기반의 웹 크롤러를 사용하여 수집하고, 향후 분석이 쉽게 데이터를 정형화 시켜 저장한다.

  • PDF

경계선 기울기 방법을 이용한 다양한 인쇄체 한글의 인식 (Recognition of Various Printed Hangul Images by using the Boundary Tracing Technique)

  • 백승복;강순대;손영선
    • 한국지능시스템학회논문지
    • /
    • 제13권1호
    • /
    • pp.1-5
    • /
    • 2003
  • 본 논문에서는 CCD 흑백 카메라를 이용하여 입력되는 인쇄체 한글 이미지의 문자를 인식하여 편집 가능한 텍스트 문서로 변환하는 시스템을 구현하였다 문자 인식에 있어서 잡음에 강한 경계선 기울기 방법을 이용함으로써 문자의 구조적 특성에 근거한 윤곽선 정보를 추출할 수 있었다. 이를 이용하여 각 문자 이미지의 수평 및 수직 모음을 인지하고 6가지 유형으로 분류한 후, 자소 단위로 분리하고 최대 길이 투영을 사용하여 모음을 인식하였다. 분리된 자음은 경계선이 변화되는 위상의 형태를 미리 저장된 표준 패턴과 비교하여 인식하였다. 인식된 문자는 KS 한글 완성형 코드로 문서 편집기에 출력되어 사용자에게 제공되는 시스템을 구현하였다.

Lexico-Semantic Pattern을 이용한 오픈 도메인 질의 응답 시스템 (Open-domain Question Answering Using Lexico-Semantic Patterns)

  • 이승우;정한민;곽병관;김동석;차정원;안주희;이근배;김학수;김경선;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.538-545
    • /
    • 2001
  • 본 연구에서는 오픈 도메인에서 동작할 수 있는 질의 응답 시스템(Open-domain Question Answer ing System)을 구현하고 영어권 TREC에 참가한 결과를 기술하였다. 정답 유형을 18개의 상위 노드를 갖는 계층구조로 분류하였고, 질문 처리에서는 LSP(Lexico-Semantic Pattern)으로 표현된 문법을 사용하여 질문의 정답 유형을 결정하고, lemma 형태와 WordNet 의미, stem 형태의 3가지 유형의 키워드로 구성된 질의를 생성한다. 이 질의를 바탕으로, 패시지 선택에서는 문서검색 엔진에 의해 검색된 문서들을 문장단위로 나눠 정수를 계산하고, 어휘체인(Lexical Chain)을 고려하여 인접한 문장을 결합하여 패시지를 구성하고 순위를 결정한다. 상위 랭크의 패시지를 대상으로, 정답 처리에서는 질문의 정답 유형에 따라 품사와 어휘, 의미 정보로 기술된 LSP 매칭과 AAO (Abbreviation-Appositive-Definition) 처리를 통해 정답을 추출하고 정수를 계산하여 순위를 결정한다. 구현된 시스템의 성능을 평가하기 위해 TREC10 QA Track의 main task의 질문들 중, 200개의 질문에 대해 TRIC 방식으로 자체 평가를 한 결과, MRR(Mean Reciprocal Rank)은 0.341로 TREC9의 상위 시스템들과 견줄 만한 성능을 보였다.

  • PDF

문장 내 영 조응어 해석을 위한 영대명사의 조응성 결정 (Anaphoricity Determination of Zero Pronouns for Intra-sentential Zero Anaphora Resolution)

  • 김계성;박성배;박세영;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.928-935
    • /
    • 2010
  • 문서에서 생략된 요소가 지시하는 대상을 식별해 내는 작업은 기계 번역, 정보추출 등과 같은 자연언어처리 분야의 다양한 응용들을 위해 필요하다. 문장에서 생략된 요소들은 영조응사, 영대명사 등으로 불리며, 지시(reference)의 한 유형으로 간주되고 있지만, 모든 영형이 문서에서 명확하게 언급된 지시 대상을 지시하지는 않는다. 이에 영형의 조응성을 결정하려는 연구가 최근 진행되고 있으며, 본 논문에서는 한국어에서 가장 빈번하게 나타나는 영형 주어(subject zero pronouns)의 문장 내 조응성 결정에 초점을 맞춘다. 주어진 영형과 선행사 후보들 간의 쌍대 비교(pairwise comparison)에 기반한 기존 연구와 달리, 본 논문은 비조응적 혹은 문장 간에서 해결 가능한 영형이 나타난 절의 구조를 직접 학습함으로써 영형의 문장 내 조응성을 결정한다. 실험에서 제안한 방법은 베이스라인보다 나은 성능을 보였으며, 영형의 조응성 결정은 향후 영형 조응어 해석에 긍정적인 영향을 줄 수 있을 것으로 기대된다.

제 4차 산업혁명 중심의 사물인터넷 지적 구조 시각화 (Visualization of the Intellectual Structure on the Internet of Things Focuses on the Industry 4.0)

  • 임혜정;서창교
    • 한국산업정보학회논문지
    • /
    • 제27권6호
    • /
    • pp.127-140
    • /
    • 2022
  • 최근 정보통신기술(ICT)의 발달로 산업혁명은 3차 산업에서 4차 산업으로 옮겨가고 있다. 기업이 미래에 생존하기 위해서는 이러한 기술을 채택해야 한다는 것에는 의심의 여지가 없다. 본 연구의 목적은 제4차 산업혁명을 위한 사물인터넷(IoT) 연구 문헌의 지적 구조를 분석하여 해당 분야에 대한 더 나은 통찰력을 제시하는 것이다. 연구 데이터는 Web of Science 데이터베이스에서 추출되었으며, CiteSpace를 사용하여 총 1,631개의 문서와 72,754개의 참고 문헌을 분석하였다. 저자동시인용분석을 이용하여 제4차 산업혁명을 위한 사물인터넷 연구 분야의 지적 구조를 분석하기 위해 군집분석, 타임라인 분석, 연구전환점 분석을 수행하여 'Supply Chain', 'Digital Twin', 'Smart Manufacturing System' 등 12개의 하위 영역을 식별하였다. 타임라인 분석을 통해 연구가 확대되고 있는 분야와 축소되고 있는 분야를 분석하였으며, 연구의 한계점과 향후 연구방향을 결론과 함께 제시하였다.