• 제목/요약/키워드: 문서간 관계 추출

검색결과 103건 처리시간 0.023초

FCA 기반 계층적 구조를 이용한 문서 통합 기법 (Methods for Integration of Documents using Hierarchical Structure based on the Formal Concept Analysis)

  • 김태환;전호철;최종민
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.63-77
    • /
    • 2011
  • 월드와이드웹(World Wide Web)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 매우 큰 분산된 정보 공간이다. 웹은 1991년에 시작되어 개인 홈페이지, 온라인 도서관, 가상 박물관 등 다양한 정보 자원들을 웹으로 표현하면서 성장하였다. 이러한 웹은 현재 5천억 페이지 이상 존재할 것이라고 추정한다. 대용량 정보에서 정보를 효과적이며 효율적으로 검색하는 기술을 적용할 수 있다. 현재 존재하는 몇몇 검색 도구들은 초 단위로 gigabyte 크기의 웹을 검사하여 사용자에게 검색 정보를 제공한다. 그러나 검색의 효율성은 검색 시간과는 다른 문제이다. 현재 검색 도구들은 사용자의 질의에 적합한 정보가 적음에도 불구하고 많은 문서들을 사용자에게 검색해준다. 그러므로 대부분의 적합한 문서들은 검색 상위에 존재하지 않는다. 또한 현재 검색 도구들은 사용자가 찾은 문서와 관련된 문서를 찾을 수 없다. 현재 많은 검색 시스템들의 가장 중요한 문제는 검색의 질을 증가 시키는 것이다. 그것은 검색된 결과로 관련 있는 문서를 증가시키고, 관련 없는 문서를 감소시켜 사용자에게 제공하는 것이다. 이러한 문제를 해결하기 위해 CiteSeer는 월드와이드웹에 존재하는 논문에 대해 한정하여 ACI(Autonomous Citation Indexing)기법을 제안하였다. "Citaion Index"는 연구자가 자신의 논문에 다른 논문을 인용한 정보를 기술하는데 이렇게 기술된 논문과 자신의 논문을 연결하여 색인한다. "Citation Index"는 논문 검색이나 논문 분석 등에 매우 유용하다. 그러나 "Citation Index"는 논문의 저자가 다른 논문을 인용한 논문에 대해서만 자신의 논문을 연결하여 색인했기 때문에 논문의 저자가 다른 논문을 인용하지 않은 논문에 대해서는 관련 있는 논문이라 할지 라도 저자의 논문과 연결하여 색인할 수 없다. 또한 인용되지 않은 다른 논문과 연결하여 색인할 수 없기 때문에 확장성이 용이하지 못하다. 이러한 문제를 해결하기 위해 본 논문에서는 검색된 문서에서 단락별 명사와 동사 및 목적어를 추출하여 해당 동사가 명사 및 목적어를 취할 수 있는 가능한 값을 고려하여 하나의 문서를 formal context 형태로 변환한다. 이 표를 이용하여 문서의 계층적 그래프를 구성하고, 문서의 그래프를 이용하여 문서 간 그래프를 통합한다. 이렇게 만들어진 문서의 그래프들은 그래프의 구조를 보고 각각의 문서의 영역을 구하고 그 영역에 포함관계를 계산하여 문서와 문서간의 관계를 표시할 수 있다. 또한 검색된 문서를 트리 형식으로 보여주어 사용자가 원하는 정보를 보다 쉽게 검색할 수 있는 문서의 구조적 통합 방법에 대해 제안한다. 제안한 방법은 루씬 검색엔진이 가지고 있는 순위 계산 공식을 이용하여 문서가 가지는 중요한 단어를 문서의 참조 관계에 적용하여 비교하였다. 제안한 방법이 루씬 검색엔진보다15% 정도 높은 성능을 나타내었다.

상품에 대한 공급자 검색 문제 해결하기 위한 지능형 상품 에이전트 개발

  • 채상용;김경필;김우주;김창욱
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.475-480
    • /
    • 2005
  • 인터넷상에 존재하는 수 많은 웹 페이지들에는 정형화되지 않은 각종 정보들이 이종의 형태로 산재되어 있다. 현재의 검색 기술을 통하여 필요한 정보를 찾아내는 것은 시간과 비용이 많이 소요되는 비효율적인 방법으로 이뤄지고 있다. 이러한 상황에서 사용자가 원하는 정보를 검색 및 추출해내어 정형화시키는 것은 매우 중요하다. 전자상거래의 폭발적 성장에도 불구하고 전자상거래 표준 활용 및 적용이 미비하여 e- Procurement, e-Marketplace, on-Line Shopping Mall 등에서 소비자가 원하는 상품 정보를 손쉽게 획득하지 못하고 있다. 이는 공급자에게는 보다 많은 매출의 기회를 구매자에게는 보다 좋은 자재 및 상품을 저렴한 가격에 소싱 할 수 있는 기회를 제공하지 못하는 문제점이 발생한다. 본 연구에서 제안하고자 하는 지능형 상품 에이전트는 소비자가 구매하고자 하는 특정 상품에 대한 공급자 검색 문제를 해결하기 위하여, 시스템 내부 정보의 확장 및 지식화 뿐만 아니라 웹 상의 다양한 상품 정보를 자동적으로 수집 및 가공하여 저장하는 역할을 수행한다. 이러한 연구를 위해서 사용한 기술은 우선 database 의 schema 를 읽어 들일 수 있는 DB schema reader, 인터넷 웹 페이지(웹문서)를 방문해서 다양한 정보들의 URL을 수집하는 일을 하는 Meta Search Engine 과 Focused Crawler, 그리고 다른 형태의 데이터 구조를 특정 목적에 따라 표준화된 형태로 바꾸는 Wrapper가 있다. 이러한 기술들을 연동하여 필요한 정보들을 추출 공급자 검색 문제를 해결하고자 하는 것이 연구의 목적이다. 정보추출은 사용자의 관심사에 적합한 문서들로부터 어떤 구체적인 사실이나 관계를 정확히 추출하는 작업을 가리킨다.앞으로 e-메일, 매신저, 전자결재, 지식관리시스템, 인터넷 방송 시스템의 기반 구조 역할을 할 수 있다. 현재 오픈웨어에 적용하기 위한 P2P 기반의 지능형 BPM(Business Process Management)에 관한 연구와 X인터넷 기술을 이용한 RIA (Rich Internet Application) 기반 웹인터페이스 연구를 진행하고 있다.태도와 유아의 창의성간에는 상관이 없는 것으로 나타났고, 일반 유아의 아버지 양육태도와 유아의 창의성간의 상관에서는 아버지 양육태도의 성취-비성취 요인에서와 창의성제목의 추상성요인에서 상관이 있는 것으로 나타났다. 따라서 창의성이 높은 아동의 아버지의 양육태도는 일반 유아의 아버지와 보다 더 애정적이며 자율성이 높지만 창의성이 높은 아동의 집단내에서 창의성에 특별한 영향을 더 미치는 아버지의 양육방식은 발견되지 않았다. 반면 일반 유아의 경우 아버지의 성취지향성이 낮을 때 자녀의 창의성을 향상시킬 수 있는 것으로 나타났다. 이상에서 자녀의 창의성을 향상시키는 중요한 양육차원은 애정성이나 비성취지향성으로 나타나고 있어 정서적인 측면의 지원인 것으로 밝혀졌다.징에서 나타나는 AD-SR맥락의 반성적 탐구가 자주 나타났다. 반성적 탐구 척도 두 그룹을 비교 했을 때 CON 상호작용의 특징이 낮게 나타나는 N그룹이 양적으로 그리고 내용적으로 더 의미 있는 반성적 탐구를 했다용을 지원하는 홈페이지를 만들어 자료 제공 사이트에 대한 메타 자료를 데이터베이스화했으며 이를 통해 학생들이 원하는 실시간 자료를 검색하여 찾을 수 있고 홈페이지를 방분했을 때 이해하기 어려운 그래프나 각 홈페이지가 제공하는 자료들에 대한 처리 방법을 도움말로 제공받을 수 있게 했다. 실시간 자료들을 이용한 학습은 학생들의 학습 의욕과 탐구 능력을 향상시켰으

  • PDF

전문용어의 처리에 의한 도메인 온톨로지의 구축 (Domain-specific Ontology Construction by Terminology Processing)

  • 임수연;송무희;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권3호
    • /
    • pp.353-360
    • /
    • 2004
  • 온톨로지는 특정 도메인에 사용되는 용어들과 그 용어들 간의 관계를 정의하고, 이를 계층구조로 표현한 것을 말한다. 본 논문에서는 전문용어의 처리에 기반 한 도메인 특정적인 온톨로지의 반자동 구축방안을 제안하고자 한다. 이를 위하여 도메인 텍스트 내에서 전문용어를 구성하고 있는 명사나 접미사의 패턴을 분류하고, 이에 따라 전문용어를 추출하고 계층구조를 구하는 알고리즘을 제안한다. 실험은 약학 관련 문서를 대상으로 하였으며, 단일어절 전문용어를 인식한 결과 평균 92.57%, 다중어절 전문용어의 경우 평균 66.64%의 정확도를 보였다. 구축된 온톨로지는 의미정보와 함께 전문용어를 구성하는 특정 명사나 접미사를 중심으로 자연스런 의미 군을 형성함으로써 정보검색 등의 전문적인 지식의 접근에 유용하게 쓰일 수 있으며, 검색의 성능을 향상시키기 위한 추론의 기반으로도 이용할 수 있다.

대화 데이터셋에서 멘션 경계와 멘션 쌍을 이용한 상호참조해결 파이프라인 모델 (Coreference Resolution Pipeline Model using Mention Boundaries and Mention Pairs in Dialogues)

  • 김담린;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.307-312
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 멘션을 추출하고 동일한 개체의 멘션들을 군집화하는 작업이다. 기존 상호참조해결 연구의 멘션탐지 단계에서 진행한 가지치기는 모델이 계산한 점수를 바탕으로 순위화하여 정해진 비율의 멘션만을 상호참조해결에 사용하기 때문에 잘못 예측된 멘션을 입력하거나 정답 멘션을 제거할 가능성이 높다. 또한 멘션 탐지와 상호참조해결을 종단간 모델로 진행하여 학습 시간이 오래 걸리고 모델 복잡도가 높은 문제가 존재한다. 따라서 본 논문에서는 상호참조해결을 2단계 파이프라인 모델로 진행한다. 첫번째 멘션 탐지 단계에서 후보 단어 범위의 점수를 계산하여 멘션을 예측한다. 두번째 상호참조해결 단계에서는 멘션 탐지 단계에서 예측된 멘션을 그대로 이용해서 서로 상호참조 관계인 멘션 쌍을 예측한다. 실험 결과, 2단계 학습 방법을 통해 학습 시간을 단축하고 모델 복잡도를 축소하면서 종단간 모델과 유사한 성능을 유지하였다. 상호참조해결은 Light에서 68.27%, AMI에서 48.87%, Persuasion에서 69.06%, Switchboard에서 60.99%의 성능을 보였다.

  • PDF

Using Requirements Engineering to support Non-Functional Requirements Elicitation for DAQ System

  • Kim, Kyung-Sik;Lee, Seok-Won
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.99-109
    • /
    • 2021
  • 최근의 기계 학습 연구에서는 데이터의 품질 및 완전성을 고려하기 위해 요구 공학 관점에서 데이터에 대한 비기능적 요구사항 도출이 제안되고 있으며, 특히 기계 학습에서의 데이터 요구사항을 요구 공학자들이 정의하였다. 본 연구에서는 데이터 전처리 이전에 데이터를 수집하고 저장하는 데이터 수집(DAQ) 단계에서 데이터 요구사항을 도출하였다. 이를 통해 기존 DAQ 시스템에서 필요로 하는 모든 데이터 요구사항과 이를 만족시키는 태스크(기능)의 유무, 그리고 요구사항과 기능 간의 관계를 표현할 수 있다. 또한 추출된 요구사항을 체계적으로 표현하고, 그 관계를 정의할 수 있어 소프트웨어 설계 문서의 작성이 가능하고 소프트웨어 설계 및 유지 보수 측면에서 체계적인 접근 및 방향성을 설정할 수 있다. 본 연구에서는 기존 DAQ 시스템 사례를 이용하여 요구 공학적 접근을 위한 시나리오와 유스 케이스(Use case)를 작성하고, 이를 기반으로 사례별 데이터 요구사항을 추출하고 목표 모델링을 통해 요구사항, 기능, 목표 간의 관계를 도식화한다. 연구 결과를 통해 요구 공학을 이용한 DAQ 시스템에서 시스템이 필요로 하는 비기능적 요구사항, 특히 데이터의 요구사항을 추출할 수 있었다.

미세 단위 소프트웨어 객체를 위한 연산 기반 버전 및 일관성 관리 모델 (An Operation-Based Model of Version Storage and Consistency Management for Fine-Grained Software Objects)

  • 노정규;우치수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권7호
    • /
    • pp.691-701
    • /
    • 2000
  • 소프트웨어 문서는 수많은 논리적인 객체와 객체간의 관계로 이루어진 구조를 가지고 있으며 그 구조가 빈번하게 변경될 수 있다. 본 논문에서는 소프트웨어 편집 과정에서 적용되는 연산에 기반한 미세 단위 소프트웨어 객체의 버전 및 일관성 관리 모델을 제안하였다. 모든 소프트웨어 객체는 연산으로 구성된 인터페이스를 가지고 객체의 편집은 연산을 통해서 이루어진다. 편집기를 통하여 객체에 적용된 연산은 연산 히스토리에 기록되고 버전 관리와 소프트웨어 구성 요소간의 일관성 관리에 이용된다. 객체의 버전은 연산 히스토리를 이용한 델타를 이용하여 저장되고 검색되므로 델타 추출을 위한 비교 과정이 필요 없으며 버전간의 변경 내용을 쉽게 파악하여 버전 전파 여부를 결정지을 수 있다는 장점이 있다. 일관성은 객체간의 종속성과 객체에 적용된 연산의 종류에 의해 관리되므로 불필요한 변경 전파를 피할 수 있다. 본 논문에서는 객체에 적용된 연산을 기반으로 하여 버전 검색 및 미세 단위 일관성에 대한 정형적인 모델을 제시하였다.

  • PDF

소프트웨어 객체의 버전 관리를 위한 연산 히스토리 모델 (An Operation History Model for Version Management of Software Objects)

  • 노정규
    • 컴퓨터교육학회논문지
    • /
    • 제7권1호
    • /
    • pp.27-35
    • /
    • 2004
  • 소프트웨어 문서는 논리적인 객체와 객체간의 관계로 이루어진 구조를 가지고 있으며 그 구조가 빈번하게 변경된다. 기존의 소프트웨어 객체 버전 관리에서는 한 객체의 변경이 불필요하게 다른 객체로 전파되는 문제를 가지고 있다. 본 논문에서는 소프트웨어 편집 과정에서 객체에 적용된 연산의 히스토리를 이용하여 소프트웨어 객체의 버전을 효율적으로 관리할 수 있는 모델을 제안하였다. 소프트웨어 객체 편집 과정에서 객체에 적용된 연산을 연산 히스토리에 기록되고 버전 저장과 검색에 이용된다. 객체의 연산 히스토리를 이용한 델타에 의해 저장되고 검색되므로 체크인 과정에서 델타 추출을 위한 비교 과정이 필요 없다. 또, 이 모델은 객체의 생성, 삭제, 변경 연산뿐만 아니라 객체의 이동 연산을 지원함으로써 효율적으로 객체 구조의 변경을 관리할 수 있다.

  • PDF

상황인식형 비즈니스 차트 추천기 개발을 위한 개방형 온라인 텍스트로부터의 시각화 규칙 추출 방법 연구 (A Method of Mining Visualization Rules from Open Online Text for Situation Aware Business Chart Recommendation)

  • ;권오병
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.83-107
    • /
    • 2020
  • 데이터의 성격과 시각화의 목적에 따라 비즈니스 차트를 선택하는 것은 비즈니스 분석에 유용한 지식이다. 그러나 현재 시각화 도구에는 상황에 맞는 비즈니스 차트를 선택할 수 있는 기능이 부족하다. 또한 매번마다 시각화 방법에 대해 전문가의 도움을 요청하는 것은 비용과 시간이 소요된다. 따라서 본 연구의 목적은 온라인으로 게시된 문서로부터 비즈니스 차트 선정 규칙에 대한 지식을 추출하여 비즈니스 차트 생산성을 향상시키는 방법을 제안하는 것이다. 이를 위해 인터넷에서 비즈니스 차트를 묘사하는 한국어, 영어 및 중국어 비정형 데이터를 수집하고 TF-IDF를 사용하여 컨텍스트와 비즈니스 차트 간의 관계를 계산했다. 또한 Galois 래티스를 사용하여 비즈니스 차트 선택 규칙을 생성했다. 제안된 방법으로 생성된 규칙의 품질을 평가하기 위해 실험군과 대조군에 대해 실험을 수행했다. 그 결과 제안된 방법으로 의미 있는 규칙이 추출되었음을 확인했다. 본 연구의 결과물로 시각화 전문가의 도움 없이도 사무직 직원들이 비즈니스 차트를 효율적으로 선택할 수 있을 것으로 기대된다. 또한 작업 중인 문서를 기반으로 비즈니스 차트를 추천함으로 직원 교육에 유용할 것이다.

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

제조기업 현장 데이터를 이용한 빅데이터 분석시스템 모델

  • 김재중;성백민;유재곤;강찬우;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.741-743
    • /
    • 2015
  • 오늘날 BI(Business Intelligence)시스템 다차원 데이터를 다루는 많은 방법들이 제안되어 TB 이상의 데이터를 다룰 수 있다. 하지만 IT 전문가 및 IT에 대한 투자여력이 충분하지 않은 중소 제조 기업들은 발 맞춰가기 힘들다. 또한 생산관리시스템(MES)을 미 도입한 기업이 대다수이고, 존재하는 현장데이터의 대부분도 수기데이터 또는 Excel 데이터로 보관 되어 있어, 수작업에 의한 데이터 분석과 의사결정을 수행한다. 이로 인해, 불량 요인 파악이나 이상 현상 파악이 불분명하기 때문에 데이터 분석에 어려움을 겪는다. 이에 본 연구에서는 중소제조기업의 경쟁력 강화를 위하여 제조 기업현장에서 사용되는 데이터를 자동으로 수집하여 정제 및 처리하여 저장이 가능하도록 하는 빅 데이터 분석 시스템 모델을 개발하였다. 이 분석 시스템 모델은 ERP, MIS 등에 존재하는 데이터들이 각 시스템의 DB 기능을 활용하여 데이터를 추출하고 정제하여 수집하는 ETL(Extract Transform Loading)과정을 통한다. 현장에서 비정형으로 기록되고 있는 정보들(ex. Excel)은 ODE(Office Data Excavation)모듈을 통해 문서의 패턴을 자동으로 인식하고 정형화된 정보로서 추출, 정제되어 수집된다. 저장된 데이터는 오픈소스 데이터 시각화 라이브러리인 D3.js를 이용하여 다양한 chart들을 통한 강력한 시각효과를 제공함으로써, 정보간의 연관 관계 및 다차원 분석의 기반을 마련하여 의사결정체계를 효과적으로 지원한다. 또한, 높은 가격에 형성되어 있는 빅데이터 솔루션을 대신해 오픈소스 Spago BI를 이용하여 경제적인 빅 데이터 솔루션을 제공한다. 본 연구의 기대효과로는 첫째, 현장 데이터 중심의 효과적인 의사결정 기반을 마련할 수 있다. 둘째, 통합 데이터 기반의 연관/다차원 분석으로 경영 효율성이 향상된다. 마지막으로, 중소 제조기업 환경에 적합한 분석 시스템을 구축함으로써 경쟁력과 생산력을 강화한다.

  • PDF