• 제목/요약/키워드: Language Conversion

검색결과 199건 처리시간 0.028초

워드문서 콘텐츠의 사용자 XML 콘텐츠로의 변환 및 저장 시스템 개발 (Rule Based Document Conversion and Information Extraction on the Word Document)

  • 주원균;양명석;김태현;이민호;최기석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.555-559
    • /
    • 2006
  • 본 논문은 HWP, DOC와 같은 워드 문서를 대상으로 사용자가 작성한 구조적인 규칙과 XML 기반 워드 문서 변환 기법을 이용함으로써, 사용자의 관심 영역에 해당하는 다양한 형태(표, 리스트 등)의 정보를 효과적으로 추출(변환)하여 저장하기 위한 방법에 관한 것이다. 본 논문에서 제시한 시스템은 3가지의 중요한 요소들로 구성되어 있는데, 1)워드문서의 원시 XML문서로의 변환방법, 2)XML 기반 구조적인 규칙 작성과 규칙을 이용하여 원시 XML 문서에서 정보를 추출(변환)하는 방법, 3)추출 된 정보에서 최종 XML을 생성하거나 DB에 저장하는 방법이 그것이다. 워드문서의 변환을 위해서 독립적으로 동작하는 OCX 기반의 워드문서 변환 데몬(daemon)을 개발하였고, 사용자의 정보 추출(변환)과정을 돕기 위해서 XSLT를 확장한 형태의 스크립트 언어를 개발하였다. 스크립트 언어는 비교적 간단한 문법 구조를 가지고 있고, 데이터 처리를 위한 자체 정의 함수와 변수를 사용한다. 추출된 정보는 원하는 형태의 구조적인 문서로 생성하거나 DB에 저장할 수 있다. 개발한 시스템(PPE)은 워드 문서 원문 정보에 대한 데이터베이스 구축 및 서비스의 제공, 혹은 구축된 데이터베이스를 이용하여 다양한 처리를 하거나 현황 통계를 제공하는 분야에서 유용하게 사용할 수 있다. 실제로 연구과제관리 시스템과 성과정보시스템에 시범 적용하였다.

  • PDF

수 연산과정에서 ERP로 확인된 숫자어휘와 부호변환 과정 (Words for Numbers and Transcoding Processes Reflected by ERPs during Mental Arithmetic)

  • 김충명;김동휘
    • 한국산학기술학회논문지
    • /
    • 제11권2호
    • /
    • pp.689-695
    • /
    • 2010
  • 한글 숫자어휘의 부호변환 과정을 알아 봄에 있어, 수연산이 시행되는 동안 주어진 목표자극들 간의 연산결과가 일치하는지에 대한 과제를 ERP 실험방법에 의거 시행하였다. 평균진폭에 대한 실험 결과는 과제-의존적인 처리가 아닌 자극유형-의존적인 처리과정을 보여주었는데, 덧셈 및 곱셈과제에서의 한글 숫자어휘의 시간적인 뇌파개형은 아라비아 숫자에 대한 그것과 유사하게 나타났다. 이 처리과정에서의 유의미한 차이점은 300ms 부근에서 나타난 지연된 양성파형의 성분으로서, 이는 한글 숫자어휘의 아라비아 숫자로의 부호변환 과정으로 해석가능하다. 이 과정에 수반된 뇌영상을 분석한 결과, 두 조건에서 서로 다른 파형을 야기한 영역은 한글문자 처리에 관여하는 좌측 측두-두정영역으로 확인되었다. 이와 같은 결과는 수연산 과정의 개개 자극인 한글 숫자어휘의 내재적 수표상 방식이, 수개념으로의 직접적 접근이 아니라 일정한 부호변환 과정을 통한 도식화된 통로를 거치고 있음을 시사한다 할 수 있다.

관계형 데이터베이스 기반의 XML 응용을 위한, UML 클래스를 이용한 통합 설계 방법론 (A Unified Design Methodology using UML Classes for XML Application based on RDB)

  • 방승윤;주경수
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1105-1112
    • /
    • 2002
  • B2B 전자상거래와 같이 XML을 이용한 정보 교환이 확산되고 있으며 이에 따라 상호 교환되는 정보에 대하여 체계적이며 안정적인 저장관리가 요구되고 있다. 이를 위해 XML 응용과 데이터베이스 연계를 위한 다양한 연구가 관계형 데이터베이스를 중심으로 수행되었다. 그러나 계층구조를 갖는 XML 데이터를 2차원 테이블의 집합인 관계형 정보로 표현하는 관계형 데이터베이스로의 저장에는 본질적인 한계가 있어, 계층적 구조를 2차원 정보로 변환하는 방법에 의해서 각 구조화된 정보를 관계형 데이터베이스로 저장하기 위한 모델링 방안이 요구된다. 양질의 어플리케이션 시스템을 구축하기 위해서는 우선적으로 모델링이 중요하다. 1997년에 OMG는 표준 모델링 언어로 UML를 채택하였고, 이에 따라 UML은 보다 널리 사용될 것이다. 그러므로 효율적인 XML 어플리케이션을 개발하는데 UML에 기반을 둔 설계 방법론이 필요하다고 할 수 있다. 본 논문에서는 UML을 이용한, 관계형 데이터베이스기반의 XML 응용을 위한 통합 설계 방법론을 제안한다. 이를 위하여 먼저 UML을 이용하여 W3C XML schema를 설계하기 위한 XML 모델링 방안을 제시하고, 아울러 교환되는 XML 데이터를 효율적으로 저장하기 위하여 관계형 데이터베이스 스키마 설계를 위한 데이터 모델링 방법을 제안한다.

지능적 에이전트에 의한 실시간 소프트웨어 PLC 편집기 및 실행엔진 개발 (Development of an Editor and Howling Engine for Realtime Software Programmable Logic Controller based on Intelligent Agents)

  • 조영임
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권12호
    • /
    • pp.1271-1282
    • /
    • 2005
  • PC-based control은 현재 제어분야에서 비약적 발전을 하고 있으나 일반 사용자들이 PC에서 PLC 프로그래밍하기에는 어렵다는 단점이 있다. 따라서 본 논문은 국제 PLC 표준언어로 제정된 5가지 언어 중 $90\%$이상 사용하는 LD언어에 대한 표준규격을 연구하고, 이것을 중간코드인 IL(Instruction List) 언어로 변환하고 기존 상용화된 편집기(Visual C++)에서 활용 가능한 표준 C코드로 변환함으로써 LD에 익숙한 사용자나 고급언어에 익숙한 사용자 모두 사용할 수 있는 편집기 및 실행엔진 기능을 갖춘 지능적 에이전트 기반의 통합 시스템 ISPLC(Intelligent Agent System based Software Programmable Logic Controller)를 개발하였다. ISPLC에서는 LD에서보다 C에서 논리오류 검출기능이 훨씬 용이하며, GUI기반 인터페이스를 제공하며 에이전트에 의한 프로그래밍 코드를 제공하므로 가독성이 높다. 이러한 LD->H->C로의 코드변환체제에 관한 연구는 국내외적으로 처음 시도되는 연구이다. ISPLC를 실제 실시간 교통량 제어 시스템(Real Time Traffic Control System)에 적용하여 현장 적응성이 우수한 실행엔진을 개발하여 시뮬레이션 하였으며, ISPLC는 오류검색 뿐 아니라 프로그래밍 시간을 매우 단축시켜줌을 알 수 있었다.

한국 장애학생 전환교육(transition education) 모델 융합 재구성: 학교-지역사회 연계 장애인평생교육지원체제 개발 타당성 관점 (Convergence Reconstruction of Transition Education Model for Korean Students with Disabilities: A Feasibility View on the Development of Support System for Lifelong Education for the Disabled through the Linkage between Schools and Community)

  • 김영준;김화수;권량희
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.95-104
    • /
    • 2021
  • 본 연구는 한국 장애학생을 위한 전환교육 모델을 융합 재구성하는 데 목적을 두어 실시되었으며, 궁극적으로 학교-지역사회 연계 장애인평생교육 지원체제 개발 타당성 관점을 제고하고자 하는 데 의의를 두어 역시 실시되었다. 연구 방법은 장애학생 전환교육 모델을 학령기와 성인기 간 연계 관점에서 구체화하고자 한 선행 연구문헌을 분석한 절차를 기초로 하여 전문가 회의를 병행하는 절차로 구성되었다. 연구 내용은 현행 특수교육 분야에 구축된 전환교육모델을 융합 재구성하기 위해 IEP-ITP-ILEP 간 연계교육이 특수교육과 장애인평생교육 간에 학교 중심, 지역사회 중심, 교육, 복지의 관점을 근거로 일관적 연계 타당성을 확보하는 차원으로 반영되었다. 이에 따라, 학령기 중심의 특수교육 분야에서 구축된 장애학생의 전환교육 모델이 학령기와 성인기 전환 시점의 단편적 접근 경향성을 최소화하고, 성인기 전체와 연계될 수 있는 표준 근거와 구성 체계를 제시함으로써 현행의 전환교육 모델을 내용 측면에서 융합 재구성하였다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구 (Automatic Target Recognition Study using Knowledge Graph and Deep Learning Models for Text and Image data)

  • 김종모;이정빈;전호철;손미애
    • 인터넷정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.145-154
    • /
    • 2022
  • 자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF 트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.

텍스트마이닝 기법을 활용한 사용후핵연료 건식처리기술 관련 언론 동향 분석 (Analysis of media trends related to spent nuclear fuel treatment technology using text mining techniques)

  • 정지송;김호동
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.33-54
    • /
    • 2021
  • 최근 4차 산업혁명, 코로나로 인한 뉴노멀 시대의 도래 등을 계기로 인공지능, 빅데이터 연구와 같은 언택트 관련 기술의 중요성이 더욱 급상하고 있다. 각 종 연구 분야에서는 이러한 연구 트렌드를 따라가기 위한 융합적 연구가 본격적으로 시행되고 있으나 원자력 분야의 경우 자연어 처리, 텍스트마이닝 분석 등 인공지능 및 빅데이터 관련 기술을 적용한 연구가 많이 수행되지 않았다. 이에 원자력 연구 분야에 데이터 사이언스 분석기술의 적용 가능성을 확인해보고자 본 연구를 수행하였다. 원자로 연료로 사용된 뒤 배출되는 사용후핵연료 인식 동향 파악에 대한 연구는 원자력 산업 정책에 대한 방향을 결정하고 산업정책 변화를 사전에 대응할 수 있다는 측면에서 매우 중요하다. 사용후핵연료 처리기술은 크게 습식 재처리 방식과 건식 재처리 방식으로 나뉘는데, 이 중 환경 친화적이고 핵비확산성 및 경제성이 높은 건식재처리 기술인 '파이로프로세싱'과 그 연계 원자로 '소듐냉각고속로'의 연구개발에 대한 재평가가 현재 지속적으로 검토되고 있다. 따라서 위와 같은 이유로, 본 연구에서는 사용후핵연료 처리기술인 파이로프로세싱에 대한 언론 동향 분석을 진행하였다. 사용후핵연료 처리기술인 '파이로프로세싱' 키워드를 포함하는 네이버 웹 뉴스 기사 전문의 텍스트데이터를 수집하여 기간에 따라 인식변화를 분석하였다. 2016년 발생한 경주 지진, 2017년 새 정부의 에너지 전환정책 시행된 2010년대 중반 시기를 기준으로 전, 후의 동향 분석이 시행되었고, 빈도분석을 바탕으로 한 워드 클라우드 도출, TF-IDF(Term Frequency - Inverse Document Frequency) 도출, 연결정도 중심성 산출 등의 분석방법을 통해 텍스트데이터에 대한 세부적이고 다층적인 분석을 수행하였다. 연구 결과, 2010년대 이전에는 사용후핵연료 처리기술에 대한 사회 언론의 인식이 외교적이고 긍정적이었음을 알 수 있었다. 그러나 시간이 흐름에 따라 '안전(safety)', '재검토(reexamination)', '대책(countermeasure)', '처분(disposal)', '해체(disassemble)' 등의 키워드 출현빈도가 급증하며 사용후핵연료 처리기술 연구에 대한 지속 여부가 사회적으로 진지하게 고려되고 있음을 알 수 있었다. 정치 외교적 기술로 인식되던 사용후핵연료 처리기술이 국내 정책의 변화로 연구 지속 가능성이 모호해짐에 따라 언론 인식도 점차 변화했다는 것을 확인하였다. 이러한 연구 결과를 통해 원자력 분야에서의 사회과학 연구의 지속은 필수불가결함을 알 수 있었고 이에 대한 중요성이 부각되었다. 또한, 현 정부의 원전 감축과 같은 에너지 정책의 영향으로, 사용후핵연료 처리기술 연구개발에 대한 재평가가 시행되는 이 시점에서 해당 분야의 주요 키워드 분석은 향후 연구 방향 설정에 기여할 수 있을 것이라는 측면에서 실무적 의의를 갖는다. 더 나아가 원자력 공학 분야에 사회과학 분야를 폭넓게 적용할 필요가 있으며, 국가 정책적 변화를 고려해야 원자력 산업이 지속 가능할 것으로 사료된다.