• Title/Summary/Keyword: 자동수집

Search Result 1,079, Processing Time 0.031 seconds

A Study on the Development of DOI Lookup API (DOI 수집 API 개발에 관한 연구)

  • Kim, Sun-Tae;Yae, Yong-Hee
    • Journal of Information Management
    • /
    • v.39 no.1
    • /
    • pp.221-237
    • /
    • 2008
  • CrossRef provides a various queries(OpenAPIs) which can be used for DOI & meta data lookup. CrossRef encourages publishers and library societies to develop diverse system by using the queries. In this thesis, CrossRef's queries are analyzed and DOI Lookup API which could automatically lookup the DOI by various methods was developed. I proposed that how institutions having their own meta data can use the developed API.

Automatic Evaluation of Speech and Machine Translation Systems by Linguistic Test Points (자동통번역 시스템의 언어 현상별 자동 평가)

  • Choi, Sung-Kwon;Choi, Gyu-Hyun;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1041-1044
    • /
    • 2019
  • 자동통번역의 성능을 평가하는데 가장 잘 알려진 자동평가 기술은 BLEU이다. 그러나 BLEU로는 자동통번역 결과의 어느 부분이 강점이고 약점인지를 파악할 수 없다. 본 논문에서는 자동통번역 시스템의 언어 현상별 자동평가 방법을 소개하고자 한다. 언어 현상별 자동평가 방법은 BLEU가 제시하지 못하는 언어 현상별 자동평가가 가능하며 개발자로 하여금 해당 자동통번역 시스템의 언어 현상별 강점과 약점을 직관적으로 파악할 수 있도록 한다. 언어 현상별 정확도 측정은 Google 과 Naver Papago 를 대상으로 실시하였다. 정확률이 40%이하를 약점이라고 간주할 때, Google 영한 자동번역기의 약점은 스타일(32.50%)번역이었으며, Google 영한 자동통역기의 약점은 음성(30.00%)인식, 담화(30.00%)처리였다. Google 한영 자동번역기 약점은 구문(34.00%)분석, 모호성(27.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(30.00%)처리였다. Papago 영한 자동번역기는 대부분 정확률이 55% 이상이었으며 Papago 영한 자동통역기의 약점은 담화(30.00%)처리였다. 또한 Papago 한영 자동번역기의 약점은 구문(38.00%)분석, 모호성(32.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(20.00%)처리였다. 언어 현상별 자동평가의 궁극적인 목표는 자동통번역기의 다양한 약점을 찾아내어 약점과 관련된 targeted corpus 를 반자동 수집 및 구축하고 재학습을 하여 자동통번역기의 성능을 점증적으로 향상시키는 것이다.

An Automatic Classification System for Hanmail Net Questions Using Multiple Neural Networks (다중 신경망을 이용한 한메일넷 질의 자동분류 시스템)

  • 이지행;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.232-234
    • /
    • 2000
  • 최근들어 정보의 양이 날로 방대해 짐에 따라 이를 자동으로 분류해 줄 수 있는 무서 자동분류의 중요성이 널리 인식되고 있다. 문서 자동분류는 새로운 문서를 미리 정의된 부류로 대응시키는 일련의 작업을 말하며, 각종 패턴인식 기법들을 이용하여 시도되고 있다. 본 논문에서는 수많은 사용자들의 질의들을 분류하여 자동으로 응답하는 시스템에 적용할 수 있는 자동 질의 분류시스템을 제안한다. 실험은 500만명 이상이 사용하고 있는 한메일넷의 실제 사용자 질의를 수집하여 수행하였으며, 자동분류 방법으로는 다중 신경망을 이용하였다. 또한 효율적인 특징추출 기법과 결과 결합방법을 적용하여 분류의 정확율을 높이고자 하였다. 2204개의 실제 질의메일에 대한 실험결과, 91.1%까지의 정확율을 얻어 제안한 시스템이 실제 한메일넷의 자동응답 시스템에 효과적으로 적용될 수 있음을 알 수 있었다.

  • PDF

자동제어 교육에서의 컴퓨터 소프트웨어 이용

  • 오준호
    • Journal of the KSME
    • /
    • v.28 no.2
    • /
    • pp.165-168
    • /
    • 1988
  • 컴퓨터는 그 자체만으로도 일반인의 흥미와 관심을 불러일으키기에 충분한 기자재이다. 이러한 컴퓨터를 자동제어 교육에 십분 활용함으로써 교육효과를 극대화시킬 수 있을 것이다. 이를 위하여 교육에 대한 과감한 투자로서 컴퓨터등 기자재를 과감히 확보하고 이를 활용함과 아울러 이에 따른 적절한 교과내용의 재검토가 이루어져야 할 것이다. 본 글에서는 주로 컴퓨터 시뮬 레이션 등 소프트웨어 활용에 대하여 주로 언급하였으나 이를 데이터수집 및 해석, 디지틀 제어 등 하드웨어로서의 컴퓨터 활용도 더욱 교육에 도입되어야 할 것이다.

  • PDF

Design and Implementation of Automated Twitter Data Collecting System : Focus on Environmental Data (자동화된 트위터 데이터 수집 시스템 설계 및 구현 : 환경 데이터를 중심으로)

  • Kim, Do-Hyung;Koo, Jahwan;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.361-364
    • /
    • 2020
  • 소셜 네트워크 서비스의 사용자가 늘어나면서, 소셜 네트워크 서비스상에서 발생하는 빅데이터를 활용한 서비스가 늘어나고 있다. 소셜 네트워크 서비스 데이터는 실시간으로 생성되며, 따라서 데이터 수집 시스템 역시 자동화하여 준 실시간으로 데이터를 수집할 필요가 있다. 본 논문에서는 대표적인 소셜 네트워크 서비스인 트위터의 데이터를 지속적으로 수집하기 위한 자동 수집 시스템을 제안한다. 수집 시스템은 Twitter API 를 활용하는 Python 라이브러리를 통해 내용 및 메타데이터를 수집하며, 수집된 데이터를 재 검증한 뒤 저장한다. 또한 구현된 시스템에 환경 데이터를 주제로 하는 쿼리를 입력하여 실제 트위터 데이터를 수집하며 구현된 시스템을 검증해보았다.

Developing the Performance Analysis Model of the Heat-Shrink-Tube Manufacturing Process using a Simulation Method (시뮬레이션 기법을 통한 자동차용 열 수축 튜브 생산공정모델 개발)

  • Cho, Gyu-Sung;Lee, Seung-Hoon
    • Journal of the Korea Society for Simulation
    • /
    • v.19 no.4
    • /
    • pp.21-29
    • /
    • 2010
  • This research suggests a simulation model regarding the performance analysis of the Heat-Shrink-Tube manufacturing process using a simulation method. To analyze this study, firstly, we have collected the operating data from 'A' automobile parts company. Secondly, we have analyzed the collected data to apply a simulation model. Thirdly, we have developed a simulation model to experiment the process analysis and the line balancing methodology. The proposed simulation model can be executed by various input data without changing the simulation model and the performance of the Heat-Shrink-Tube Manufacturing system can be calculated by this model.

management and exploitation of ecological data in lakes and rivers (수생태계의 데이터수집과 활용)

  • KIM, Bomchul
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2017.08a
    • /
    • pp.103-103
    • /
    • 2017
  • 생태학 분야에서는 생물의 분포, 변동, 서식환경요인의 변화, 등의 여러 종류의 데이터들이 수집되고 있는데 데이터의 형태가 다양하여 데이터의 관리와 활용형태도 다양하게 나타나고 있다. 근래에 들어 각 종 측정기기들이 개발되면서 생태조사 분야에서도 데이터의 양이 급증하는 시점에 있다. 수생태계 분야에서도 전통적인 생물상조사의 데이터는 크게 증가하지 않고 있지만 자동측정센서가 개발된 항목의 경우에는 데이터가 급증하는 단계에 있다. 수생태계에서 흔히 조사되는 플랑크톤의 군집구조 자료를 보면 하나의 조사대상 시료에서 출현하는 종의 수가 50 종정도에 이르며 각 개체의 종을 육안으로 확인하고 있으므로 종조성조사는 아직 자동화가 어렵다. 그러므로 플랑크톤 자료의 특성은 조사의 시료수(case)는 적고 측정항목(변수 variable)이 많은 특성을 가진다. 반면에 센서가 개발된 수질과 관련된 항목들은 자동측정설비가 확대되고 있어 변수는 적지만 장기간의 time series 들이 수집되고 있다. 녹조현상이 관심을 끌면서 여러 곳에 식물플랑크톤의 양을 측정하는 chlorophyll 센서가 설치되고 있는 것이 대표적인 사례이다. 그 외에 정량화되지 못하는 정성적 자료들도 수집되고 있으며 자료수집방법의 표준화도 미흡한 예가 많이 있고, 자료의 형태가 다양하여 데이터의 관리와 활용을 어렵게 한다. 환경부는 전국의 주요 하천 지점에서 정기적으로 수질을 측정하여 공개하고 있으며, 일부 지점에는 자동수질측정시설을 설치하여 측정의 빈도를 높이고 있다. 하천이나 호수에서 센서를 이용한 고빈도 모니터링은 그 동안 인지하지 못하였던 단기적 생태계 변화에 대해 새로운 정보를 제공하여 연구의 장르를 넓혀 가고 있다. 도시하천에서 산소를 측정한 사례를 보면 강우 시에 일시적으로 산소가 고갈되는 현상이 관찰되며, 부영양한 호수와 하천에서는 주야간 산소의 급격한 변동이 생태계 스트레스 요인으로 작용하고 있음을 알 수 있었다. 식물플랑크톤 센서의 연구에 의해 단기적인 변동이 크게 나타나고 있음이 새로이 밝혀지기도 하였다. 데이터의 수집과 활용도를 높이려는 노력도 이루어지고 있다. 과거에는 개인단위로 이루어지던 연구가 이제는 데이터를 수집하고 공유하는 플랫폼이 만들어 지면서 공동연구가 확대되고 있고, 국제적으로 지역을 초월하는 공동연구도 가능하게 되었다. 국제호수관측망학회(Global Lake Ecological Observatory Network, GLEON)이 그 사례이며 세계 여러 나라의 학자들이 참여하여 국제적으로 데이터를 공유하고 공동연구를 촉진하는 역할을 하고 있다. 생태계데이터의 증가는 생태학자들의 연구역량을 초과하는 데이터의 관리와 활용의 능력을 요구할 것이며 환경 생태 IT 분야의 융합연구의 필요성이 크게 대두되고 있다. 그간 데이터베이스의 구축에는 일부 성과가 있었으나 아직 수집된 데이터의 활용도를 높이고 타분야와의 협력연구 시너지를 확대하려는 노력은 부족하다. 이제는 데이터의 수집과 저장뿐 아니라 데이터의 활용도를 높일 수 있도록 학제적 협력연구를 촉진하는 off-line 모임도 확대할 때이다.

  • PDF

Study on Method Constructing Dialog Act Tagged Corpus for Dialog System in Car (차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법 연구)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.181-184
    • /
    • 2012
  • 본 논문에서는 한국전자통신연구원 언어처리연구팀에서 개발하고 있는 차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법에 대해 기술하는 것을 목표로 한다. 차량용 태깅 코퍼스 구축 방법은 크게 차량용 대화 코퍼스 수집과 수집된 대화 코퍼스에 Dialog Act를 반자동으로 태깅하는 방법으로 나눌 수 있다. 차량용 대화 코퍼스 수집은 1) 대화플랜 맵 구축, 2) 표준대화 구축, 3) 자유대화 구축, 4) 사용자 발화에 패러프래징 발화 구축의 순으로 구축되었다. Dialog Act 태깅은 수집된 대화코퍼스로부터 슬롯 후보를 추출하여 슬롯 체계를 구축한 후 반자동 슬롯 태깅을 실시하고, 슬롯 태깅 결과와 Dialog Act Type을 조합하여 Dialog Act 태깅 코퍼스를 구축하였다. 이렇게 구축된 Dialog Act 태깅 코퍼스는 차량 공조시스템(에어컨, 히터 등) 및 차량 응급 조치 정보 서비스와 같은 차량용 대화 시스템에 적용 중에 있다.

  • PDF

A Design and Implementation of Web Robot by Using Genre-based Categorization and Subject-based Categorization (장르기반 분류와 주제기반 분류를 이용한 웹 로봇의 설계 및 구현)

  • Lee Yong-Bae
    • The KIPS Transactions:PartB
    • /
    • v.12B no.4 s.100
    • /
    • pp.499-506
    • /
    • 2005
  • It still has some restrictions to collect a specialized information with only the function of existing web robot which collect an enormous of data by circulating through the internet. Therefore, in this paper the functions of the current web robot and its application areas are analyzed and the limitations of collecting a specialized information are found out. Also we define what functions are necessary for a web robot in order to collect a specialized information. Then the designed structure is described. There are two critical functions which are applied to web robot. One is a genre-based categorization that classifies the text by the type, and the other is a content-based categorization by the subject. Most of all, genre-based categorization is used as fundamental feature which enables web robot to collect the aimed documents efficiently.

Korean Web Content Extraction using Tag Rank Position and Gradient Boosting (태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출)

  • Mo, Jonghoon;Yu, Jae-Myung
    • Journal of KIISE
    • /
    • v.44 no.6
    • /
    • pp.581-586
    • /
    • 2017
  • For automatic web scraping, unnecessary components such as menus and advertisements need to be removed from web pages and main contents should be extracted automatically. A content block tends to be located in the middle of a web page. In particular, Korean web documents rarely include metadata and have a complex design; a suitable method of content extraction is therefore needed. Existing content extraction algorithms use the textual and structural features of content blocks because processing visual features requires heavy computation for rendering and image processing. In this paper, we propose a new content extraction method using the tag positions in HTML as a quasi-visual feature. In addition, we develop a tag rank position, a type of tag position not affected by text length, and show that gradient boosting with the tag rank position is a very accurate content extraction method. The result of this paper shows that the content extraction method can be used to collect high-quality text data automatically from various web pages.