• 제목/요약/키워드: 위키

검색결과 169건 처리시간 0.024초

국채보상운동 디지털 아카이브의 개인/단체명 관리를 위한 메타데이터 설계에 관한 연구 (A Study on Metadata Design for Managing Person and Organization Names in the National Debt Redemption Movement Digital Archive)

  • 한상은;도슬기
    • 정보관리학회지
    • /
    • 제41권1호
    • /
    • pp.509-536
    • /
    • 2024
  • 본 연구의 목적은 소규모의 디지털 아카이브인 국채보상운동 디지털 아카이브의 개인과 단체 전거데이터를 관리하기 위한 메타데이터 AP를 개발하는 것이다. 도서관과 기록관의 개인/단체 메타데이터 표준, 구축 사례 및 지침을 분석하여 설계 원칙과 핵심적인 메타데이터 요소를 도출하였으며, 국채보상운동 개인/단체명 시소러스 데이터, 위키데이터 연계 메타데이터 모델과 매핑하여 최종적으로 식별영역 10개 요소, 내용영역 14개 요소, 관계영역 8개 요소, 통제영역 4개 요소를 도출하였다. 소규모의 기관에서도 적용할 수 있도록 단순 구조 스키마를 적용하였고, 상호운용성을 위해 DublinCore, SKOS 스킴을 참고하여 스키마를 제안하였고 실제 데이터를 토대로 적용가능성을 확인하였다. 본 연구의 결과는 데이터 관리의 중요성은 알지만, 실제적인 적용이 어려운 기관에서 전거데이터 관리체계를 마련하고자 할 때, 기초자료로 활용할 수 있을 것이다.

딥러닝 프레임워크의 비교: 티아노, 텐서플로, CNTK를 중심으로 (Comparison of Deep Learning Frameworks: About Theano, Tensorflow, and Cognitive Toolkit)

  • 정여진;안성만;양지헌;이재준
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.1-17
    • /
    • 2017
  • 딥러닝 프레임워크의 대표적인 기능으로는 '자동미분'과 'GPU의 활용' 등을 들 수 있다. 본 논문은 파이썬의 라이브러리 형태로 사용 가능한 프레임워크 중에서 구글의 텐서플로와 마이크로소프트의 CNTK, 그리고 텐서플로의 원조라고 할 수 있는 티아노를 비교하였다. 본문에서는 자동미분의 개념과 GPU의 활용형태를 간단히 설명하고, 그 다음에 logistic regression을 실행하는 예를 통하여 각 프레임워크의 문법을 알아본 뒤에, 마지막으로 대표적인 딥러닝 응용인 CNN의 예제를 실행시켜보고 코딩의 편의성과 실행속도 등을 확인해 보았다. 그 결과, 편의성의 관점에서 보면 티아노가 가장 코딩 하기가 어렵고, CNTK와 텐서플로는 많은 부분이 비슷하게 추상화 되어 있어서 코딩이 비슷하지만 가중치와 편향을 직접 정의하느냐의 여부에서 차이를 보였다. 그리고 각 프레임워크의 실행속도에 대한 평가는 '큰 차이는 없다'는 것이다. 텐서플로는 티아노에 비하여 속도가 느리다는 평가가 있어왔는데, 본 연구의 실험에 의하면, 비록 CNN 모형에 국한되었지만, 텐서플로가 아주 조금이지만 빠른 것으로 나타났다. CNTK의 경우에도, 비록 실험환경이 달랐지만, 실험환경의 차이에 의한 속도의 차이의 편차범위 이내에 있는 것으로 판단이 되었다. 본 연구에서는 세 종류의 딥러닝 프레임워크만을 살펴보았는데, 위키피디아에 따르면 딥러닝 프레임워크의 종류는 12가지가 있으며, 각 프레임워크의 특징을 15가지 속성으로 구분하여 차이를 특정하고 있다. 그 많은 속성 중에서 사용자의 입장에서 볼 때 중요한 속성은 어떤 언어(파이썬, C++, Java, 등)로 사용가능한지, 어떤 딥러닝 모형에 대한 라이브러리가 잘 구현되어 있는지 등일 것이다. 그리고 사용자가 대규모의 딥러닝 모형을 구축한다면, 다중 GPU 혹은 다중 서버를 지원하는지의 여부도 중요할 것이다. 또한 딥러닝 모형을 처음 학습하는 경우에는 사용설명서가 많은지 예제 프로그램이 많은지 여부도 중요한 기준이 될 것이다.

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

가상 커뮤니티의 멤버 유동성과 지식 협업: 멤버 유동성에 대한 다각적 접근 (Membership Fluidity and Knowledge Collaboration in Virtual Communities: A Multilateral Approach to Membership Fluidity)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.19-47
    • /
    • 2015
  • 오늘날의 지식기반경제에서 핵심적인 역할을 수행하고 있는 가상 커뮤니티의 성공을 위해 턴오버(turnover)는 매우 중요한 의미를 가지고 있다. 그런데, 이에 대한 연구는 많이 부족한 실정이다. 우선, 턴오버를 측정하는 방법부터가 명확하지 않다. 가상 커뮤니티에서 새로운 구성원의 유입은 비교적 확실하게 인지할 수 있지만, 탈퇴는 명시적으로 탈퇴 처리를 하는 사람들이 드물고 재방문 가능성이 상존하기 때문에 구별하기가 쉽지 않다. 그리고, 특정기간 동안 임의의 구성원이 해당 커뮤니티를 위해 활동하고 있는 진정한 구성원인지를 판단하는 방식이 분명하지 않아 전통적인 조직의 턴오버 공식을 그대로 적용하기 힘든 면이 있다. 본 연구에서는 이러한 한계점과 가상 커뮤니티 구성원의 행위 패턴을 고려하여, 일차적으로 턴오버를 포함한 가상 커뮤니티 구성원의 유동성(fluidity) 관련 척도들을 도출하고, 이를 토대로 유동성과 가상 협업 성과의 관계를 작업의 전문적인 특성을 반영하여 분석하였다. 요컨대, 대표적인 지식 협업 커뮤니티인 영어 위키피디아의 2,978개 피쳐드 아티클(featured article)에 대한 지식 협업 행위로부터 다음과 같은 결과를 얻었다. 첫째, 협업 효율성에 대한 턴오버의 관계는 오른쪽 부분이 짧은 U자 형태를 보이며, 똑같은 턴오버율에 대해 보다 학문적인 아티클을 완성하는 것이 더 오래 걸리고, 이 차이는 턴오버율이 증가함에 따라 감소한다. 둘째, 협업효율성에 대한 재방문기간의 관계는 왼쪽 부분이 짧은 U자 형태의 관계를 가지며, 전문적이지 않은 작업일수록 재방문기간의 일단위 변화에 대한 협업 효율성의 변화가 크다. 그리고, 똑같은 재방문기간에 대해 보다 학문적인 아티클을 완성하는 것이 더 오래 걸리며, 이 차이는 재방문기간이 평균이상으로 증가함에 따라 더욱 커진다. 셋째, 협업효율성에 대한 월(month)별 유입 신규 구성원 수의 관계는 왼쪽 부분이 짧은 역 U자 관계를 가지며, 이 관계에 대한 작업 특성의 영향은 유의하지 않은 것으로 보인다.

집단지성의 품질, 그 결정요인, 유용성의 관계: 수용자 관점에서 한국의 위키서비스와 Q&A 서비스의 비교 (Relationships between Collective Intelligence Quality, Its Determinants, and Usefulness: A Comparative Study between Wiki Service and Q&A Service in Perspective of Korean Users)

  • 주재훈;이스마틸라 노르마토프
    • Asia pacific journal of information systems
    • /
    • 제22권4호
    • /
    • pp.75-99
    • /
    • 2012
  • Innovation can come from inside or outside organizations. Recently, organizations have begun turning to external knowledge more often, through various forms of collective intelligence (CI) as collaborative platform to solve complex problems. Several factors facilitate this CI utilization phenomenon. First, with the rapid development of Internet and social media, numerous web applications have become available to millions of the Internet users over the past few decades. Web 2.0 and social media have become innovative web applications that provide an environment for human social interaction and collaboration. Second, the diffusion of simple and easy-to-use technologies that enable users to interact and design web applications without programming skills have led to vast, previously unknown amounts of user-generated content. Finally, the Internet has enabled communities to connect and collaborate, creating a virtual world of CI. In this study, web enabled CI is defined as a composed ability of individuals who are acting as a single cognitive unit to achieve common goals, think reasonably, solve problems, make decisions, carry out complex tasks, and develop creative ideas collectively through participation and collaboration on the web. Although CI plays a critical role in organizational innovation and collaboration, the dubious quality of CI is still problem that is difficult to solve. In general, the quality level of content collected from the crowd is lower than that from professionals. Thus, it is important to identify determinants of CI quality and to analyze the relationship between CI quality and its usefulness. However, there is a lack of empirical study on the quality factors of web-enabled CI. There exist a variety of web enabled CI sites such as Threadless, iStockphoto or InnoCentive, Wikipedia, and Youtube. One of the most successful forms of web-enabled CI is the Wikipedia online encyclopedia, accessible all over the world. Another one example is Naver KnowledgeiN, a typical and popular CI site offering question and answer (Q&A) services. It is necessary to study whether or not different types of CI have a different effect on CI quality and its usefulness. Thus, the purpose of this paper is to answer to following research questions: ${\bullet}$ What determinants are important to CI quality? ${\bullet}$ What is the relationship between CI quality factors and the usefulness of web-enabled CI? ${\bullet}$ Does CI type have a moderating effect on the relationship between CI quality, its determinants, and CI usefulness? Online survey using Google Docs with email and Kakao Talk was conducted for collecting data from Wikipedia and Naver KnowledgeiN users. A totoal of 490 valid responses were collected, where users of Wikipedia were 220 while users of Naver KnowledgeiN were 270. Expertise of contributors, community size, and diversity of contributors were identified as core determinants of perceived CI quality. Perceived CI quality has significantly influenced perceived CI usefulness from a user's perspective. For improving CI quality, it is believed that organizations should ensure proper crowd size, facilitate CI contributors' diversity and attract as many expert contributors as possible. Hypotheses that CI type plays a role of moderator were partially supported. First, the relationship between expertise of contributors and perceived CI quality was different according to CI type. The expertise of contributors played a more important role in CI quality in the case of Q&A services such as Knowledge iN compared to wiki services such as Wikipedia. This implies that Q&A service requires more expertise and experiences in particular areas rather than the case of Wiki service to improve service quality. Second, the relationship between community size and perceived CI quality was different according to CI type. The community size has a greater effect on CI quality in case of Wiki service than that of Q&A service. The number of contributors in Wikipeda is important because Wiki is an encyclopedia service which is edited and revised repeatedly from many contributors while the answer given in Naver Knowledge iN can not be corrected by others. Finally, CI quality has a greater effect on its usefulness in case of Wiki service rather than Q&A service. In this paper, we suggested implications for practitioners and theorists. Organizations offering services based on collective intelligence try to improve expertise of contributeros, to increase the number of contributors, and to facilitate participation of various contributors.

  • PDF

방사선 전공학생의 연구역량 증진을 위한 인지적 도제기반 논문작성 교육 모형 개발 (The Development of Education Model for CA-RP(Cognitive Apprenticeship-Based Research Paper) to Improve the Research Capabilities for Majors Students of Radiological Technology)

  • 박훈희;정현숙;이윤희;김현수;강병삼;손진현;민정환;유광열
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제36권2호
    • /
    • pp.99-110
    • /
    • 2013
  • 현재 방사선 분야가 사회의 중요한 직업군으로 성장하기 위한 전문적인 방사선사 양성교육의 필요성이 강조되고 있다. 또한 대부분의 병원 및 기업에서는 급변하는 대내외적 환경에서 능동적으로 대처하고 보다 깊이 있는 전문가 양성을 위해서 논문에 대한 중요성이 높아지고 있으며, 급변하는 외부상황에 보다 능동적으로 대처할 수 있는 새로운 교수학습모형의 도입이 필요성이 대두되고 있다. 논문작성 수업은 정해진 프로그램에만 의존하여 시간적 제약과 수동적인 참여가 불가피하여 깊이 있는 교육 및 학습에 한계를 가져왔다. 그리고 작성한 논문에 대하여 다양한 발표기회를 갖지 못하고 있으며, 강의 중심의 수업으로 실제 작성하고 논의 할 수 있는 기회가 많이 제공되지 못하였다. 이는 논문의 질에도 직접적인 영향을 미칠 뿐 아니라 다양한 학술대회 참여기회를 가지는데 한계점으로 나타났으며, 궁극적으로 산업체와 연계에도 긍정적 영향을 주지는 못하였다. 이러한 문제점을 개선하기 위해서 본 연구에서는 논문 작성을 일관성 있는 점진적 심화학습으로 교육운영을 편성함과 동시에 연계성 있는 통합 운영을 기반으로 운영상의 아이디어를 제안하고 실제 논문작성 수행능력 향상을 위한 효율적인 교육프로그램과 학습지도도구를 개발 적용하였다. 개발한 교수학습모형은 모델링(modeling), 발판화(scaffolding), 명료화(articulation), 탐색(exploration)으로 4단계의 시스템으로 구성하였다. 교과목의 특성에 따라 연계교과를 고려하여 개인의 관심도와 주제에 따라 팀을 구성하고 이를 바탕으로 단계별 평가와 피드백을 통해 연구역량을 증진하고, 저널스터디(journal study)를 통하여 문제해결 능력을 근본적으로 강화하고, 위키스페이스(wiki-space)를 활용하여 실시간의 문제해결을 돕고 효율적인 시간활용을 도우며, 멘토링(mentoring)을 통해 산학협력을 활성화하여 논문의 질을 높이며, 긍정적인 산과 학의 협력관계를 도모하게 하였다. 지원시스템에서는 크게 3단계로 주제 기획, 진행 및 작성, 논문작성 및 발표로 구성되었으며, 이는 인지적 도제를 기반으로 하고 있다. 이러한 활동을 원활하게 유지하기 위해 교수자와 전문가의 지속적인 코칭(coaching)과 성찰(reflection)을 적용하였다. 본 연구를 통하여 학습자에게 실질적이고 능동적, 자발적 참여를 유도함으로써 창의성, 독창성의 향상과 공동업무 능력을 배양하고 지식기반의 전문성을 보다 강화함으로써 종합적으로 능력을 향상시키는데 도움이 되리라 사료된다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

지식 공유의 파레토 비율 및 불평등 정도와 가상 지식 협업: 위키피디아 행위 데이터 분석 (Pareto Ratio and Inequality Level of Knowledge Sharing in Virtual Knowledge Collaboration: Analysis of Behaviors on Wikipedia)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.19-43
    • /
    • 2014
  • 전체 결과의 80%가 전체 원인의 20%에 의해 일어난다는 파레토 법칙(Pareto principle)은 상위 20%의 핵심 고객에 대한 우선적인 마케팅을 비롯하여 기업 경영의 많은 부분에서 적용되어 왔다. 파레토 법칙과는 대조적으로, 80%의 사소한 다수가 20%의 핵심적인 소수보다 우월한 가치를 창출한다는 롱테일 법칙(Long Tail theory)은 ICT(Information and Communication Technology)의 발전과 함께 새로운 경영 패러다임으로 주목 받아오고 있다. 본 연구의 목적은 경영 현장에서 양대 흐름을 형성해온 이러한 법칙들이 변화무쌍한 글로벌 가상화 환경에서 기업의 핵심적인 성공 요인이라고 할 수 있는 가상 지식 협업에는 어떻게 관련되는지를 규명하는 것이다. 이를 위해, 대표적인 가상 지식 협업 커뮤니티인 위키피디아에서 품질 최상위 등급인 피쳐드 아티클(Featured Article) 레벨로 승급된 2,978개의 아티클에 대한 협업 행위를 분석하였다. 즉, 각 아티클 그룹에서 편집 횟수 기준 상위 20%에 속하는 참여자들의 총 편집 횟수가 전체 편집 횟수에서 차지하는 비율인 파레토 비율(Pareto ratio)이 지식 협업 효율성과 어떤 관계를 가지고 있는지를 도출하였다. 그리고, 이러한 연구를 편집 참여를 통한 지식 공유에 대한 전체적인 불평등 정도를 나타내는 지니 계수(Gini coefficient)의 영향 및 그룹의 작업 특성을 반영하도록 확장하였다. 결과적으로, 지식 공유의 파레토 비율과 지니 계수가 증가하면 지식 협업 효율성도 높아지지만, 이러한 변수들이 일정 수준 이상으로 증가하면 오히려 지식 협업 효율성이 낮아지는 역 U자(inverted U-shaped) 관계가 있음을 확인하였다. 그리고, 이러한 관계는 인지적 노력을 상대적으로 더 많이 요구하는 학문적인 특성의 작업에서 더 민감하게 작용하는 것으로 보인다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.