• Title/Summary/Keyword: 위키 사전

Search Result 24, Processing Time 0.03 seconds

Automatic Construction of Class Hierarchies and Named Entity Dictionaries using Korean Wikipedia (한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동 구축)

  • Bae, Sang-Joon;Ko, Young-Joong
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.4
    • /
    • pp.492-496
    • /
    • 2010
  • Wikipedia as an open encyclopedia contains immense human knowledge written by thousands of volunteer editors and its reliability is also high. In this paper, we propose to automatically construct a Korean named entity dictionary using the several features of the Wikipedia. Firstly, we generate class hierarchies using the class information from each article of Wikipedia. Secondly, the titles of each article are mapped to our class hierarchies, and then we calculate the entropy value of the root node in each class hierarchy. Finally, we construct named entity dictionary with high performance by removing the class hierarchies which have a higher entropy value than threshold. Our experiment results achieved overall F1-measure of 81.12% (precision : 83.94%, recall : 78.48%).

Analysis of Wikipedia Citations in Peer-Reviewed Journal Articles (학술논문에서의 위키피디아 인용에 관한 연구)

  • Shim, Wonsik;Byun, Jeayeon;Kim, Minjung
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.47 no.2
    • /
    • pp.247-264
    • /
    • 2013
  • Wikipedia represents a revolutionary experiment in the sense that it allows anonymous Internet users to contribute, change, and edit Encyclopedia contents used by tens of millions of people. While a very popular information source on the Internet, because of its questionable information credibility and accuracy, citing Wikipedia articles is being regarded as a risky behavior for scholars. The present study identified 282 scholarly articles from Thomson Reuters' Web of Science citation database that cite Wikipedia at least once. Out of the millions of articles indexed in Web of Science, the proportion of articles citing Wikipedia is extremely small. On the other hand, the numbers are showing a marked increase since 2011. Wikipedia citing articles are distributed in subject areas, such as library and information science, business, psychology, education, and communication more often than in other areas. The distribution of a total of 577 citations from 267 articles for which we were able to obtain full texts shows that Wikipedia is being cited mainly in studies of Wikipedia (139 citations, 24.1%) or as a ready reference source (331 citations, 57.4%). At the same time, about 15% of total citations turned out to be cases of potentially risky behaviors in which Wikipedia is being cited as a crucial basis or data source for study.

The Effects of Scaffolding Types in Wiki-based Collaborative Learning on Creativity (위키 기반 협력학습에서 스캐폴딩 유형이 창의성에 미치는 영향)

  • Hwang, Kyung-Yang;Kim, Hoi-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.2
    • /
    • pp.66-78
    • /
    • 2019
  • This study aimed to investigate the effects of scaffolding on creativity in Wiki-based collaborative learning. Wiki-based collaborative learning was implemented over three sessions among 67 sixth graders in an elementary school, and subjects were divided into three groups: Group 1 had a teachers' scaffolding and self-questioning script; Group 2 had a teachers' scaffolding; and Group 3, the control group, had no scaffolding. Results showed a significant difference in creativity among the groups with different types of scaffolding(Wilks' Lambda=.238, F=8.678, p < .001). Group 1, had significantly higher performance compared to the Group in creativity. However, when self-questoning script and a teachers' scaffolding were offered, self-scaffolding was not found to have a significant effect on learners' Originality of creativity. Group 2 showed higher performance in Originality of creativity when only a teachers' scaffolding was offered in the collaborative learning. The results of this study suggest that teachers' scaffolding and self-scaffolding have positive effects on creativity, but the need for a differentiated self-scaffolding strategy to identify the factors that influence creativity in wiki-based collaborative learning.

Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling (언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축)

  • Cheon, JuRyong;Ko, YoungJoong
    • Journal of KIISE
    • /
    • v.42 no.7
    • /
    • pp.901-909
    • /
    • 2015
  • In this paper, to build a parallel corpus between Korean and English in Wikipedia. We proposed a method to find similar sentences based on language resources and topic modeling. We first applied language resources(Wiki-dictionary, numbers, and online dictionary in Daum) to match word sequentially. We construct the Wiki-dictionary using titles in Wikipedia. In order to take advantages of the Wikipedia, we used translation probability in the Wiki-dictionary for word matching. In addition, we improved the accuracy of sentence similarity measuring method by using word distribution based on topic modeling. In the experiment, a previous study showed 48.4% of F1-score with only language resources based on linear combination and 51.6% with the topic modeling considering entire word distributions additionally. However, our proposed methods with sequential matching added translation probability to language resources and achieved 9.9% (58.3%) better result than the previous study. When using the proposed sequential matching method of language resources and topic modeling after considering important word distributions, the proposed system achieved 7.5%(59.1%) better than the previous study.

Effects of Interaction using Wiki on Productive Vocabulary Knowledge (위키를 활용한 상호작용이 산출적 어휘 지식에 미치는 영향)

  • Jang, Yong-Seon
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.5
    • /
    • pp.487-497
    • /
    • 2014
  • The purpose of this study is to investigate the efficacy of interaction using Wiki in communication-oriented classes taught by native teachers on the incidental improvement of productive vocabulary knowledge. Eighty two university freshmen participated in the study and they were divided into two groups. Thirty eight students(Process Group) received process feedback from the teacher while forty four students(Result Group) received result feedback. They were given a short movie project working in a group of four or five people to practice interaction between peers and between students and the teacher. Data were collected from one receptive and three productive vocabulary knowledge test scores. The results showed that interaction using Wiki was conducive to the growth of productive vocabulary knowledge incidentally due to continuous opportunities to use vocabulary. The students of process feedback group made greater gains of productive vocabulary than those of result feedback group. Based on these results, pedagogical implications are discussed.

The Study for Elementary Educational Activities Using Wikipedia (초등학교 교육활동을 위한 Wikipedia의 교육적 활용방안 연구)

  • Kim, Hyeon-Jeong;Hong, Myung-Hui
    • 한국정보교육학회:학술대회논문집
    • /
    • 2009.08a
    • /
    • pp.179-187
    • /
    • 2009
  • Web2.0은 정치, 경제, 사회 등의 다양한 분야에서 큰 영향을 주었는데 교육 분야에서도 활발한 응용을 볼 수 있었다. Web2.0을 교육적으로 활용할 수 있는 다양한 사이트 중 Wikipedia는 Web2.0의 집단지성을 대표하는 것으로 유명하다. Wikipedia는 오픈소스백과사전으로서 누구나 편집이 가능하고 배타적인 저작권을 가지고 있지 않기 때문에 사용에 제약을 받지 않는다. 현재 267개의 언어로 서비스되고 있으며, 모든 언어를 합하면 1000만여 항목이 넘으며, 앞으로의 발전이 기대되는 온라인 사전이다. Wikipedia는 정보 검색, 정보생성, 위키문법이용 편집, 토론 등의 기본 기능과 사용자문서 관리, 문서역사, 바벨, 위키미디어 프로젝트 등의 응용 기능이 있으며, 집단지성과 즉시성, 발전가능성, 개방성, 대용량성 등의 교육적 장점을 갖고 있으나, 현재 한국 교육 현장에서는 활발히 이용되고 있지 않은 것이 현실이다. 이에 Wikipedia를 초등학교 교육 현장에 적용하는 다음의 6가지 활동을 제안한다. 첫째, 정보검색, 둘째 정보편집, 셋째 정보생성, 넷째 정보토론, 다섯째 학습 결과물의 정리, 여섯째 프로젝트 학습의 활동들을 적용할 수 있다. 브리태니커사전과 비교할 정도로 정확하다는 긍정적인 시각과 누구나 편집을 할 수 있기 때문에 문서훼손이 생겨 부정확하다는 부정적인 시각이 있다. 또한 한국 Wikipedia가 타국의 Wikipedia에 비해 부진한 이유를 찾는 논의에는 여러 해석이 있다. 이러한 논의에도 불구하고 Wikipedia에는 무궁한 발전 가능성이 있기 때문에 교육에 활용할 만한 가치가 있다고 판단된다.

  • PDF

'Collective intelligence Structure' Analysis (지식 생산 방식에 따른 집단지성 구조 분석 -네이버 지식IN과 위키피디아를 중심으로-)

  • Han, Chang-Jin
    • 한국HCI학회:학술대회논문집
    • /
    • 2009.02a
    • /
    • pp.1363-1373
    • /
    • 2009
  • 본 연구는 두 집단지성의 가장 대표적인 서비스인 네이버 지식iN과 위키피디아의 구조적, 경험적 차이를 바탕으로 생산의 차원에서 생산 주기, 생산 참여자, 생산물의 모델을 설정하고, 새롭게 탄생하는 지식을 중심으로 검증함으로써 최종 지식 소비 행위를 반영한 각각의 종합모델을 도출하였다. 우리는 웹에서 집단지성의 일상화를 확인할 수 있다. 지식 획득 매체가 매스미디어에서 인터넷으로 변화하는 과정에서 등장한 포털 및 검색사이트는 지식의 생산이 전문가패러다임에서 소비자 중심으로 재편될 수 있는 가능성을 열어주었다. 그리고 이러한 생산 방식의 변화는 '지식'의 개념 역시 변화시키고 있다. 즉, 집단지성이라는 새로운 웹2.0의 현상이 지식생산방식을 변화시키고 변화된 지식생산방식은 '지식'자체를 변화시킨다는 이론적 가설을 도출할 수 있는 것이다. 본 연구는 이러한 새로운 현상들을 분석하기 위해서는 먼저 보다 엄밀하게 집단지성의 개념을 규정할 필요성에 출발하였다. 현재 집단지성이라는 이름으로 불리면서 급격히 성장하고 있는 위키 방식의 인터넷 서비스와 지식검색 방식의 인터넷 서비스를 비교함으로써 보다 정교한 집단지성의 모델을 구축하고자 하였다. 위키형 집단지성과 지식검색형 집단지성의 차이점은 경험적으로도 뚜렷하게 확인할 수 있다. 본 연구는 이러한 경험적 차이와 기존의 문헌에서 밝혀진 사실들을 바탕으로 두 서비스의 지식생산 방식을 생산플로우, 생산참여자 성향, 생산물(지식)의 성향과 같이 세 영역으로 나누어 각각의 가설 모델을 설정하고 이 모델을 선정된 질의어를 바탕으로 검증한 뒤에 최종적인 모델을 도출하는 방식으로 진행되었다. 지식검색형 집단지성은 '질문-답변-채택'의 구조이고, 그 구조 속에서 '질문기-답변기-순서화기'를 거쳐 하나의 지식 덩어리인 'K-let'을 생산한다. 생산된 'K-let'들은 지식검색서비스의 데이터베이스에 축적되고, 이는 공통된 질의어를 기준으로 소비자들에 의해서 검색되어 소비된다. 하나의 질문에 대해 여러 개의 답변들이 존재하고, 답변자의 성향은 크게 전문성과 체계성을 바탕으로 한 전문가형 답변자와 경험적이고 의견지향적인 대화형 답변자로 나눠진다. 다수의 네티즌들의 참여에 의해서 지식의 생산이 진행되므로 질문의 성향 역시 사실, 의견, 경험 등 다양한 스펙트럼을 가지는 모델로 설정하였다. 반면에 위키형 집단지성은 개방형 플랫폼을 바탕으로 한 백과사전의 형식이며, 이러한 형식 속에서 최초의 개념어 등록과 다수의 편집활동을 거치면서 완성되지 않는 하나의 아티클인 'W-let'을 생산한다. 이러한 'W-let'은 생성 초기에 소수에 의한 활발한 내용 입력 활동으로 어느 정도의 안정화를 거친 후에는 꾸준한 다수의 수정활동을 통해서 'W-let'의 생명력을 유지함으로써 지식의 실제적인 변화를 반영한다. 생산된 'W-let'들은 위키형 집단지성 서비스의 데이터베이스에 축적되고, 이것들은 내부링크를 통해서 모두 연결되어 있다. 백과사전 형식으로 하나의 개념어를 설명하는 하나의 아티클은 오로지 사실적인 지식들로만 구성되나 내부링크와 외부링크를 통해서 다양한 스펙트럼을 가지는 모델로 설정하였다. 위와 같이 설정된 모델을 바탕으로 공통된 질의어 및 개념어를 선정하여 각각의 서비스에 노출시켰다. 이를 통해서 얻어진 각 서비스의 데이터베이스에 축적된 모든 데이터들 중에서 일정한 기간을 기준으로 각각의 모델 검증에 필요한 데이터를 추출하여 분석하는 방식으로 진행되었다. 그 결과 지식검색형 집단지성에서는 '질문-답변-채택'의 생산 구조 속에 다수가 참여하여 질문-채택답변-기타답변으로 배열되어 있는 완성된 형태의 K-let들을 지속적으로 생산하며 비슷한 성향을 가진 K-let들이 반복적으로 생산되어 지식검색 데이터베이스에 누적된다. 지식 소비자들은 질의어 검색을 통해서 다양한 K-let들을 선택하여 비교, 검토한 후에 선택된 K-let들의 배열은 해체되어 소비자들에 의해서 재배열됨을 발견할 수 있었다. 이에 지식검색형 집단지성이란 다수의 의해서 생산되고 누적된 지식들이 소비자의 검색과 선택에 의해 해체되어 재배열되는 지식의 맞춤화 과정이라고 정의내릴 수 있었다. 반면에 위키형 집단지성에서는 '내용입력-미세수정' 구조 속에서 생명력 있는 W-let을 생성한다. W-let은 백과사전처럼 정리되어 내부링크를 통해서 서로 연결되고, 외부링크를 통해 확장되고, 지식소비자들은 검색을 통해 최초의 W-let에 도달한 후에 링크를 선택함으로써 지식을 확장시킴을 검증할 수 있었다. 따라서 위키형 집단지성이란 다수의 의해서 생산되고 정리된 지식들이 소비자의 검색과 링크에 의해 무한히 확장되는 지식의 확대 재생산되는 과정이라고 정의 내릴 수 있다. 결국, 현재의 집단지성이란 지식이 다수의 참여로 생산됨으로써 개인에게 맞춤화되고, 끊임없이 확대 재생산되는 과정을 의미한다. 그리고 이러한 집단지성의 방식은 지식이라는 현재의 차원을 넘어서 정치, 경제를 비롯한 사회의 전 영역으로 점차적으로 확대되어갈 것이다. 앞으로 연구들은 두 가지 모델이 혼재되어 있는 현재의 집단지성이 어떠한 새로운 모델을 만들면서 다른 영역으로 확장되어갈 것인지에 대해서 초점을 맞춰 나가야할 것이다.

  • PDF

Measurement of Political Polarization in Korean Language Model by Quantitative Indicator (한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안)

  • Jeongwook Kim;Gyeongmin Kim;Imatitikua Danielle Aiyanyo;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

Extracting Korean-English Parallel Sentences from Wikipedia (위키피디아로부터 한국어-영어 병렬 문장 추출)

  • Kim, Sung-Hyun;Yang, Seon;Ko, Youngjoong
    • Journal of KIISE:Software and Applications
    • /
    • v.41 no.8
    • /
    • pp.580-585
    • /
    • 2014
  • This paper conducts a variety of experiments for "the extraction of Korean parallel sentences using Wikipedia data". We refer to various methods that were previously proposed for other languages. We use two approaches. The first one is to use translation probabilities that are extracted from the existing resources such as Sejong parallel corpus, and the second one is to use dictionaries such as Wiki dictionary consisting of Wikipedia titles and MRDs (machine readable dictionaries). Experimental results show that we obtained a significant improvement in system using Wikipedia data in comparison to one using only the existing resources. We finally achieve an outstanding performance, an F1-score of 57.6%. We additionally conduct experiments using a topic model. Although this experiment shows a relatively lower performance, an F1-score of 51.6%, it is expected to be worthy of further studies.

Pre-trained Language Model for Table Question and Answering (표 질의응답을 위한 언어 모델 학습 및 데이터 구축)

  • Sim, Myoseop;Jun, Changwook;Choi, Jooyoung;Kim, Hyun;Jang, Hansol;Min, Kyungkoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.335-339
    • /
    • 2021
  • 기계독해(MRC)는 인공지능 알고리즘이 문서를 이해하고 질문에 대한 정답을 찾는 기술이다. MRC는 사전 학습 모델을 사용하여 높은 성능을 내고 있고, 일반 텍스트문서 뿐만 아니라 문서 내의 테이블(표)에서도 정답을 찾고자 하는 연구에 활발히 적용되고 있다. 본 연구에서는 기존의 사전학습 모델을 테이블 데이터에 활용하여 질의응답을 할 수 있는 방법을 제안한다. 더불어 테이블 데이터를 효율적으로 학습하기 위한 데이터 구성 방법을 소개한다. 사전학습 모델은 BERT[1]를 사용하여 테이블 정보를 인코딩하고 Masked Entity Recovery(MER) 방식을 사용한다. 테이블 질의응답 모델 학습을 위해 한국어 위키 문서에서 표와 연관 텍스트를 추출하여 사전학습을 진행하였고, 미세 조정은 샘플링한 테이블에 대한 질문-답변 데이터 약 7만건을 구성하여 진행하였다. 결과로 KorQuAD2.0 데이터셋의 테이블 관련 질문 데이터에서 EM 69.07, F1 78.34로 기존 연구보다 우수한 성능을 보였다.

  • PDF