• 제목/요약/키워드: 위키 사전

검색결과 24건 처리시간 0.031초

한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동 구축 (Automatic Construction of Class Hierarchies and Named Entity Dictionaries using Korean Wikipedia)

  • 배상준;고영중
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.492-496
    • /
    • 2010
  • 위키피디아는 개방형 백과사전으로서 수많은 편집자들에 의해 작성되기 때문에 빠른 시간에 방대한 양의 정보가 축적되고 있으며, 축적되는 정보의 신뢰성 또한 매우 높다. 본 논문에서는 이러한 장점을 가진 위키피디아의 여러 가지 세부정보를 이용하여 한국어 개체명 사전을 자동으로 구축하는 방법을 제안한다. 먼저 위키피디아의 각 엔트리(entry)의 분류정보를 사용하여 분류체계(class hierarchy)를 생성한다. 생성된 분류체계에 위키피디아 엔트리를 자동으로 매핑(mapping)시킨 다음, 분류체계에서 최상위 계층의 불확실성(entropy)을 계산한다. 마지막으로, 임계값 이상의 불확실성을 가지는 분류체계를 제거함으로써 정확률이 높은 개체명 사전을 구축한다. 본 논문에서 제안하는 방법으로 실험을 한 결과 최고 81.12%(83.94%:정확률,78.48%:재현율)의 F1-measure의 성능을 보였다.

학술논문에서의 위키피디아 인용에 관한 연구 (Analysis of Wikipedia Citations in Peer-Reviewed Journal Articles)

  • 심원식;변제연;김민정
    • 한국문헌정보학회지
    • /
    • 제47권2호
    • /
    • pp.247-264
    • /
    • 2013
  • 익명의 인터넷 이용자가 백과사전의 내용을 쓰고, 수정하고, 편집을 한다는 점에서 위키피디아는 획기적인 발상이다. 위키피디아는 현재 인터넷에서 가장 빈번하게 이용되는 정보원이지만 학술연구자들은 정보의 신뢰성, 정확성의 문제 등으로 위키피디아를 학술연구에서 이용하거나 인용하는 것을 위험한 행동으로 평가하고 있다. 본 연구는 대표적인 인용색인 데이터베이스인 Thomson Reuters의 Web of Science(WoS)에서 2002년부터 2012년의 기간 동안 위키피디아를 인용하고 있는 논문 총 282개를 대상으로 특성 및 인용 패턴을 분석하였다. 위키피디아 인용논문은 비록 소수이기는 하지만 2011년을 기점으로 급격하게 증가하고 있는 추세를 보이고 있다. 가장 많은 논문이 분포한 분야는 문헌정보학, 경영학, 심리학, 교육학 및 커뮤니케이션 분야이다. 원문을 입수할 수 있는 267개 논문에 나타난 총 577개의 인용에 대한 내용분석을 통해 위키피디아에 대한 연구에서의 인용과 지식정보원으로써의 위키피디아 활용을 조사하였다. 조사 결과 총 577개의 분석 대상 인용 가운데 상당수의 인용은 위키피디아에 대한 소개, 설명(139건, 24.1%)이거나, 위키피디아의 글을 간단한 참고정보원으로 활용한 경우(331건, 57.4%)로 파악되었다. 하지만 기존에 여러 연구자들에 의해 위험한 행동으로 간주될 수 있는 위키피디아를 논문의 주요 근거 혹은 데이터 소스로 활용한 사례도 87건(15.1%)으로 조사되었다.

위키 기반 협력학습에서 스캐폴딩 유형이 창의성에 미치는 영향 (The Effects of Scaffolding Types in Wiki-based Collaborative Learning on Creativity)

  • 황경양;김회수
    • 한국콘텐츠학회논문지
    • /
    • 제19권2호
    • /
    • pp.66-78
    • /
    • 2019
  • 본 연구는 67명의 초등학교 6학년 학생들을 대상으로 위키 기반 협력학습 상황에서 스캐폴딩 유형에 따른 창의성의 차이를 검토하였다. 다변량공분산분석을 실시한 결과, 스캐폴딩 유형에 따른 창의성은 집단 간에 유의한 차이가 있었다. 세 집단에 따른 사전-사후 창의성의 효과에서는 유창성, 정교성, 성급한 종결에 대한 저항, 창의적 강점은 실험집단 1이 사전-사후 향상도가 가장 높은 것으로 나타났다. 실험집단 2는 독창성이 타집단에 비하여 사전-사후 향상도가 높았으며, 비교집단은 독창성, 제목의 추상성, 성급한 종결에 대한 저항, 창의적 강점은 사전보다 사후에 감소한 것으로 나타났다. 본 연구결과는 위키 기반 협력학습에서 메타인지적 자기 스캐폴딩은 창의성에 유의미한 영향을 미치지만, 실험집단 1이 독창성에서 향상도가 낮은 결과는 학습자들이 교사 스캐폴딩에는 익숙하나, 메타인지적 자기 질문 스크립트를 통한 독창성 향상에 잘 활용하지 못한 것으로 나타났다. 위키 기반 협력학습에서 학습자의 창의성 신장을 위해서 교사 스캐폴딩 뿐만 아니라 자기 스캐폴딩도 필요하며, 학습자 개인에 따른 차별화된 자기 스캐폴딩 전략을 사용하는 것이 효과적이라는 것을 시사한다.

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축 (Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling)

  • 천주룡;고영중
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.901-909
    • /
    • 2015
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

위키를 활용한 상호작용이 산출적 어휘 지식에 미치는 영향 (Effects of Interaction using Wiki on Productive Vocabulary Knowledge)

  • 장용선
    • 한국콘텐츠학회논문지
    • /
    • 제14권5호
    • /
    • pp.487-497
    • /
    • 2014
  • 본 연구의 목적은 의사소통 중심의 수업에서 동료 및 교사와 위키를 활용하여 상호작용하는 것이 우연적으로 산출적 어휘 지식을 향상시키는데 효과가 있는지를 알아보는 것이다. 대학 1학년 학생 82명이 두 집단으로 구분되어 본 연구에 참여했다. 4-5명이 한 조가 되어 7-10분 길이의 영화를 만드는 프로젝트에서 조원들과 교사는 위키로 상호작용하면서 협동하여 영어 대본을 만들었다. 38명(과정 집단)은 위키로 상호작용하면서 영어 대본을 만드는 과정 중에 수시로 교사의 피드백을 받고 수정하면서 최종본을 만들었다. 반면에 44명(결과 집단)은 조원들이 위키로 협력하여 1차 대본을 작성하고 그 결과물에 대해 교사의 피드백을 1회 받은 후 수정하여 최종본을 만들었다. 참여자들의 사전 어휘 지식을 측정하기 위해 어휘 지식 시험을 시행했고, 실험 처치 후에 산출적 어휘 지식의 습득과 유지를 측정하는 사후 시험을 두 번 보았다. 본 연구에서 나타난 결과는 위키를 활용하여 동료 및 교사와 상호작용할 때 어휘를 계속 사용할 기회가 많았던 것이 산출적 어휘 지식을 향상시키는데 도움이 되었으며, 과정 집단이 결과 집단보다 조금 더 큰 폭으로 점수가 상승되었다는 점이다. 이러한 결과들을 종합하여 교육적인 시사점도 논의되었다.

초등학교 교육활동을 위한 Wikipedia의 교육적 활용방안 연구 (The Study for Elementary Educational Activities Using Wikipedia)

  • 김현정;홍명희
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2009년도 하계학술대회
    • /
    • pp.179-187
    • /
    • 2009
  • Web2.0은 정치, 경제, 사회 등의 다양한 분야에서 큰 영향을 주었는데 교육 분야에서도 활발한 응용을 볼 수 있었다. Web2.0을 교육적으로 활용할 수 있는 다양한 사이트 중 Wikipedia는 Web2.0의 집단지성을 대표하는 것으로 유명하다. Wikipedia는 오픈소스백과사전으로서 누구나 편집이 가능하고 배타적인 저작권을 가지고 있지 않기 때문에 사용에 제약을 받지 않는다. 현재 267개의 언어로 서비스되고 있으며, 모든 언어를 합하면 1000만여 항목이 넘으며, 앞으로의 발전이 기대되는 온라인 사전이다. Wikipedia는 정보 검색, 정보생성, 위키문법이용 편집, 토론 등의 기본 기능과 사용자문서 관리, 문서역사, 바벨, 위키미디어 프로젝트 등의 응용 기능이 있으며, 집단지성과 즉시성, 발전가능성, 개방성, 대용량성 등의 교육적 장점을 갖고 있으나, 현재 한국 교육 현장에서는 활발히 이용되고 있지 않은 것이 현실이다. 이에 Wikipedia를 초등학교 교육 현장에 적용하는 다음의 6가지 활동을 제안한다. 첫째, 정보검색, 둘째 정보편집, 셋째 정보생성, 넷째 정보토론, 다섯째 학습 결과물의 정리, 여섯째 프로젝트 학습의 활동들을 적용할 수 있다. 브리태니커사전과 비교할 정도로 정확하다는 긍정적인 시각과 누구나 편집을 할 수 있기 때문에 문서훼손이 생겨 부정확하다는 부정적인 시각이 있다. 또한 한국 Wikipedia가 타국의 Wikipedia에 비해 부진한 이유를 찾는 논의에는 여러 해석이 있다. 이러한 논의에도 불구하고 Wikipedia에는 무궁한 발전 가능성이 있기 때문에 교육에 활용할 만한 가치가 있다고 판단된다.

  • PDF

지식 생산 방식에 따른 집단지성 구조 분석 -네이버 지식IN과 위키피디아를 중심으로- ('Collective intelligence Structure' Analysis)

  • 한창진
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.1363-1373
    • /
    • 2009
  • 본 연구는 두 집단지성의 가장 대표적인 서비스인 네이버 지식iN과 위키피디아의 구조적, 경험적 차이를 바탕으로 생산의 차원에서 생산 주기, 생산 참여자, 생산물의 모델을 설정하고, 새롭게 탄생하는 지식을 중심으로 검증함으로써 최종 지식 소비 행위를 반영한 각각의 종합모델을 도출하였다. 우리는 웹에서 집단지성의 일상화를 확인할 수 있다. 지식 획득 매체가 매스미디어에서 인터넷으로 변화하는 과정에서 등장한 포털 및 검색사이트는 지식의 생산이 전문가패러다임에서 소비자 중심으로 재편될 수 있는 가능성을 열어주었다. 그리고 이러한 생산 방식의 변화는 '지식'의 개념 역시 변화시키고 있다. 즉, 집단지성이라는 새로운 웹2.0의 현상이 지식생산방식을 변화시키고 변화된 지식생산방식은 '지식'자체를 변화시킨다는 이론적 가설을 도출할 수 있는 것이다. 본 연구는 이러한 새로운 현상들을 분석하기 위해서는 먼저 보다 엄밀하게 집단지성의 개념을 규정할 필요성에 출발하였다. 현재 집단지성이라는 이름으로 불리면서 급격히 성장하고 있는 위키 방식의 인터넷 서비스와 지식검색 방식의 인터넷 서비스를 비교함으로써 보다 정교한 집단지성의 모델을 구축하고자 하였다. 위키형 집단지성과 지식검색형 집단지성의 차이점은 경험적으로도 뚜렷하게 확인할 수 있다. 본 연구는 이러한 경험적 차이와 기존의 문헌에서 밝혀진 사실들을 바탕으로 두 서비스의 지식생산 방식을 생산플로우, 생산참여자 성향, 생산물(지식)의 성향과 같이 세 영역으로 나누어 각각의 가설 모델을 설정하고 이 모델을 선정된 질의어를 바탕으로 검증한 뒤에 최종적인 모델을 도출하는 방식으로 진행되었다. 지식검색형 집단지성은 '질문-답변-채택'의 구조이고, 그 구조 속에서 '질문기-답변기-순서화기'를 거쳐 하나의 지식 덩어리인 'K-let'을 생산한다. 생산된 'K-let'들은 지식검색서비스의 데이터베이스에 축적되고, 이는 공통된 질의어를 기준으로 소비자들에 의해서 검색되어 소비된다. 하나의 질문에 대해 여러 개의 답변들이 존재하고, 답변자의 성향은 크게 전문성과 체계성을 바탕으로 한 전문가형 답변자와 경험적이고 의견지향적인 대화형 답변자로 나눠진다. 다수의 네티즌들의 참여에 의해서 지식의 생산이 진행되므로 질문의 성향 역시 사실, 의견, 경험 등 다양한 스펙트럼을 가지는 모델로 설정하였다. 반면에 위키형 집단지성은 개방형 플랫폼을 바탕으로 한 백과사전의 형식이며, 이러한 형식 속에서 최초의 개념어 등록과 다수의 편집활동을 거치면서 완성되지 않는 하나의 아티클인 'W-let'을 생산한다. 이러한 'W-let'은 생성 초기에 소수에 의한 활발한 내용 입력 활동으로 어느 정도의 안정화를 거친 후에는 꾸준한 다수의 수정활동을 통해서 'W-let'의 생명력을 유지함으로써 지식의 실제적인 변화를 반영한다. 생산된 'W-let'들은 위키형 집단지성 서비스의 데이터베이스에 축적되고, 이것들은 내부링크를 통해서 모두 연결되어 있다. 백과사전 형식으로 하나의 개념어를 설명하는 하나의 아티클은 오로지 사실적인 지식들로만 구성되나 내부링크와 외부링크를 통해서 다양한 스펙트럼을 가지는 모델로 설정하였다. 위와 같이 설정된 모델을 바탕으로 공통된 질의어 및 개념어를 선정하여 각각의 서비스에 노출시켰다. 이를 통해서 얻어진 각 서비스의 데이터베이스에 축적된 모든 데이터들 중에서 일정한 기간을 기준으로 각각의 모델 검증에 필요한 데이터를 추출하여 분석하는 방식으로 진행되었다. 그 결과 지식검색형 집단지성에서는 '질문-답변-채택'의 생산 구조 속에 다수가 참여하여 질문-채택답변-기타답변으로 배열되어 있는 완성된 형태의 K-let들을 지속적으로 생산하며 비슷한 성향을 가진 K-let들이 반복적으로 생산되어 지식검색 데이터베이스에 누적된다. 지식 소비자들은 질의어 검색을 통해서 다양한 K-let들을 선택하여 비교, 검토한 후에 선택된 K-let들의 배열은 해체되어 소비자들에 의해서 재배열됨을 발견할 수 있었다. 이에 지식검색형 집단지성이란 다수의 의해서 생산되고 누적된 지식들이 소비자의 검색과 선택에 의해 해체되어 재배열되는 지식의 맞춤화 과정이라고 정의내릴 수 있었다. 반면에 위키형 집단지성에서는 '내용입력-미세수정' 구조 속에서 생명력 있는 W-let을 생성한다. W-let은 백과사전처럼 정리되어 내부링크를 통해서 서로 연결되고, 외부링크를 통해 확장되고, 지식소비자들은 검색을 통해 최초의 W-let에 도달한 후에 링크를 선택함으로써 지식을 확장시킴을 검증할 수 있었다. 따라서 위키형 집단지성이란 다수의 의해서 생산되고 정리된 지식들이 소비자의 검색과 링크에 의해 무한히 확장되는 지식의 확대 재생산되는 과정이라고 정의 내릴 수 있다. 결국, 현재의 집단지성이란 지식이 다수의 참여로 생산됨으로써 개인에게 맞춤화되고, 끊임없이 확대 재생산되는 과정을 의미한다. 그리고 이러한 집단지성의 방식은 지식이라는 현재의 차원을 넘어서 정치, 경제를 비롯한 사회의 전 영역으로 점차적으로 확대되어갈 것이다. 앞으로 연구들은 두 가지 모델이 혼재되어 있는 현재의 집단지성이 어떠한 새로운 모델을 만들면서 다른 영역으로 확장되어갈 것인지에 대해서 초점을 맞춰 나가야할 것이다.

  • PDF

한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안 (Measurement of Political Polarization in Korean Language Model by Quantitative Indicator)

  • 김정욱;김경민;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

위키피디아로부터 한국어-영어 병렬 문장 추출 (Extracting Korean-English Parallel Sentences from Wikipedia)

  • 김성현;양선;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권8호
    • /
    • pp.580-585
    • /
    • 2014
  • 본 연구는 '위키피디아 데이터를 이용한 병렬 문장 추출'이라는 주제에 대해서, 기존에 해외에서 사용되었던 다양한 방법을 한국어 위키피디아 데이터에 실제로 적용해보고 그 결과를 정리하여 보고한다. 실험 방식은 두 가지로 나눌 수 있는데, 첫 번째는 번역 확률을 이용하는 방법으로 세종 병렬 말뭉치 등의 기존 자원으로부터 번역 확률을 추출하여 사용한다. 두 번째는 사전을 이용하는 방법으로, 위키피디아 타이틀로 구성된 위키 사전(Wiki dictionary)을 기본으로 하여, MRD(machine readable dictionary) 정보와 숫자 사전을 추가로 사용한다. 실험 결과, 기존 자원만 이용한 경우보다 위키피디아 데이터를 결합하여 사용한 경우에 매우 큰 폭의 성능 향상을 얻어, 최종적으로 F1-score 57.6%의 우수한 성능을 산출하였다. 또한 토픽 모델(topic model)을 이용한 실험도 추가로 수행하였는데, F1-score 51.6%로 최종 성능 면에서는 낮았지만 비지도 학습 방법이라는 장점을 고려할 때 추가 연구에 대한 여지가 있다고 볼 수 있다.

표 질의응답을 위한 언어 모델 학습 및 데이터 구축 (Pre-trained Language Model for Table Question and Answering)

  • 심묘섭;전창욱;최주영;김현;장한솔;민경구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.335-339
    • /
    • 2021
  • 기계독해(MRC)는 인공지능 알고리즘이 문서를 이해하고 질문에 대한 정답을 찾는 기술이다. MRC는 사전 학습 모델을 사용하여 높은 성능을 내고 있고, 일반 텍스트문서 뿐만 아니라 문서 내의 테이블(표)에서도 정답을 찾고자 하는 연구에 활발히 적용되고 있다. 본 연구에서는 기존의 사전학습 모델을 테이블 데이터에 활용하여 질의응답을 할 수 있는 방법을 제안한다. 더불어 테이블 데이터를 효율적으로 학습하기 위한 데이터 구성 방법을 소개한다. 사전학습 모델은 BERT[1]를 사용하여 테이블 정보를 인코딩하고 Masked Entity Recovery(MER) 방식을 사용한다. 테이블 질의응답 모델 학습을 위해 한국어 위키 문서에서 표와 연관 텍스트를 추출하여 사전학습을 진행하였고, 미세 조정은 샘플링한 테이블에 대한 질문-답변 데이터 약 7만건을 구성하여 진행하였다. 결과로 KorQuAD2.0 데이터셋의 테이블 관련 질문 데이터에서 EM 69.07, F1 78.34로 기존 연구보다 우수한 성능을 보였다.

  • PDF