• Title/Summary/Keyword: 어휘정보

검색결과 1,062건 처리시간 0.025초

소셜 네트워크 서비스에 노출된 개인정보의 소유자 식별 방법 (A Method of Identifying Ownership of Personal Information exposed in Social Network Service)

  • 김석현;조진만;진승헌;최대선
    • 정보보호학회논문지
    • /
    • 제23권6호
    • /
    • pp.1103-1110
    • /
    • 2013
  • 본 논문에서는 소셜 네트워크 서비스 상에 공개된 개인정보의 소유자 식별 방법을 제안한다. 구체적으로는 트위터상에 언급된 지역 정보가 게시자의 거주지를 의미하는지를 자동으로 판단하는 방법이다. 개인정보 소유자 식별은 특정인의 개인정보가 온라인 상에 얼마나 노출되어 있는지 파악하여 그 위험도를 산정하기 위한 과정의 일부로서 필수적이다. 제안 방법은 트윗 문장의 어휘 및 구조적 특징 13개를 자질(feature set)로 활용한 소유자 식별 규칙들을 통해 지역정보가 게시자의 거주지를 의미하는지 판단한다. 실제 트위터 데이터를 이용한 실험에서 제안방법이 n-gram을 자질로 사용한 나이브베이지안 같은 전통적인 문서 분류 모델보다 더 높은 성능 (F1값 0.876)을 보였다.

U-WIN 기반의 의미적 정보검색 기술 (Semantic Information Retrieval Based on User-Word Intelligent Network)

  • 임지희;최호섭;옥철영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.547-550
    • /
    • 2006
  • 사용자가 원하는 정보를 얼마나 정확하게 제시하느냐가 정보검색시스템 성능을 판단하는 기준이 된다. 그러나 동형이의어만을 질의어로 이용한 검색 결과는 동형이의어 각 의미에 관련된 문서가 혼재되어 있거나, 특정 의미에 관련된 문서만 집중적으로 나타나는 현상을 볼 수 있다. 그래서 본 논문에서는 한국어 사용자 어휘지능망(U-WIN)의 관계정보를 이용하여, 질의어의 모호성을 해결하는 의미적 정보검색의 기반이 되는 기술을 제안한다. 실험에서 질의어는 전문분야에 주로 사용되는 동형이의어와 보편적으로 사용하는 동형이의로 구분하고, '질의어+상위어' 형태의 확장 질의어를 설정한다 그래서 포탈사이트의 웹 문서만을 대상으로 한 정확률은 73.5%, 통합검색의 정확률은 68.7%로 나타났다. 이것은 U-WIN 기반의 의미적 정보검색 기술이 정보검색 시스템에서 효율적임을 알 수 있다.

  • PDF

Google Scholar의 학술정보 검색을 위한 정보 유용성 비교연구 (An Investigation of Information Usefulness of Google Scholar in Comparison with Web of Science)

  • 김현정
    • 한국비블리아학회지
    • /
    • 제25권3호
    • /
    • pp.215-234
    • /
    • 2014
  • Google Scholar(GS)는 인용색인 데이터베이스 측면에서 나름 부족한 부분은 있으나 무료라는 점과 대규모 크기의 데이터를 갖춘 이용자 중심의 자료라는 점에서 많은 이용자에 의해 이용되고 있다. 본 연구는 Google Scholar의 학술정보 검색을 겨냥한 정보 유용성 진단을 목적으로 기존의 통제어휘의 기반을 둔 인용색인 데이터베이스인 Web of Science(WoS)와 대비하여 비교분석한다. 실증적 정보 유용성 평가를 위해 두 가지 분석으로 진행되었다; 첫째는 문헌정보학 분야의 학술지를 중심으로 두 데이터베이스의 검색결과와 인용문헌의 수의 차이가 있는가를 정량 분석했다. 두 번째는 WoS 접근성이 떨어지는 이용자의 경우 GS가 WoS의 대체 정보원으로 기능할 수 있는지에 대해 이용자를 대상으로 정성분석을 실시했다. 실증 데이터 분석을 통해 얻어진 연구 결과는 정량평가에서 GS는 WoS에 대비해서 통계적으로도 유의한 높은 검색결과와 인용문헌수의 차이를 보여 대체 정보원의 기능이 가능한 반면, 정성평가에서는 이용자들은 GS와 WoS의 질적 차이를 크게 느끼지 못하는 것으로 나타나 대체기능을 확인할 수 없는 것으로 나타났다.

범주 기반 평가를 이용한 검색시스템의 성능 향상 (Improving Performance of Search Engine Using Category based Evaluation)

  • 김형일;윤현님
    • 한국콘텐츠학회논문지
    • /
    • 제13권1호
    • /
    • pp.19-29
    • /
    • 2013
  • 정보에 대한 공간 복잡도가 높은 현재의 인터넷 환경에서는 사용자가 원하는 정보를 정확히 제공하는 것이 검색엔진의 목표이다. 그러나 대다수 검색엔진이 활용하는 내용 기반 기법은 현재의 인터넷 환경에서는 효과적인 도구로 사용될 수 없다. 내용 기반 기법은 어휘의 형태적 특성을 이용하여 웹페이지 가중치를 결정하기 때문에 웹페이지에 대한 변별력이 우수하지 못하다는 단점이 있다. 이러한 문제점을 해결하여 사용자에게 효과적인 정보를 제공하기 위해, 본 논문에서는 범주 기반 평가 기법을 제안한다. 범주 기반 평가 기법은 질의어를 의미관계로 확장하여 웹페이지와 유사성을 측정한다. 웹페이지 가중치 적용에 있어서, 범주 기반 평가 기법은 웹페이지 검색에 대한 사용자 반응과 질의어 범주를 가중치에 활용함으로써 웹페이지에 대한 변별력을 증가시킨다. 본 논문에서 제안한 기법은 사용자가 원하는 정보를 검색엔진을 통해 효과적으로 제공할 수 있는 장점이 있으며, 다양한 실험을 통해 범주 기반 평가 기법의 활용성을 확인하였다.

사건 탐지 및 추적을 위해 신문기사에서 자동 추출된 시간정보의 유용성 판단 (Judgment about the Usefulness of Automatically Extracted Temporal Information from News Articles for Event Detection and Tracking)

  • 김평;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권6호
    • /
    • pp.564-573
    • /
    • 2006
  • 시간정보는 정보 추출, 질의응답 시스템, 자동 요약과 같은 자연언어 처리 응용분야에서 중요한 역할을 한다. 사건 탐지 및 추적 분야에서는 기사의 발행일이 기사간 유사도 계산에 많이 사용되고 있지만 그 유용성에는 한계가 있다. 본 연구에서는 사건 탐지 및 추적 시스템의 성능을 향상시키기 위해서, 한국어 신문기사를 대상으로 비교적 간단한 자연언어 처리 기술을 사용해서 시간정보를 추출하는 방법을 개발하였다. 시간표현 어구를 추출하기 위해 품사패턴과 어휘사전이 사용되었고, 추출된 시간표현 어구는 정규화 과정을 통해 특정 시각 또는 기간으로 변환되었다. 실험을 통해 시간표현 추출과정의 정확도를 측정하였고, 기사에서 자동으로 추출된 시간을 사용함으로써 사건 탐지 및 추적 시스템의 성능을 향상시킬 수 있었다.

교육용 앱 평가도구 개발 연구 (Development of Evaluation Tool for Educational Applications)

  • 이정숙;김성완
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제47차 동계학술대회논문집 21권1호
    • /
    • pp.149-152
    • /
    • 2013
  • 이 연구는 스마트교육환경에서의 교육용 앱을 평가하기 위한 신뢰롭고 타당한 도구를 개발하는데 있다. 기존 선행연구에 기초해서 교육용 앱의 평가를 위한 평가모형을 도출했으며, 이 모형은 4개의 평가영역(교수 학습측면, 화면디자인측면, 기술측면, 경제 윤리측면)과 13개 평가요소들로 구성되었다. 이 잠재모형의 통계적 타당성 검증을 위한 자료수집을 하고자, 경기도 소재 중학교 1곳과 고등학교 2곳의 학생 156명을 대상으로 교육용 앱을 평가하는데 있어서 각 평가문항이 갖는 중요도를 평가하였다. 수집된 자료를 탐색적 요인분석한 결과, 교육용 앱을 평가하는 영역으로 교수 학습(흥미성 자기주도성 실용성, 인지발달성), 화면디자인(디자인의 적합성, 어휘의 정확성), 기술(호환성, 안정성), 경제 윤리(경제성, 윤리성) 등 4개 영역이 제안되었다. 또한 문항내적일관성을 확인하고자 신뢰도 분석한 결과, 각 평가영역 별 Cronbach ${\alpha}$는 .88, .85, .82, .80으로 모두 적합한 수준을 보였다. 따라서, 이 연구를 통해 도출된 교육용 앱 평가도구는 통계적으로나 타당성과 신뢰성 측면에서 의미 있는 것으로 판단할 수 있다.

  • PDF

조어 중심적 주제어간 관계 추출 및 분석 (Analyzing and Extracting Relations between Topic Keywords Based on Word Formation)

  • 정한민;이미경;성원경
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2008년도 정기학술대회
    • /
    • pp.166-171
    • /
    • 2008
  • 본 연구는 기존에 잘 알려지고 널리 사용되고 있는 어휘 의미망이나 시소러스를 활용하기 어려운 과학 기술 분야, 특히 IT 분야에서 대용량 용어간 관계를 빠른 시간 내에 구축하여 검색 브라우징, 내비게이션 용도로 활용하는 것을 목표로 한다. 시소러스 구축 절차를 따르는 경우에 분야 전문가에 의한 정교한 작업과 고비용을 필요로 하여 충분한 구축 크기를 확보하는 것에 현실적인 어려움이 있다. 시소러스 자동 구축 방법론을 사용하는 경우에도 해당 용어들이 출현하는 방대한 말뭉치를 확보해야 하며 관계 구축 결과에 대한 직관적 이해가 쉽지 않다는 단점이 있다. 본 연구는 해외 학술 논문 말뭉치와 메타데이터에서 획득한 37만 여 주제어들을 이용하여 상 하위 관계, 관련어, 형제 관계를 추출하기 위해 조어적 기준에 근거한 규칙들을 이용한다. 이들 규칙을 이용하여 추출한 관계 수는 상 하위 관계 60여 만 개, 관련어 640여 만 개, 형제 관계 2,000여 만 개 등이다. 또한, 추출 결과 중 일부를 수작업으로 분석하여 단순한 추출 규칙에서 발생하는 오류 유형을 찾아내고 향후 과제에서 해결할 수 있는 방안에 대해 논하자고 한다.

  • PDF

한국어 음가의 표기 복원을 위한 표기 후보 생성 및 감소에 관한 연구 (A Study On Generation and Reduction of the Notation Candidate for the Notation Restoration of Korean Phonetic Value)

  • 이상범;박성현
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.99-106
    • /
    • 2004
  • 음절 복원은 음성 인식 장치에서 인식된 음가열을 발성 이전의 표기 형태로 복원하는 과정이다. 본 논문에서는 음절 복원 과정을 위하여 표준 발음법을 기반으로 음절 복원 규칙을 작성하였다. 음절 복원 규칙을 이용하여 표기 후보 집합의 생성 방법을 연구하였다. 또한 생성된 표기후보의 수를 감소시키기 위하여, 비 표기 음절을 포함한 표기 후보 감소, 비 어휘 음절을 포함한 표기 후보 감소, 비어간 음절을 포함한 표기 후보 감소의 3단계 감소 과정을 제안하였다. 제안된 방법을 통하여 실험한 결과 평균 74%의 표기 후보 감소율을 나타내었다.

'Bibliography'의 어휘와 '중국재래의 목록학' -특히 아편전쟁이전을 중심으로- (Bibliography and the Cenventional Chinese Catalogue - Emphasis on the period prior to the Opium War-)

  • 심우준
    • 한국문헌정보학회지
    • /
    • 제4권
    • /
    • pp.27-42
    • /
    • 1975
  • Usage and scope of the word Bibliography in comparison with in conventional Chinese Catalogue (中國 在來 目錄學) (1) Usage of the word in connection with the study of books in the West has been changed from 'writing of books' (17th century) to the meaning of 'study of a book as an object'(l8th century), and this meaning of the 18th century has been transmitted up to the present. (2) In its scope, 14 branches(eight in physical aspect, six in content of books) were set up independently for the study of a book as an object. On the other hand, the term Textual Bibliography(校수學) was in use in China before the Opium War, however the word Catalogue (目錄學) has been a current word for the subject study as in the case of Bibliography in the West. And in the scope of study of a book as an object, although some of its aspect is somewhat similar to the Occidental Bibliorgraphy, the main stream of learning is regregarded as the root and the physical aspects as branches and lea leaves, thus the latter has been treated with less importance.

  • PDF

한글 파닉스 교육을 위한 초등 1-2학년 교과서 어휘 자소분석 (Textbook vocabulary analysis for Korean phonics program of 1st and 2nd graders)

  • 이다은;김혜지;신가영;설아영;배소영;김미배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.226-230
    • /
    • 2016
  • 본 연구는 초등 저학년 읽기부진아동을 위한 한글 파닉스 교육의 기반을 확립하고자 1-2학년 교과서 고빈도 어절 531개를 기반으로 자소 및 음운규칙을 분석하였다. 연구결과, 자소-음소 일치 어절을 기반으로 하였을 때 초성에서 50번 이상 나타난 자소는 /ㄱ/, /ㄹ/, /ㄴ/, /ㅅ/, /ㅎ/, /ㅈ/이다. 중성에서 50번 이상 나타난 자소는 /ㅏ/, /ㅣ/, /ㅗ/, /ㅡ/, /ㅜ/이다. 종성에서 50번 이상 나타난 자소는 /ㄹ/, /ㄴ/, /ㅇ/이다. 자소와 음소가 불일치 된 어절을 기반으로 하였을 때 가장 많이 출현하는 음운규칙은 연음화 규칙이었다. 본 연구결과를 바탕으로 교과서를 기반으로 한 한글 파닉스 교육에 유용하게 사용될 수 있을 것이다.

  • PDF