DPO: Reward Model없이 사람선호를 학습할 수 있을까?| NeurIPS 2023 | 이승현

Published 2024-05-17

Download video MP4 360p
Download video MP4 720p

Recommendations

21:49

LLAMA2: 오픈소스 위한 LLM 레시피 - Pre-training | Meta 2023 | 김보섭
41:53

[Paper Review] Investment Strategy using Interpretable Deep Reinforcement Attention Networks
46:34

교육실습 연구수업
40:14

LLM 학습 데이터가 고갈될까? | ArXiv 2022 | 이인규
37:12

PR-453: Direct Preference Optimization
1:01:36

Fine-Grained Human Feedback으로 LLM을 더 잘 학습 할 수 있는가? | NeurIPS 2023 | 김강민
46:03

LLM 역사를 함께 거꾸로 읽어보시죠 ! | 강재욱
21:33

[TW-TechReview-005] LLM 평가지표 ㅣ 한승규
38:43

인공지능, 딥러닝을 알고싶다면 이 영상을 보세요 (보이저엑스 남세동 대표) [인공지능 시리즈 1/3]
06:30

이 영상 하나면 '인공지능', '머신러닝', '딥러닝' 이해가 됩니다ㅣ서울대 AI박사 6분 개념정리
36:49

LLAMA2: 오픈소스 위한 LLM 레시피 - Fine-Tuning | Meta 2023 | 김보섭
37:26

PR-476: A General Theoretical Paradigm to Understand Learning from Human Preferences (IPO)
1:01:57

무궁무진한 AI 어디까지 알고 있니? f. 한빛미디어 박태웅 의장 [심층 인터뷰]
3:21:57

Houdini Algorithmic Live #111 - Field-based Anisotropic Remeshing
07:25

구글, 페이스북 출신 개발자가 코딩 반대하는 이유
41:12

논문 리뷰 시스템을 AI가 대체할 수 있을까? | Antropic 2022 | 조원익
09:47

공부를 꼭 해야 할까? | 공부에 관한 뇌과학
33:56

😎ChatGPT 핵심기술 RLHF 코드리뷰 feat ChatLLaMA😎
16:55

자연어 처리 트랜스포머 1강(Embedding, Positional Encoding)
1:19:02

[Open DMQA Seminar] RLHF-Preference-based Reinforcement Learning

DPO: Reward Model없이 사람선호를 학습할 수 있을까?| NeurIPS 2023 | 이승현

Download video MP4 360p

Download video MP4 720p

LLAMA2: 오픈소스 위한 LLM 레시피 - Pre-training | Meta 2023 | 김보섭

[Paper Review] Investment Strategy using Interpretable Deep Reinforcement Attention Networks

교육실습 연구수업

LLM 학습 데이터가 고갈될까? | ArXiv 2022 | 이인규

PR-453: Direct Preference Optimization

Fine-Grained Human Feedback으로 LLM을 더 잘 학습 할 수 있는가? | NeurIPS 2023 | 김강민

LLM 역사를 함께 거꾸로 읽어보시죠 ! | 강재욱

[TW-TechReview-005] LLM 평가지표 ㅣ 한승규

인공지능, 딥러닝을 알고싶다면 이 영상을 보세요 (보이저엑스 남세동 대표) [인공지능 시리즈 1/3]

이 영상 하나면 '인공지능', '머신러닝', '딥러닝' 이해가 됩니다ㅣ서울대 AI박사 6분 개념정리

LLAMA2: 오픈소스 위한 LLM 레시피 - Fine-Tuning | Meta 2023 | 김보섭

PR-476: A General Theoretical Paradigm to Understand Learning from Human Preferences (IPO)

무궁무진한 AI 어디까지 알고 있니? f. 한빛미디어 박태웅 의장 [심층 인터뷰]

Houdini Algorithmic Live #111 - Field-based Anisotropic Remeshing

구글, 페이스북 출신 개발자가 코딩 반대하는 이유

논문 리뷰 시스템을 AI가 대체할 수 있을까? | Antropic 2022 | 조원익

공부를 꼭 해야 할까? | 공부에 관한 뇌과학

😎ChatGPT 핵심기술 RLHF 코드리뷰 feat ChatLLaMA😎

자연어 처리 트랜스포머 1강(Embedding, Positional Encoding)

[Open DMQA Seminar] RLHF-Preference-based Reinforcement Learning